Spaces:

Ritesh-hf
/

rag-api

Running on Zero

Ritesh-hf commited on 22 days ago

Commit

4271625

•

1 Parent(s): c29148e

change GPU settings

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,8 +6,8 @@ os.environ['USER_AGENT'] = os.getenv("USER_AGENT")
 os.environ["GROQ_API_KEY"] = os.getenv("GROQ_API_KEY")
 os.environ["TOKENIZERS_PARALLELISM"]='true'
-import nltk
-nltk.download('punkt')
 from langchain.chains import create_history_aware_retriever, create_retrieval_chain
 from langchain.chains.combine_documents import create_stuff_documents_chain
@@ -43,7 +43,7 @@ except:
 bm25 = BM25Encoder().load("./bm25_traveler_website.json")
-embed_model = HuggingFaceEmbeddings(model_name="Alibaba-NLP/gte-large-en-v1.5", model_kwargs={"trust_remote_code":True})
 retriever = PineconeHybridSearchRetriever(
     embeddings=embed_model,
@@ -120,11 +120,8 @@ conversational_rag_chain = RunnableWithMessageHistory(
     output_messages_key="answer",
 )
-@spaces.GPU
 def handle_message(question, history={}):
-    zero = torch.Tensor([0]).cuda()
-    print("With GPU: ", zero.device)
-    # question = data.get('question')
     response = ''
     chain = conversational_rag_chain.pick("answer")
     for chunk in chain.stream(

 os.environ["GROQ_API_KEY"] = os.getenv("GROQ_API_KEY")
 os.environ["TOKENIZERS_PARALLELISM"]='true'
+# import nltk
+# nltk.download('punkt')
 from langchain.chains import create_history_aware_retriever, create_retrieval_chain
 from langchain.chains.combine_documents import create_stuff_documents_chain
 bm25 = BM25Encoder().load("./bm25_traveler_website.json")
+embed_model = HuggingFaceEmbeddings(model_name="Alibaba-NLP/gte-large-en-v1.5", model_kwargs={"trust_remote_code":True, 'device': 'cuda'})
 retriever = PineconeHybridSearchRetriever(
     embeddings=embed_model,
     output_messages_key="answer",
 )
+@spaces.GPU(duration=10)
 def handle_message(question, history={}):
     response = ''
     chain = conversational_rag_chain.pick("answer")
     for chunk in chain.stream(