Spaces:

DAMO-NLP-SG
/

CoI_Agent

Running

jianghuyihei commited on 27 days ago

Commit

789383a

•

1 Parent(s): 863d8a3

fix

Files changed (1) hide show

searcher/sementic_search.py CHANGED Viewed

@@ -132,7 +132,11 @@ class SementicSearcher:
         return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))
     def read_arxiv_from_path(self, pdf_path):
-        article_dict = scipdf.parse_pdf_to_dict(pdf_path)
         return article_dict
     async def get_paper_embbeding_and_score_async(self,query_embedding, paper,llm):
@@ -281,7 +285,10 @@ Abstract: {paper['abstract']}
                 abstract = result['abstract']
                 citationCount = result['citationCount']
                 year = result['year']
-                article = scipdf.parse_pdf_to_dict(content)
                 if not article:
                     continue
                 final_results.append(Result(title,abstract,article,citationCount,year))
@@ -350,7 +357,10 @@ Abstract: {paper['abstract']}
             url = paper[2]
             content = await self.download_pdf_async(url)
             if content:
-                article = scipdf.parse_pdf_to_dict(content)
                 if not article:
                     continue
                 result = Result(paper[0],paper[1],article,paper[3],paper[4])

         return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))
     def read_arxiv_from_path(self, pdf_path):
+        try:
+            article_dict = scipdf.parse_pdf_to_dict(pdf_path)
+        except Exception as e:
+            print(f"Failed to parse the PDF file: {pdf_path}")
+            return None
         return article_dict
     async def get_paper_embbeding_and_score_async(self,query_embedding, paper,llm):
                 abstract = result['abstract']
                 citationCount = result['citationCount']
                 year = result['year']
+                try:
+                    article = scipdf.parse_pdf_to_dict(content)
+                except Exception as e:
+                    article = None
                 if not article:
                     continue
                 final_results.append(Result(title,abstract,article,citationCount,year))
             url = paper[2]
             content = await self.download_pdf_async(url)
             if content:
+                try:
+                    article = scipdf.parse_pdf_to_dict(content)
+                except Exception as e:
+                    article = None
                 if not article:
                     continue
                 result = Result(paper[0],paper[1],article,paper[3],paper[4])