Spaces:

DocSA
/

Legal_Position_search_without_AI

Sleeping

App Files Files Community

docsa_HD commited on 21 days ago

Commit

081f7f6

•

1 Parent(s): 1861746

Edit

Browse files

Files changed (1) hide show

main.py +4 -54

main.py CHANGED Viewed

@@ -1,53 +1,25 @@
 import os
 import re
 import gradio as gr
-import pandas as pd
 import requests
-import json
-import faiss
 import nest_asyncio
 import sys
 import boto3
 from pathlib import Path
 from bs4 import BeautifulSoup
-from typing import Union, List
-import asyncio
 from llama_index.core import (
-    StorageContext,
-    ServiceContext,
-    VectorStoreIndex,
     Settings,
-    load_index_from_storage
 )
-from llama_index.llms.openai import OpenAI
-from llama_index.core.llms import ChatMessage
-from llama_index.core.schema import IndexNode
-from llama_index.core.storage.docstore import SimpleDocumentStore
 from llama_index.retrievers.bm25 import BM25Retriever
-from llama_index.embeddings.openai import OpenAIEmbedding
-# from llama_index.vector_stores.faiss import FaissVectorStore
 from llama_index.core.retrievers import QueryFusionRetriever
-from llama_index.core.workflow import Event, Context, Workflow, StartEvent, StopEvent, step
-from llama_index.core.schema import NodeWithScore
-from llama_index.core.prompts import PromptTemplate
-from llama_index.core.response_synthesizers import ResponseMode, get_response_synthesizer
-from prompts import CITATION_QA_TEMPLATE, CITATION_REFINE_TEMPLATE
 from dotenv import load_dotenv
 load_dotenv()
-# OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
-# os.environ["OPENAI_API_KEY"] = OPENAI_API_KEY
-#
-# embed_model = OpenAIEmbedding(model_name="text-embedding-3-small")
-# Settings.embed_model = embed_model
-Settings.context_window = 20000
-Settings.chunk_size = 2048
 Settings.similarity_top_k = 20
 # Параметри S3
@@ -92,31 +64,10 @@ def download_s3_folder(bucket_name, prefix, local_dir):
 download_s3_folder(BUCKET_NAME, PREFIX_RETRIEVER, LOCAL_DIR)
-# Apply nest_asyncio to handle nested async calls
-nest_asyncio.apply()
-import re
-import gradio as gr
-import nest_asyncio
-from pathlib import Path
-import requests
-from bs4 import BeautifulSoup
-import sys
 nest_asyncio.apply()
 state_nodes = gr.State()
-import re
-import gradio as gr
-import nest_asyncio
-from pathlib import Path
-import requests
-from bs4 import BeautifulSoup
-import sys
-nest_asyncio.apply()
 def parse_doc_ids(doc_ids):
     if doc_ids is None:
@@ -169,7 +120,6 @@ def initialize_components():
         global retriever_bm25
-        docstore = SimpleDocumentStore.from_persist_path(str(persist_path / "docstore_es_filter.json"))
         bm25_retriever = BM25Retriever.from_persist_dir(str(persist_path / "bm25_retriever_es"))
         retriever_bm25 = QueryFusionRetriever(
@@ -216,7 +166,7 @@ async def search_without_ai_action(url):
             links = get_links_html(doc_ids)
             links_lp = get_links_html_lp(lp_ids)
-            search_output_content += f"\n[ {index}] *{source_title}* {links_lp} | {links} 👉 Score: {node.score} \n"
         return search_output_content, nodes
     except Exception as e:
@@ -233,7 +183,7 @@ async def search_without_ai_action_text(question_input):
             lp_ids = node.node.metadata.get('lp_id')
             links = get_links_html(doc_ids)
             links_lp = get_links_html_lp(lp_ids)
-            search_output_content += f"\n[ {index}] *{source_title}* {links_lp} | {links} 👉 Score: {node.score} \n"
         return search_output_content, nodes
@@ -245,7 +195,7 @@ def create_gradio_interface():
     with gr.Blocks() as app:
         gr.Markdown("# Знаходьте правові позиції Верховного Суду")
-        input_field = gr.Textbox(label="Введіть текст або посилання на судове рішення", lines=2)
         search_button = gr.Button("Пошук", interactive=False)
         warning_message = gr.Markdown(visible=False)

 import os
 import re
 import gradio as gr
 import requests
 import nest_asyncio
 import sys
 import boto3
 from pathlib import Path
 from bs4 import BeautifulSoup
 from llama_index.core import (
     Settings,
 )
 from llama_index.retrievers.bm25 import BM25Retriever
 from llama_index.core.retrievers import QueryFusionRetriever
 from dotenv import load_dotenv
 load_dotenv()
 Settings.similarity_top_k = 20
 # Параметри S3
 download_s3_folder(BUCKET_NAME, PREFIX_RETRIEVER, LOCAL_DIR)
 nest_asyncio.apply()
 state_nodes = gr.State()
 def parse_doc_ids(doc_ids):
     if doc_ids is None:
         global retriever_bm25
         bm25_retriever = BM25Retriever.from_persist_dir(str(persist_path / "bm25_retriever_es"))
         retriever_bm25 = QueryFusionRetriever(
             links = get_links_html(doc_ids)
             links_lp = get_links_html_lp(lp_ids)
+            search_output_content += f"\n[{index}] *{source_title}* ⚖️ {links_lp} | {links} 👉 Score: {node.score} \n"
         return search_output_content, nodes
     except Exception as e:
             lp_ids = node.node.metadata.get('lp_id')
             links = get_links_html(doc_ids)
             links_lp = get_links_html_lp(lp_ids)
+            search_output_content += f"\n[{index}] *{source_title}* ⚖️ {links_lp} | {links} 👉 Score: {node.score} \n"
         return search_output_content, nodes
     with gr.Blocks() as app:
         gr.Markdown("# Знаходьте правові позиції Верховного Суду")
+        input_field = gr.Textbox(label="Введіть текст або посилання на судове рішення", lines=1)
         search_button = gr.Button("Пошук", interactive=False)
         warning_message = gr.Markdown(visible=False)