Spaces:
Sleeping
Sleeping
Update app.py
Browse files
app.py
CHANGED
@@ -1,5 +1,7 @@
|
|
1 |
import streamlit as st
|
2 |
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
|
|
|
|
|
3 |
|
4 |
# Fordító modell betöltése (M2M100 fordítás magyar és angol között)
|
5 |
translator_tokenizer = AutoTokenizer.from_pretrained("facebook/m2m100_418M")
|
@@ -20,19 +22,41 @@ def translate_to_hungarian(text):
|
|
20 |
translated_text = translation_pipeline(text, src_lang="en", tgt_lang="hu", max_length=512)[0]['translation_text']
|
21 |
return translated_text
|
22 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
23 |
# Streamlit alkalmazás
|
24 |
st.title("AI Jogi Chatbot - Fordítás Alapú Megközelítéssel")
|
25 |
|
26 |
# Dokumentum feltöltése
|
27 |
-
uploaded_file = st.file_uploader("Töltsön fel egy dokumentumot", type=["txt"])
|
28 |
|
29 |
if uploaded_file:
|
30 |
-
|
31 |
-
|
32 |
-
|
33 |
-
|
34 |
-
context = uploaded_file
|
35 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
36 |
# Teljes dokumentum megjelenítése
|
37 |
st.write("### Feltöltött dokumentum tartalma:")
|
38 |
st.write(context)
|
|
|
1 |
import streamlit as st
|
2 |
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
|
3 |
+
import fitz # PyMuPDF PDF olvasáshoz
|
4 |
+
from docx import Document # DOCX olvasáshoz
|
5 |
|
6 |
# Fordító modell betöltése (M2M100 fordítás magyar és angol között)
|
7 |
translator_tokenizer = AutoTokenizer.from_pretrained("facebook/m2m100_418M")
|
|
|
22 |
translated_text = translation_pipeline(text, src_lang="en", tgt_lang="hu", max_length=512)[0]['translation_text']
|
23 |
return translated_text
|
24 |
|
25 |
+
# PDF szöveg kinyerése
|
26 |
+
def extract_text_from_pdf(pdf_file):
|
27 |
+
text = ""
|
28 |
+
with fitz.open("pdf", pdf_file.read()) as doc:
|
29 |
+
for page in doc:
|
30 |
+
text += page.get_text()
|
31 |
+
return text
|
32 |
+
|
33 |
+
# DOCX szöveg kinyerése
|
34 |
+
def extract_text_from_docx(docx_file):
|
35 |
+
doc = Document(docx_file)
|
36 |
+
text = "\n".join([paragraph.text for paragraph in doc.paragraphs])
|
37 |
+
return text
|
38 |
+
|
39 |
# Streamlit alkalmazás
|
40 |
st.title("AI Jogi Chatbot - Fordítás Alapú Megközelítéssel")
|
41 |
|
42 |
# Dokumentum feltöltése
|
43 |
+
uploaded_file = st.file_uploader("Töltsön fel egy dokumentumot", type=["txt", "pdf", "docx"])
|
44 |
|
45 |
if uploaded_file:
|
46 |
+
file_type = uploaded_file.type
|
47 |
+
|
48 |
+
# Dokumentum típus szerinti beolvasás
|
49 |
+
if file_type == "application/pdf":
|
50 |
+
context = extract_text_from_pdf(uploaded_file)
|
51 |
+
elif file_type == "application/vnd.openxmlformats-officedocument.wordprocessingml.document":
|
52 |
+
context = extract_text_from_docx(uploaded_file)
|
53 |
+
else:
|
54 |
+
# TXT fájl feltöltése esetén
|
55 |
+
try:
|
56 |
+
context = uploaded_file.read().decode("utf-8")
|
57 |
+
except UnicodeDecodeError:
|
58 |
+
context = uploaded_file.read().decode("ISO-8859-1")
|
59 |
+
|
60 |
# Teljes dokumentum megjelenítése
|
61 |
st.write("### Feltöltött dokumentum tartalma:")
|
62 |
st.write(context)
|