albhu commited on
Commit
22ff05f
1 Parent(s): 1e207e2

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +31 -7
app.py CHANGED
@@ -1,5 +1,7 @@
1
  import streamlit as st
2
  from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
 
 
3
 
4
  # Fordító modell betöltése (M2M100 fordítás magyar és angol között)
5
  translator_tokenizer = AutoTokenizer.from_pretrained("facebook/m2m100_418M")
@@ -20,19 +22,41 @@ def translate_to_hungarian(text):
20
  translated_text = translation_pipeline(text, src_lang="en", tgt_lang="hu", max_length=512)[0]['translation_text']
21
  return translated_text
22
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
23
  # Streamlit alkalmazás
24
  st.title("AI Jogi Chatbot - Fordítás Alapú Megközelítéssel")
25
 
26
  # Dokumentum feltöltése
27
- uploaded_file = st.file_uploader("Töltsön fel egy dokumentumot", type=["txt"])
28
 
29
  if uploaded_file:
30
- try:
31
- # Szöveg beolvasása
32
- context = uploaded_file.read().decode("utf-8")
33
- except UnicodeDecodeError:
34
- context = uploaded_file.read().decode("ISO-8859-1")
35
-
 
 
 
 
 
 
 
 
36
  # Teljes dokumentum megjelenítése
37
  st.write("### Feltöltött dokumentum tartalma:")
38
  st.write(context)
 
1
  import streamlit as st
2
  from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
3
+ import fitz # PyMuPDF PDF olvasáshoz
4
+ from docx import Document # DOCX olvasáshoz
5
 
6
  # Fordító modell betöltése (M2M100 fordítás magyar és angol között)
7
  translator_tokenizer = AutoTokenizer.from_pretrained("facebook/m2m100_418M")
 
22
  translated_text = translation_pipeline(text, src_lang="en", tgt_lang="hu", max_length=512)[0]['translation_text']
23
  return translated_text
24
 
25
+ # PDF szöveg kinyerése
26
+ def extract_text_from_pdf(pdf_file):
27
+ text = ""
28
+ with fitz.open("pdf", pdf_file.read()) as doc:
29
+ for page in doc:
30
+ text += page.get_text()
31
+ return text
32
+
33
+ # DOCX szöveg kinyerése
34
+ def extract_text_from_docx(docx_file):
35
+ doc = Document(docx_file)
36
+ text = "\n".join([paragraph.text for paragraph in doc.paragraphs])
37
+ return text
38
+
39
  # Streamlit alkalmazás
40
  st.title("AI Jogi Chatbot - Fordítás Alapú Megközelítéssel")
41
 
42
  # Dokumentum feltöltése
43
+ uploaded_file = st.file_uploader("Töltsön fel egy dokumentumot", type=["txt", "pdf", "docx"])
44
 
45
  if uploaded_file:
46
+ file_type = uploaded_file.type
47
+
48
+ # Dokumentum típus szerinti beolvasás
49
+ if file_type == "application/pdf":
50
+ context = extract_text_from_pdf(uploaded_file)
51
+ elif file_type == "application/vnd.openxmlformats-officedocument.wordprocessingml.document":
52
+ context = extract_text_from_docx(uploaded_file)
53
+ else:
54
+ # TXT fájl feltöltése esetén
55
+ try:
56
+ context = uploaded_file.read().decode("utf-8")
57
+ except UnicodeDecodeError:
58
+ context = uploaded_file.read().decode("ISO-8859-1")
59
+
60
  # Teljes dokumentum megjelenítése
61
  st.write("### Feltöltött dokumentum tartalma:")
62
  st.write(context)