Spaces:

albhu
/

legalgeekapp

Sleeping

albhu commited on 8 days ago

Commit

243487d

•

1 Parent(s): 22ff05f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -13,14 +13,33 @@ gpt_tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-large")
 gpt_model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-large")
 generate_answer = pipeline("text2text-generation", model=gpt_model, tokenizer=gpt_tokenizer)
 # Fordítás funkciók
 def translate_to_english(text):
-    translated_text = translation_pipeline(text, src_lang="hu", tgt_lang="en", max_length=512)[0]['translation_text']
-    return translated_text
 def translate_to_hungarian(text):
-    translated_text = translation_pipeline(text, src_lang="en", tgt_lang="hu", max_length=512)[0]['translation_text']
-    return translated_text
 # PDF szöveg kinyerése
 def extract_text_from_pdf(pdf_file):

 gpt_model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-large")
 generate_answer = pipeline("text2text-generation", model=gpt_model, tokenizer=gpt_tokenizer)
+# Szöveg feldarabolása max hosszal
+def chunk_text(text, max_length=512):
+    words = text.split()
+    chunks = []
+    while len(words) > max_length:
+        chunk = " ".join(words[:max_length])
+        chunks.append(chunk)
+        words = words[max_length:]
+    chunks.append(" ".join(words))
+    return chunks
 # Fordítás funkciók
 def translate_to_english(text):
+    chunks = chunk_text(text, max_length=512)
+    translated_text = ""
+    for chunk in chunks:
+        translation = translation_pipeline(chunk, src_lang="hu", tgt_lang="en", max_length=512)[0]['translation_text']
+        translated_text += " " + translation
+    return translated_text.strip()
 def translate_to_hungarian(text):
+    chunks = chunk_text(text, max_length=512)
+    translated_text = ""
+    for chunk in chunks:
+        translation = translation_pipeline(chunk, src_lang="en", tgt_lang="hu", max_length=512)[0]['translation_text']
+        translated_text += " " + translation
+    return translated_text.strip()
 # PDF szöveg kinyerése
 def extract_text_from_pdf(pdf_file):