llm-qa-bench

Sleeping

inflaton commited on May 4

Commit

f850f3b

•

1 Parent(s): 01f4bd7

completed gradio app

Files changed (2) hide show

app.py CHANGED Viewed

@@ -8,19 +8,33 @@ from transformers import (
 )
 import os
 from threading import Thread
-import spaces
 import subprocess
 subprocess.run(
     "pip install flash-attn --no-build-isolation",
     env={"FLASH_ATTENTION_SKIP_CUDA_BUILD": "TRUE"},
     shell=True,
 )
-token = os.getenv("HF_TOKEN")
-model_name = (
-    os.getenv("MODEL_NAME") or "google/gemma-1.1-2b-it"
 )  # "microsoft/Phi-3-mini-128k-instruct"
 questions_file_path = (
     os.getenv("QUESTIONS_FILE_PATH") or "./data/datasets/ms_macro.json"
@@ -71,7 +85,6 @@ else:
 model = model.to(device)
-@spaces.GPU(duration=60)
 def chat(message, history, temperature, repetition_penalty, do_sample, max_tokens):
     print("repetition_penalty:", repetition_penalty)
     chat = []
@@ -123,13 +136,13 @@ demo = gr.ChatInterface(
     ),
     additional_inputs=[
         gr.Slider(
-            minimum=0, maximum=1, step=0.1, value=0.9, label="Temperature", render=False
         ),
         gr.Slider(
             minimum=1.0,
             maximum=1.5,
             step=0.1,
-            value=1.2,
             label="Repetition Penalty",
             render=False,
         ),

 )
 import os
 from threading import Thread
 import subprocess
+from dotenv import find_dotenv, load_dotenv
+found_dotenv = find_dotenv(".env")
+if len(found_dotenv) == 0:
+    found_dotenv = find_dotenv(".env.example")
+print(f"loading env vars from: {found_dotenv}")
+load_dotenv(found_dotenv, override=False)
 subprocess.run(
     "pip install flash-attn --no-build-isolation",
     env={"FLASH_ATTENTION_SKIP_CUDA_BUILD": "TRUE"},
     shell=True,
 )
+token = os.getenv("HUGGINGFACE_AUTH_TOKEN")
+model_name = os.getenv(
+    "HUGGINGFACE_MODEL_NAME_OR_PATH", "google/gemma-1.1-2b-it"
 )  # "microsoft/Phi-3-mini-128k-instruct"
+print(f"       model_name: {model_name}")
+HF_RP = os.getenv("HF_RP", "1.2")
+repetition_penalty = float(HF_RP)
+print(f"       repetition_penalty: {repetition_penalty}")
 questions_file_path = (
     os.getenv("QUESTIONS_FILE_PATH") or "./data/datasets/ms_macro.json"
 model = model.to(device)
 def chat(message, history, temperature, repetition_penalty, do_sample, max_tokens):
     print("repetition_penalty:", repetition_penalty)
     chat = []
     ),
     additional_inputs=[
         gr.Slider(
+            minimum=0, maximum=1, step=0.1, value=0, label="Temperature", render=False
         ),
         gr.Slider(
             minimum=1.0,
             maximum=1.5,
             step=0.1,
+            value=repetition_penalty,
             label="Repetition Penalty",
             render=False,
         ),

requirements.txt CHANGED Viewed

@@ -6,7 +6,6 @@ transformers==4.40.1
 accelerate==0.29.3
 python-dotenv==1.0.1
 gradio==4.26.0
-spaces==0.27.1
 black==24.4.0
 chardet==5.2.0
 sentencepiece==0.2.0

 accelerate==0.29.3
 python-dotenv==1.0.1
 gradio==4.26.0
 black==24.4.0
 chardet==5.2.0
 sentencepiece==0.2.0