Try_fblgit_cybertron-v4-qw7B-MGS

Running on Zero

rombodawg commited on 7 days ago

Commit

f1125eb

•

1 Parent(s): 473d783

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -37,13 +37,14 @@ h3 {
 device = "cuda" # for GPU usage or "cpu" for CPU usage
-tokenizer = AutoTokenizer.from_pretrained(MODEL)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL,
     torch_dtype=torch.bfloat16,
     device_map="auto",
     trust_remote_code=True,
-    ignore_mismatched_sizes=True)
 def format_chat(system_prompt, history, message):
     formatted_chat = f"<|im_start|>system\n{system_prompt}<|im_end|>\n"
@@ -60,10 +61,8 @@ def stream_chat(
     system_prompt: str,
     temperature: float = 0.3,
     max_new_tokens: int = 256,
-    top_p: float = 1.0
-,
     top_k: int = 20,
     repetition_penalty: float = 1.2,
 ):
     print(f'message: {message}')
@@ -72,8 +71,7 @@ def stream_chat(
     formatted_prompt = format_chat(system_prompt, history, message)
     inputs = tokenizer(formatted_prompt, return_tensors="pt").to(device)
-    streamer = TextIteratorStreamer(tokenizer, timeout=5000.0
-, skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
         input_ids=inputs.input_ids,
@@ -167,4 +165,4 @@ with gr.Blocks(css=CSS, theme="soft") as demo:
     )
 if __name__ == "__main__":
-    demo.launch()

 device = "cuda" # for GPU usage or "cpu" for CPU usage
+tokenizer = AutoTokenizer.from_pretrained(MODEL, use_fast=False, force_download=True)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL,
     torch_dtype=torch.bfloat16,
     device_map="auto",
     trust_remote_code=True,
+    ignore_mismatched_sizes=True,
+    force_download=True)
 def format_chat(system_prompt, history, message):
     formatted_chat = f"<|im_start|>system\n{system_prompt}<|im_end|>\n"
     system_prompt: str,
     temperature: float = 0.3,
     max_new_tokens: int = 256,
+    top_p: float = 1.0,
     top_k: int = 20,
     repetition_penalty: float = 1.2,
 ):
     print(f'message: {message}')
     formatted_prompt = format_chat(system_prompt, history, message)
     inputs = tokenizer(formatted_prompt, return_tensors="pt").to(device)
+    streamer = TextIteratorStreamer(tokenizer, timeout=5000.0, skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
         input_ids=inputs.input_ids,
     )
 if __name__ == "__main__":
+    demo.launch()