PHI35VISION

Runtime error

aiqtech commited on 16 days ago

Commit

39761c3

verified ·

1 Parent(s): 9256bf2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,19 +11,22 @@ import subprocess
 subprocess.run('pip install --upgrade transformers', shell=True)
 subprocess.run('pip install accelerate', shell=True)
-from transformers import AutoProcessor, AutoModelForVisionEncoderDecoder
-# Model and processor initialization with trust_remote_code=True
-processor = AutoProcessor.from_pretrained(
-    "Qwen/QVQ-72B-Preview",
     trust_remote_code=True
 )
-model = AutoModelForVisionEncoderDecoder.from_pretrained(
-    "Qwen/QVQ-72B-Preview",
     trust_remote_code=True,
-    device_map="auto"
-).eval()
 # Footer
 footer = """
@@ -39,20 +42,14 @@ def process_image(image, text_input=None):
         # Convert image to PIL format
         image = Image.fromarray(image).convert("RGB")
-        # Prepare inputs
         if text_input:
-            inputs = processor(text=text_input, images=image, return_tensors="pt")
         else:
-            inputs = processor(images=image, return_tensors="pt")
-        # Move inputs to the same device as the model
-        inputs = {k: v.to(model.device) for k, v in inputs.items()}
-        # Generate output
-        outputs = model.generate(**inputs, max_new_tokens=1000)
-        # Decode response
-        response = processor.batch_decode(outputs, skip_special_tokens=True)[0]
         return response
     except Exception as e:

 subprocess.run('pip install --upgrade transformers', shell=True)
 subprocess.run('pip install accelerate', shell=True)
+from transformers import AutoModelForCausalLM, AutoTokenizer
+# Model and tokenizer initialization
+model_name = "Qwen/QVQ-72B-Preview"
+tokenizer = AutoTokenizer.from_pretrained(
+    model_name,
     trust_remote_code=True
 )
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
     trust_remote_code=True,
+    device_map="auto",
+    torch_dtype=torch.float16
+)
 # Footer
 footer = """
         # Convert image to PIL format
         image = Image.fromarray(image).convert("RGB")
+        # Prepare prompt
         if text_input:
+            prompt = f"<image>Please describe this image and answer: {text_input}</image>"
         else:
+            prompt = "<image>Please describe this image in detail.</image>"
+        # Generate response
+        response = model.chat(tokenizer, prompt, history=[], images=image)
         return response
     except Exception as e: