Spaces:

shi-labs
/

OLA-VLM

Running on Zero

App Files Files Community

praeclarumjj3 commited on Dec 11, 2024

Commit

15341f5

1 Parent(s): c5a315a

:zap: Fix version

Browse files

Files changed (1) hide show

app.py +36 -38

app.py CHANGED Viewed

@@ -249,51 +249,49 @@ def regenerate(state, image_process_mode):
     state.skip_next = False
     return (state, state.to_gradio_chatbot(), "", None) + (disable_btn,) * 5
-# @spaces.GPU
-# def get_interm_outs(state):
 @spaces.GPU
-def generate(state, temperature, top_p, max_output_tokens, is_inter=False):
-    if is_inter:
-        prompt = state.get_prompt()
-        images = state.get_images(return_pil=True)
-        #prompt, image_args = process_image(prompt, images)
-        if images is not None and len(images) > 0:
-            if len(images) > 0:
-                if len(images) != prompt.count(DEFAULT_IMAGE_TOKEN):
-                    raise ValueError("Number of images does not match number of <image> tokens in prompt")
-                #images = [load_image_from_base64(image) for image in images]
-                image_sizes = [image.size for image in images]
-                inp_images = process_images(images, image_processor, model.config)
-                if type(inp_images) is list:
-                    inp_images = [image.to(model.device, dtype=torch.float16) for image in images]
-                else:
-                    inp_images = inp_images.to(model.device, dtype=torch.float16)
             else:
-                inp_images = None
-                image_sizes = None
-            image_args = {"images": inp_images, "image_sizes": image_sizes}
         else:
             inp_images = None
-            image_args = {}
-        input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors='pt').unsqueeze(0).to(model.device)
-        interm_outs = model.get_visual_interpretations(
-                    input_ids,
-                    **image_args
-            )
-        depth_outs = get_depth_images(interm_outs, image_sizes[0])
-        seg_outs =  get_seg_images(interm_outs, images[0])
-        gen_outs = get_gen_images(interm_outs)
-        return depth_outs, seg_outs, gen_outs
     prompt = state.get_prompt()
     images = state.get_images(return_pil=True)
     #prompt, image_args = process_image(prompt, images)
@@ -451,7 +449,7 @@ with gr.Blocks(title="OLA-VLM", theme=gr.themes.Default(), css=block_css) as dem
     inter_vis_btn.click(
         generate,
         [state],
-        [depth_box, seg_box, gen_box, True],
     )
     clear_btn.click(

     state.skip_next = False
     return (state, state.to_gradio_chatbot(), "", None) + (disable_btn,) * 5
 @spaces.GPU
+def get_interm_outs(state):
+    prompt = state.get_prompt()
+    images = state.get_images(return_pil=True)
+    #prompt, image_args = process_image(prompt, images)
+    if images is not None and len(images) > 0:
+        if len(images) > 0:
+            if len(images) != prompt.count(DEFAULT_IMAGE_TOKEN):
+                raise ValueError("Number of images does not match number of <image> tokens in prompt")
+            #images = [load_image_from_base64(image) for image in images]
+            image_sizes = [image.size for image in images]
+            inp_images = process_images(images, image_processor, model.config)
+            if type(inp_images) is list:
+                inp_images = [image.to(model.device, dtype=torch.float16) for image in images]
             else:
+                inp_images = inp_images.to(model.device, dtype=torch.float16)
         else:
             inp_images = None
+            image_sizes = None
+        image_args = {"images": inp_images, "image_sizes": image_sizes}
+    else:
+        inp_images = None
+        image_args = {}
+    input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors='pt').unsqueeze(0).to(model.device)
+    interm_outs = model.get_visual_interpretations(
+                input_ids,
+                **image_args
+        )
+    depth_outs = get_depth_images(interm_outs, image_sizes[0])
+    seg_outs =  get_seg_images(interm_outs, images[0])
+    gen_outs = get_gen_images(interm_outs)
+    return depth_outs, seg_outs, gen_outs
+@spaces.GPU
+def generate(state, temperature, top_p, max_output_tokens):
     prompt = state.get_prompt()
     images = state.get_images(return_pil=True)
     #prompt, image_args = process_image(prompt, images)
     inter_vis_btn.click(
         generate,
         [state],
+        [depth_box, seg_box, gen_box],
     )
     clear_btn.click(