Spaces:

chendl
/

compositional_test

Runtime error

chendl commited on Oct 30, 2023

Commit

7f11231

•

1 Parent(s): 1fb7e67

update chat

Files changed (1) hide show

multimodal/open_flamingo/chat/conversation.py CHANGED Viewed

@@ -366,11 +366,25 @@ class Chat:
         image_start_index_list = ((input_ids == media_token_id).nonzero(as_tuple=True)[-1] + 1).tolist()
         image_start_index_list = [[x] for x in image_start_index_list]
         image_nums = [1] * len(input_ids)
         # and torch.cuda.amp.autocast(dtype=torch.float16)
         with torch.no_grad():
-            outputs = model(
-                vision_x=vision_x,
-                lang_x=lang_x,
                 attention_mask=attention_mask,
                 image_nums=image_nums,
                 image_start_index_list=image_start_index_list,
@@ -411,7 +425,7 @@ class Chat:
         # # conv.messages[-1][1] = output_text
         # print(
         #     f"### Assistant: {tokenizer.decode(outputs[0, input_ids.shape[1]:], skip_special_tokens=True).strip()}")
-        output_text = "here"
         return output_text, out_image
     def upload_img(self, image, conv, img_list):

         image_start_index_list = ((input_ids == media_token_id).nonzero(as_tuple=True)[-1] + 1).tolist()
         image_start_index_list = [[x] for x in image_start_index_list]
         image_nums = [1] * len(input_ids)
+        added_bbox_list = []
+        with torch.inference_mode():
+            text_outputs = self.model.generate(
+                batch_images,
+                input_ids,
+                attention_mask=attention_mask,
+                max_new_tokens=20,
+                # min_new_tokens=8,
+                num_beams=1,
+                # length_penalty=0,
+                image_start_index_list=image_start_index_list,
+                image_nums=image_nums,
+                added_bbox_list=added_bbox_list if len(added_bbox_list) != 0 else None,
+            )
         # and torch.cuda.amp.autocast(dtype=torch.float16)
         with torch.no_grad():
+            outputs = self.model(
+                vision_x=batch_images,
+                lang_x=input_ids,
                 attention_mask=attention_mask,
                 image_nums=image_nums,
                 image_start_index_list=image_start_index_list,
         # # conv.messages[-1][1] = output_text
         # print(
         #     f"### Assistant: {tokenizer.decode(outputs[0, input_ids.shape[1]:], skip_special_tokens=True).strip()}")
+        output_text = self.tokenizer.decode(text_outputs[0])
         return output_text, out_image
     def upload_img(self, image, conv, img_list):