5CD-AI
/

Vintern-1B-v3_5

Image-Text-to-Text

feature-extraction

Model card Files Files and versions Community

khang119966 commited on 3 days ago

Commit

d9c8a23

·

verified ·

1 Parent(s): 30fcfa4

Update README.md

Files changed (1) hide show

README.md +6 -4

README.md CHANGED Viewed

@@ -178,19 +178,21 @@ def load_image(image_file, input_size=448, max_num=12):
     return pixel_values
 model = AutoModel.from_pretrained(
-    "5CD-AI/Vintern-1B-v2",
     torch_dtype=torch.bfloat16,
     low_cpu_mem_usage=True,
     trust_remote_code=True,
 ).eval().cuda()
-tokenizer = AutoTokenizer.from_pretrained("5CD-AI/Vintern-1B-v2", trust_remote_code=True, use_fast=False)
 test_image = 'test-image.jpg'
-pixel_values = load_image(test_image, max_num=12).to(torch.bfloat16).cuda()
 generation_config = dict(max_new_tokens= 1024, do_sample=False, num_beams = 3, repetition_penalty=2.5)
-question = '<image>\nMô tả hình ảnh một cách chi tiết.'
 response, history = model.chat(tokenizer, pixel_values, question, generation_config, history=None, return_history=True)
 print(f'User: {question}\nAssistant: {response}')

     return pixel_values
 model = AutoModel.from_pretrained(
+    "5CD-AI/Vintern-1B-v3_5",
     torch_dtype=torch.bfloat16,
     low_cpu_mem_usage=True,
     trust_remote_code=True,
+    use_flash_attn=False,
 ).eval().cuda()
+tokenizer = AutoTokenizer.from_pretrained("5CD-AI/Vintern-1B-v3_5", trust_remote_code=True, use_fast=False)
 test_image = 'test-image.jpg'
+pixel_values = load_image(test_image, max_num=6).to(torch.bfloat16).cuda()
 generation_config = dict(max_new_tokens= 1024, do_sample=False, num_beams = 3, repetition_penalty=2.5)
+question = '<image>\nTrích xuất thông tin chính trong ảnh và trả về dạng markdown.'
 response, history = model.chat(tokenizer, pixel_values, question, generation_config, history=None, return_history=True)
 print(f'User: {question}\nAssistant: {response}')