anhbn commited on
Commit
53282aa
·
verified ·
1 Parent(s): 9dafcc6

Upload folder using huggingface_hub

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
README.md ADDED
@@ -0,0 +1,525 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ language:
4
+ - vi
5
+ - en
6
+ - zh
7
+ base_model:
8
+ - Qwen/Qwen2-VL-2B-Instruct
9
+ library_name: transformers
10
+ tags:
11
+ - erax
12
+ - multimodal
13
+ - erax-vl-2B
14
+ - insurance
15
+ - ocr
16
+ - vietnamese
17
+ - bcg
18
+ pipeline_tag: visual-question-answering
19
+
20
+ widget:
21
+ - src: images/photo-1-16505057982762025719470.webp
22
+ example_title: Test 1
23
+ - src: images/vt-don-thuoc-f0-7417.jpeg
24
+ example_title: Test 2
25
+ ---
26
+ <p align="left">
27
+ <img src="https://cdn-uploads.huggingface.co/production/uploads/63d8d8879dfcfa941d4d7cd9/GsQKdaTyn2FFx_cZvVHk3.png" alt="Logo">
28
+ </p>
29
+
30
+
31
+ # EraX-VL-7B-V1.5
32
+ ## Introduction 🎉
33
+
34
+ Hot on the heels of the popular **<a href="https://huggingface.co/erax-ai/EraX-VL-7B-V1.0" target="_blank">EraX-VL-7B-V1.0 model</a>**, we proudly present **EraX-VL-7B-V1.5**, another robust multimodal model for **OCR (optical character recognition)** and **VQA (visual question-answering)** that excels in various languages 🌍, with a particular focus on Vietnamese 🇻🇳. This model stands out for its precise recognition capabilities across a range of documents 📝, including medical forms 🩺, invoices 🧾, bills of sale 💳, quotes 📄, and medical records 💊. This functionality is expected to be highly beneficial for hospitals 🏥, clinics 💉, insurance companies 🛡️, and other similar applications 📋. Built on the solid foundation of the [Qwen/Qwen2-VL-2B-Instruct](https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct)[1], which we found to be of high quality and fluent in Vietnamese, `EraX-VL-7B-V1.5` has been fine-tuned to enhance its performance. We plan to continue improving and releasing new versions for free, along with sharing performance benchmarks in the near future.
35
+
36
+ One standing-out feature of **EraX-VL-7B-V1.5** is the capability to do multi-turn Q&A with impressive reasoning capability!
37
+
38
+ **NOTA BENE**:
39
+ - EraX-VL-7B-V1.5 is NOT a typical OCR-only tool likes Tesseract but is a Multimodal LLM-based model. To use it effectively, you may have to **twist your prompt carefully** depending on your tasks.
40
+ - This model was NOT finetuned with medical (X-ray) dataset or car accidences (yet). Stay tune for updated version coming up sometime early 2025.
41
+
42
+ **EraX-VL-7B-V1.5** is a young member of our **EraX's LànhGPT** collection of LLM models.
43
+
44
+ - **Developed by:**
45
+ - Nguyễn Anh Nguyên (nguyen@erax.ai)
46
+ - Nguyễn Hồ Nam (BCG)
47
+ - Phạm Huỳnh Nhật (nhat.ph@erax.ai)
48
+ - Phạm Đình Thục (thuc.pd@erax.ai)
49
+ - **Funded by:** [Bamboo Capital Group](https://bamboocap.com.vn) and EraX
50
+ - **Model type:** Multimodal Transformer with over 7B parameters
51
+ - **Languages (NLP):** Primarily Vietnamese with multilingual capabilities
52
+ - **License:** Apache 2.0
53
+ - **Fine-tuned from:** [Qwen/Qwen2-VL-7B-Instruct](https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct)
54
+ - **Prompt examples:** <a href="https://github.com/EraX-JS-Company/erax-vl-7b-v1/blob/main/prompts/Vietnam_popular_prompts.txt" target="_blank">Some popular prompt examples on Github.</a>
55
+
56
+ ## Benchmarks 📊
57
+
58
+ ## 🏆 LeaderBoard
59
+
60
+ The EraX-VL-7B-V1.5 achieved exceptionally high performance compared to other models of equal size or even **10 times larger, and we open-source**! You can re-run the benchmark at any time.
61
+
62
+ <table style="width:75%;">
63
+ <tr>
64
+ <th align="middle" width="300">Models</th>
65
+ <td align="middle" width="150"><b>Open-Source</b></td>
66
+ <td align="middle" width="300"><b>VI-MTVQA</b></td>
67
+ </tr>
68
+ <tr>
69
+ <th align="middle"><font color=darkred>EraX-VL-7B-V1.5 🥇 </font></th>
70
+ <td align="middle">✅</td>
71
+ <td align="middle">47.2 </td>
72
+ </tr>
73
+ <tr>
74
+ <th align="middle">Qwen2-VL 72B 🥈 </th>
75
+ <td align="middle">✘</td>
76
+ <td align="middle">41.6 </td>
77
+ </tr>
78
+ <tr>
79
+ <th align="middle">ViGPT-VL 🥉 </th>
80
+ <td align="middle">✘</td>
81
+ <td align="middle">39.1 </td>
82
+ </tr>
83
+ <tr>
84
+ <th align="middle"><font color=darkred>EraX-VL-2B-V1.5</font></th>
85
+ <td align="middle"> ✅ </td>
86
+ <td align="middle">38.2 </td>
87
+ </tr>
88
+ <tr>
89
+ <th align="middle"><font color=darkred>EraX-VL-7B-V1 </font></th>
90
+ <td align="middle"> ✅ </td>
91
+ <td align="middle">37.6 </td>
92
+ </tr>
93
+ <tr>
94
+ <th align="middle"><font color=darkred>Vintern-1B-V2</font></th>
95
+ <td align="middle"> ✅ </td>
96
+ <td align="middle">37.4 </td>
97
+ </tr>
98
+ <tr>
99
+ <th align="middle"><font color=darkred>Qwen2-VL 7B </font></th>
100
+ <td align="middle"> ✅ </td>
101
+ <td align="middle">30.0 </td>
102
+ </tr>
103
+ <tr>
104
+ <th align="middle">Claude3 Opus</th>
105
+ <td align="middle">✘</td>
106
+ <td align="middle">29.1 </td>
107
+ </tr>
108
+ <tr>
109
+ <th align="middle">GPT-4o mini </th>
110
+ <td align="middle"> ✘ </td>
111
+ <td align="middle">29.1 </td>
112
+ </tr>
113
+ <tr>
114
+ <th align="middle">GPT-4V</th>
115
+ <td align="middle">✘</td>
116
+ <td align="middle">28.9 </td>
117
+ </tr>
118
+ <tr>
119
+ <th align="middle">Gemini Ultra</th>
120
+ <td align="middle">✘</td>
121
+ <td align="middle">28.6 </td>
122
+ </tr>
123
+ <tr>
124
+ <th align="middle"><font color=darkred>InternVL2 76B</font></th>
125
+ <td align="middle"> ✅ </td>
126
+ <td align="middle">26.9 </td>
127
+ </tr>
128
+ <tr>
129
+ <th align="middle">QwenVL Max</th>
130
+ <td align="middle">✘</td>
131
+ <td align="middle">23.5 </td>
132
+ </tr>
133
+ <tr>
134
+ <th align="middle">Claude3 Sonnet</th>
135
+ <td align="middle">✘</td>
136
+ <td align="middle">20.8 </td>
137
+ </tr>
138
+ <tr>
139
+ <th align="middle">QwenVL Plus</th>
140
+ <td align="middle">✘</td>
141
+ <td align="middle">18.1 </td>
142
+ </tr>
143
+ <tr>
144
+ <th align="middle"><font color=darkred>MiniCPM-V2.5</font></th>
145
+ <td align="middle">✅</td>
146
+ <td align="middle">15.3 </td>
147
+ </tr>
148
+ </table>
149
+
150
+ **The test code for evaluating models in the paper can be found in**: <b><a href="https://github.com/EraX-JS-Company/EraX-MTVQA-Benchmark" target="_blank">EraX-JS-Company/EraX-MTVQA-Benchmark</a></b>
151
+
152
+ ## API trial 🎉
153
+ Please contact **nguyen@erax.ai** for API access inquiry.
154
+
155
+ ## Examples 🧩
156
+
157
+ ### 1. OCR - Optical Character Recognition for Multi-Images
158
+
159
+ **Example 01: Citizen identification card**
160
+
161
+ <div style="display: flex; flex-direction: row; align-items: center; justify-content: center;">
162
+ <div style="text-align: center; margin: 0 10px;">
163
+ <img src="images/trinhquangduy_front.jpg" width="500" alt="Front View" />
164
+ <p>Front View</p>
165
+ </div>
166
+ <div style="text-align: center; margin: 0 10px;">
167
+ <img src="images/trinhquangduy_back.jpg" width="500" alt="Back View" />
168
+ <p>Back View</p>
169
+ </div>
170
+ </div>
171
+ <p style="text-align: center; font-size: 12px; color: gray; margin-top: 10px;">
172
+ Source: <a href="https://support.google.com/google-ads/thread/270967947/t%C3%B4i-%C4%91%C3%A3-g%E1%BB%ADi-h%C3%ACnh-%E1%BA%A3nh-c%C4%83n-c%C6%B0%E1%BB%9Bc-c%C3%B4ng-d%C3%A2n-c%E1%BB%A7a-ch%C3%ADnh-t%C3%B4i-%C4%91%E1%BB%83-x%C3%A1c-minh-danh-t%C3%ADnh?hl=vi" target="_blank">Google Support</a>
173
+ </p>
174
+
175
+ ```
176
+ {
177
+ "Số thẻ": "037094012351",
178
+ "Họ và tên": "TRỊNH QUANG DUY",
179
+ "Ngày sinh": "04/09/1994",
180
+ "Giới tính": "Nam",
181
+ "Quốc tịch": "Việt Nam",
182
+ "Quê quán": "Tân Thành, Kim Sơn, Ninh Bình",
183
+ "Nơi thường trú": "Xóm 6\nTân Thành, Kim Sơn, Ninh Bình",
184
+ "Có giá trị đến": "04/09/2034",
185
+ "Đặc điểm nhân dạng": "sẹo chấm c. 1cm trên đuôi mắt trái",
186
+ "Nơi cấp": "CỤC TRƯỞNG CỤC CẢNH SÁT\nQUẢN LÝ HÀNH CHÍNH VỀ TRẬT TỰ XÃ HỘI",
187
+ "Ngày cấp": "10/12/2022",
188
+ "Cán bộ ký tên": "Nguyễn Quốc Hùng",
189
+ "Mã định danh": "IDVNM0940123513037094012351"
190
+ }
191
+ ```
192
+
193
+ **Example 02: Driver's License**
194
+
195
+ <div style="display: flex; flex-direction: row; align-items: center; justify-content: center;">
196
+ <div style="text-align: center; margin: 0 10px;">
197
+ <img src="images/nguyenvandung_front.png" width="500" alt="Front View" />
198
+ <p>Front View</p>
199
+ </div>
200
+ <div style="text-align: center; margin: 0 10px;">
201
+ <img src="images/nguyenvandung_back.png" width="500" alt="Back View" />
202
+ <p>Back View</p>
203
+ </div>
204
+ </div>
205
+ <p style="text-align: center; font-size: 12px; color: gray; margin-top: 10px;">
206
+ Source: <a href="https://baophapluat.vn/khoi-to-tai-xe-len-mang-mua-giay-phep-lai-xe-gia-de-chay-xe-post481047.html" target="_blank">Báo Pháp luật</a>
207
+ </p>
208
+
209
+ ```
210
+ {
211
+ "No.":"400116012313"
212
+ "Fullname":"NGUYỄN VĂN DŨNG"
213
+ "Date_of_birth":"08/06/1979"
214
+ "Nationality":"VIỆT NAM"
215
+ "Address":"X. Quỳnh Hầu, H. Quỳnh Lưu, T. Nghệ An
216
+ Nghệ An, ngày/date 23 tháng/month 04 năm/year 2022"
217
+ "Hang_Class":"FC"
218
+ "Expires":"23/04/2027"
219
+ "Place_of_issue":"Nghệ An"
220
+ "Date_of_issue":"ngày/date 23 tháng/month 04 năm/year 2022"
221
+ "Signer":"Trần Anh Tuấn"
222
+ "Các loại xe được phép":"Ô tô hạng C kéo rơmoóc, đầu kéo kéo sơmi rơmoóc và xe hạng B1, B2, C, FB2 (Motor vehicle of class C with a trailer, semi-trailer truck and vehicles of classes B1, B2, C, FB2)"
223
+ "Mã số":""
224
+ }
225
+ ```
226
+
227
+ **Example 03: Vehicle Registration Certificate**
228
+
229
+ <div style="display: flex; flex-direction: row; align-items: center; justify-content: center;">
230
+ <div style="text-align: center; margin: 0 10px;">
231
+ <img src="images/nguyentonnhuan.jpg" width="700"/>
232
+ </div>
233
+ </div>
234
+ <p style="text-align: center; font-size: 12px; color: gray; margin-top: 10px;">
235
+ Source: <a href="https://vietnamnet.vn/phan-biet-cac-loai-giay-dang-ky-xe-khi-mua-moto-da-qua-su-dung-541341.html" target="_blank">Báo Vietnamnet</a>
236
+ </p>
237
+
238
+ ```
239
+ {
240
+ "Tên chủ xe": "NGUYỄN TÔN NHUẬN",
241
+ "Địa chỉ": "KE27 Kp3 P.TTTây Q7",
242
+ "Nhãn hiệu": "HONDA",
243
+ "Số loại": "DYLAN",
244
+ "Màu sơn": "Trắng",
245
+ "Năm sản xuất": "2012",
246
+ "Số máy": "F03E-0057735",
247
+ "Số khung": "SA04F-070410",
248
+ "Dung tích": "152",
249
+ "Số chỗ ngồi": "02",
250
+ "Biển số đăng ký": "59V1-498.89",
251
+ "Đăng ký lần đầu ngày": "08/06/2004",
252
+ "Chức vụ": "Thượng tá",
253
+ "Người ký": "Trần Văn Hiểu"
254
+ }
255
+ ```
256
+
257
+ **Example 04: Vehicle Registration**
258
+
259
+ <div style="display: flex; flex-direction: row; align-items: center; justify-content: center;">
260
+ <div style="text-align: center; margin: 10 20px;">
261
+ <img src="https://cdn-uploads.huggingface.co/production/uploads/63d8d8879dfcfa941d4d7cd9/w5WCaQ-k9nupRIQYddcpr.jpeg" width="700"/>
262
+ </div>
263
+ </div>
264
+ <p style="text-align: center; font-size: 12px; color: gray; margin-top: 10px;">
265
+ Source: <a href="https://llumar.com.vn/dang-kiem-xe-o-to/" target="_blank">https://llumar.com.vn</a>
266
+ </p>
267
+
268
+ ```
269
+ {
270
+ "vehicle": {
271
+ "registration_number": "30A-072.36",
272
+ "vehicle_inspection_number": "2903V-093515",
273
+ "type": "ô tô con",
274
+ "mark": "MERCEDES-BENZ",
275
+ "model_code": "C300 W204",
276
+ "engine_number": "27294732096079",
277
+ "chassis_number": "RLMGF5EX3DV005333",
278
+ "manufactured_year_and_country": "2013, Việt Nam",
279
+ "life_time_limit_to": "",
280
+ "commercial_use": "",
281
+ "modification": ""
282
+ },
283
+ "specifications": {
284
+ "wheel_formula": "4x2",
285
+ "wheel_tread": "1521/1512 (mm)",
286
+ "overall_dimension": "4650 x 1770 x 1429 (mm)",
287
+ "largest_luggage_container_dimension": "",
288
+ "wheelbase": "2760 (mm)",
289
+ "kerb_mass": "1575 (kg)",
290
+ "design_authorized_pay_load": "",
291
+ "design_authorized_total_mass": "2090/2090 (kg)",
292
+ "design_authorized_towed_mass": "",
293
+ "permissible_number_of_pers_carried": "5 chỗ ngồi, 0 chỗ đứng, 0 chỗ nằm",
294
+ "type_of_fuel_used": "Xăng",
295
+ "engine_displacement": "2996 (cm3)",
296
+ "max_output_per_rpm": "170(kW)/6000vph",
297
+ "number": "KC-1292285"
298
+ },
299
+ "inspection_report_number": "2905V-20953/16",
300
+ "valid_until": "31/01/2018",
301
+ "place_date_of_issue": "Hà Nội, ngày 1 tháng 8 năm 2016",
302
+ "inspection_center": "ĐƠN VỊ KIỂM ĐỊNH XE CƠ GIỚI",
303
+ "signature": "Ngọc Tuấn",
304
+ "equipped_with_tachograph": "",
305
+ "inspection_stamp_was_not_issued": "",
306
+ "notes": "Biển đăng ký nền trắng"
307
+ }
308
+ ```
309
+
310
+ **Example 05: Receipt**
311
+
312
+ <div style="display: flex; flex-direction: row; align-items: center; justify-content: center;">
313
+ <div style="text-align: center; margin: 10 20px;">
314
+ <img src="https://cdn-uploads.huggingface.co/production/uploads/63d8d8879dfcfa941d4d7cd9/40vIbNdM1cFXwQYNHx7Ag.jpeg" width="500"/>
315
+ </div>
316
+ </div>
317
+ <p style="text-align: center; font-size: 12px; color: gray; margin-top: 10px;">
318
+ Source: <a href="https://tintucketoan.com/cach-viet-hoa-don-hang-hoa-dich-vu-khong-chiu-thue-gtgt/" target="_blank">https://tintucketoan.com/</a>
319
+ </p>
320
+
321
+ ```
322
+ {
323
+ 'Mẫu số': '01GKTKT3/001',
324
+ 'Ký hiệu': 'TC/18P',
325
+ 'Số': '0000030',
326
+ 'Họ tên người mua hàng': None,
327
+ 'Tên đơn vị': 'Công Ty TNHH Kế Toán Hà Nội',
328
+ 'Mã số thuế': '0106235869',
329
+ 'Địa chỉ': 'Số 49 Ngõ 322 Lê Trọng Tấn, phường Khương Mai, quận Thanh Xuân, Hà Nội',
330
+ 'Hình thức thanh toán': 'TM',
331
+ 'STT': None,
332
+ 'Tên hàng hóa, dịch vụ': 'Tra cứu phần mềm thư viện pháp luật trực tuyến',
333
+ 'Đơn vị tính': None,
334
+ 'Số lượng': None,
335
+ 'Đơn giá': '168.000',
336
+ 'Thành tiền': '2.016.000',
337
+ 'Thuế suất GTGT': None,
338
+ 'Tiền thuế GTGT': None,
339
+ 'Tổng cộng tiền thanh toán': '2.016.000',
340
+ 'Số tiền viết bằng chữ': 'Hai triệu, không trăm mười sáu nghìn đồng',
341
+ 'Người bán hàng': 'Bùi Văn Hùng',
342
+ 'Chức vụ người bán hàng': 'TRƯỞNG CHI NHÁNH'
343
+ }
344
+ ```
345
+
346
+ ### 2.1 Image Captioning
347
+
348
+ <div align="center">
349
+ <img src="https://cdn-uploads.huggingface.co/production/uploads/63d8d8879dfcfa941d4d7cd9/g5V60A7rI94TH0z3zdSAA.jpeg" width="700"/>
350
+ </div>
351
+
352
+ Hình ảnh là biểu đồ BMI theo tuổi, thể hiện mối quan hệ giữa chỉ số khối cơ thể (BMI) và độ tuổi của trẻ em. Biểu đồ được chia thành các vùng màu khác nhau tương ứng với các mức BMI khác nhau:
353
+
354
+ * **Vùng màu đỏ:** Chỉ số BMI cao hơn 25, cho thấy tình trạng béo phì.
355
+ * **Vùng màu vàng:** Chỉ số BMI nằm trong khoảng từ 18 đến 25, cho thấy nguy cơ béo phì.
356
+ * **Vùng màu xanh lá cây nhạt:** Chỉ số BMI nằm trong khoảng từ 16 đến 18, cho thấy sức khỏe dinh dưỡng tốt.
357
+ * **Vùng màu xanh lá cây đậm:** Chỉ số BMI thấp hơn 16, cho thấy tình trạng thiếu cân.
358
+
359
+ Trục tung biểu diễn chỉ số BMI, trục hoành biểu diễn tuổi (tính bằng năm). Đường cong màu xám đậm thể hiện đường chuẩn BMI theo tuổi. Các đường cong này cho thấy sự thay đổi BMI theo thời gian, giúp đánh giá sự phát triển cân nặng của trẻ em. Ví dụ, ở trẻ em dưới 3 tuổi, BMI thường dao động trong vùng thiếu cân hoặc sức khỏe dinh dưỡng tốt. Khi trẻ lớn lên, BMI có xu hướng tăng dần, nhưng tốc độ tăng trưởng có thể khác nhau tùy thuộc vào từng cá nhân. Biểu đồ cũng hiển thị các phần trăm phân vị (Percentile), cho biết tỷ lệ phần trăm trẻ em có BMI thấp hơn hoặc cao hơn so với một nhóm trẻ em cùng độ tuổi. Điều này giúp so sánh BMI của trẻ em với tiêu chuẩn quốc tế.
360
+
361
+ ### 2.2 Image Captioning
362
+
363
+ <div align="center">
364
+ <img src="https://huggingface.co/erax-ai/EraX-VL-7B-V1.5/resolve/main/images/27vid-Gaza-City-Cover-gqmt-videoSixteenByNine1050%20(1).jpg" width="700"/>
365
+ </div>
366
+
367
+ Hình ảnh chụp một cảnh tượng đầy xúc động và bi thảm, dường như diễn ra ở một khu vực nghèo khó, có thể là một khu định cư hoặc khu ổ chuột. Trung tâm của bức ảnh là một chiếc xe đẩy được kéo bởi một con lừa. Trên xe đẩy có một nhóm người, bao gồm một người đàn ông lớn tuổi có vẻ như là người hướng dẫn, một phụ nữ mặc áo choàng đen, một phụ nữ trẻ mặc áo xám, một bé gái nhỏ được che mặt bằng khăn trùm đầu, và một cậu bé mặc áo xanh lá cây. Họ có vẻ như đang di chuyển từ một khu vực bị tàn phá sang một nơi khác. Xung quanh họ là những mảnh vụn, rác thải và những tòa nhà đổ nát, cho thấy một môi trường sống khó khăn và thiếu thốn. Phía sau họ, có một số người khác đang đi bộ hoặc đi xe đạp, một số người đang mang theo hành lý. Bầu trời trong xanh, nhưng không khí chung của bức ảnh là nặng nề và buồn bã. Có thể đây là một cảnh tượng di cư, tị nạn, hoặc một sự kiện thảm khốc nào đó.
368
+
369
+ ### 3. Multi-turns Visual Question Answering and Reasoning
370
+
371
+ <div style="display: flex; flex-direction: row; align-items: center; justify-content: center;">
372
+ <div style="text-align: center; margin: 10 20px;">
373
+ <img src="https://cdn-uploads.huggingface.co/production/uploads/63d8d8879dfcfa941d4d7cd9/S2UosY_TOOV5XNn3d4_zL.jpeg" width="700"/>
374
+ </div>
375
+ </div>
376
+ <p style="text-align: center; font-size: 12px; color: gray; margin-top: 10px;">
377
+ Source: <a href="https://kenh14.vn/bien-cang-thai-trinh-nhap-vien-vi-ngo-doc-dang-dan-to-1-resort-5-sao-thieu-trach-nhiem-voi-khach-hang-20200924214133912.chn" target="_blank">https://kenh14.vn</a>
378
+ </p>
379
+
380
+ - **User**: Hãy cho biết thông tin bệnh nhân
381
+
382
+ - **Assistant**: Tên: NGUYỄN THỊ THÁI TRINH, Ngày sinh: 09/09/1993, Giới tính: Nữ, Địa chỉ: TÂN ĐỊNH - Q1 - TPHCM, Mã thẻ BHYT: 19169080, Số khám bệnh: 2569501, Mã khu vực (K1/K2/K3): 2
383
+
384
+ - **User**: Họ được chuẩn đoán bị bệnh gì?
385
+
386
+ - **Assistant**: Nhiễm trùng đường ruột do vi khuẩn, không xác định loài
387
+
388
+ - **User**: Người bệnh có tiền sử bệnh không? Nếu có thì là gì?
389
+
390
+ - **Assistant**: Thiếu Calci do chế độ ăn
391
+
392
+ - **User**: Bệnh nhân đã thực hiện những xét nghiệm gì?
393
+
394
+ - **Assistant**: [NQ286] Tổng phân tích tế bào máu ngoại vi (bằng máy đếm laser), [NQ286] Điện giải đồ (Na, K, Cl) [Máu], [NQ286] Đo hoạt độ ALT (GPT) [Máu], [NQ286] Đo hoạt độ AST (GOT) [Máu], [NQ286] Định lượng Calci toàn phần [Máu], [NQ286] Định lượng Creatinin [Máu], [NQ286] Định lượng Glucose [Máu], [NQ286] Định lượng Urê máu [Máu], [NQ286] Siêu âm ổ bụng (gan mật, tụy, lách, thận, bàng quang)
395
+
396
+ - **User**: Số tiền Vật tư y tế mà người bệnh phải trả là bao nhiêu?
397
+
398
+ - **Assistant**: 19,708
399
+
400
+ - **User**: Các loại thuốc dịch truyền người bệnh phải trả là gì, tổng số tiền là bao nhiêu?
401
+
402
+ - **Assistant**: Atropin Sulfat (Syv2019), Bicefzidim 1g (Syv2019), GONCAL (Syv2019), Lactated Ringer's-500ml (Syv2019), Nước cất pha tiêm 5ml (Syv2019), Sodium Chloride 0.9% -500ml (Syv2019), Vincomid (Syv2019), Vinopa (Syv2019), tổng cộng 45,234 đồng
403
+
404
+ ## Quickstart 🎮
405
+
406
+ Install the necessary packages:
407
+ ```curl
408
+ python -m pip install git+https://github.com/huggingface/transformers accelerate
409
+ python -m pip install qwen-vl-utils
410
+ pip install flash-attn --no-build-isolation
411
+ ```
412
+
413
+ Then you can use `EraX-VL-7B-V1.5` like this:
414
+ ```python
415
+ import os
416
+ import base64
417
+ import json
418
+
419
+ import cv2
420
+ import numpy as np
421
+ import matplotlib.pyplot as plt
422
+
423
+ import torch
424
+ from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
425
+ from qwen_vl_utils import process_vision_info
426
+
427
+ model_path = "erax/EraX-VL-7B-V1.5"
428
+
429
+ model = Qwen2VLForConditionalGeneration.from_pretrained(
430
+ model_path,
431
+ torch_dtype=torch.bfloat16,
432
+ attn_implementation="eager", # replace with "flash_attention_2" if your GPU is Ampere architecture
433
+ device_map="auto"
434
+ )
435
+
436
+ tokenizer = AutoTokenizer.from_pretrained(model_path)
437
+ # processor = AutoProcessor.from_pretrained(model_path)
438
+
439
+ min_pixels = 256 * 28 * 28
440
+ max_pixels = 1280 * 28 * 28
441
+ processor = AutoProcessor.from_pretrained(
442
+ model_path,
443
+ min_pixels=min_pixels,
444
+ max_pixels=max_pixels,
445
+ )
446
+
447
+ image_path ="image.jpg"
448
+
449
+ with open(image_path, "rb") as f:
450
+ encoded_image = base64.b64encode(f.read())
451
+ decoded_image_text = encoded_image.decode('utf-8')
452
+ base64_data = f"data:image;base64,{decoded_image_text}"
453
+
454
+ messages = [
455
+ {
456
+ "role": "user",
457
+ "content": [
458
+ {
459
+ "type": "image",
460
+ "image": base64_data,
461
+ },
462
+ {
463
+ "type": "text",
464
+ "text": "Trích xuất thông tin nội dung từ hình ảnh được cung cấp."
465
+ },
466
+ ],
467
+ }
468
+ ]
469
+
470
+ # Prepare prompt
471
+ tokenized_text = processor.apply_chat_template(
472
+ messages, tokenize=False, add_generation_prompt=True
473
+ )
474
+
475
+ image_inputs, video_inputs = process_vision_info(messages)
476
+
477
+ inputs = processor(
478
+ text=[ tokenized_text],
479
+ images=image_inputs,
480
+ videos=video_inputs,
481
+ padding=True,
482
+ return_tensors="pt",
483
+ )
484
+ inputs = inputs.to("cuda")
485
+
486
+ # Generation configs
487
+ generation_config = model.generation_config
488
+ generation_config.do_sample = True
489
+ generation_config.temperature = 1.0
490
+ generation_config.top_k = 1
491
+ generation_config.top_p = 0.9
492
+ generation_config.min_p = 0.1
493
+ generation_config.best_of = 5
494
+ generation_config.max_new_tokens = 2048
495
+ generation_config.repetition_penalty = 1.06
496
+
497
+ # Inference
498
+ generated_ids = model.generate(**inputs, generation_config=generation_config)
499
+ generated_ids_trimmed = [
500
+ out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
501
+ ]
502
+ output_text = processor.batch_decode(
503
+ generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
504
+ )
505
+
506
+ print(output_text[0])
507
+ ```
508
+
509
+ ## References 📑
510
+ [1] Qwen team. Qwen2-VL. 2024.
511
+
512
+ [2] Bai, Jinze, et al. "Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond." arXiv preprint arXiv:2308.12966 (2023).
513
+
514
+ [4] Yang, An, et al. "Qwen2 technical report." arXiv preprint arXiv:2407.10671 (2024).
515
+
516
+ [5] Chen, Zhe, et al. "Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.
517
+
518
+ [6] Chen, Zhe, et al. "How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites." arXiv preprint arXiv:2404.16821 (2024).
519
+
520
+ [7] Tran, Chi, and Huong Le Thanh. "LaVy: Vietnamese Multimodal Large Language Model." arXiv preprint arXiv:2404.07922 (2024).
521
+
522
+
523
+ ## Contact 🤝
524
+ - For correspondence regarding this work or inquiry for API trial, please contact Nguyễn Anh Nguyên at [nguyen@erax.ai](nguyen@erax.ai).
525
+ - Follow us on <b><a href="https://github.com/EraX-JS-Company" target="_blank">EraX Github</a></b>
added_tokens.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "<|box_end|>": 151649,
3
+ "<|box_start|>": 151648,
4
+ "<|endoftext|>": 151643,
5
+ "<|im_end|>": 151645,
6
+ "<|im_start|>": 151644,
7
+ "<|image_pad|>": 151655,
8
+ "<|object_ref_end|>": 151647,
9
+ "<|object_ref_start|>": 151646,
10
+ "<|quad_end|>": 151651,
11
+ "<|quad_start|>": 151650,
12
+ "<|video_pad|>": 151656,
13
+ "<|vision_end|>": 151653,
14
+ "<|vision_pad|>": 151654,
15
+ "<|vision_start|>": 151652
16
+ }
chat_template.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "chat_template": "{% set image_count = namespace(value=0) %}{% set video_count = namespace(value=0) %}{% for message in messages %}{% if loop.first and message['role'] != 'system' %}<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n{% endif %}<|im_start|>{{ message['role'] }}\n{% if message['content'] is string %}{{ message['content'] }}<|im_end|>\n{% else %}{% for content in message['content'] %}{% if content['type'] == 'image' or 'image' in content or 'image_url' in content %}{% set image_count.value = image_count.value + 1 %}{% if add_vision_id %}Picture {{ image_count.value }}: {% endif %}<|vision_start|><|image_pad|><|vision_end|>{% elif content['type'] == 'video' or 'video' in content %}{% set video_count.value = video_count.value + 1 %}{% if add_vision_id %}Video {{ video_count.value }}: {% endif %}<|vision_start|><|video_pad|><|vision_end|>{% elif 'text' in content %}{{ content['text'] }}{% endif %}{% endfor %}<|im_end|>\n{% endif %}{% endfor %}{% if add_generation_prompt %}<|im_start|>assistant\n{% endif %}"
3
+ }
config.json ADDED
@@ -0,0 +1,48 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_attn_implementation_autoset": true,
3
+ "_name_or_path": "EraX-VL-7B-V1.5",
4
+ "architectures": [
5
+ "Qwen2VLForConditionalGeneration"
6
+ ],
7
+ "attention_dropout": 0.0,
8
+ "bos_token_id": 151643,
9
+ "eos_token_id": 151645,
10
+ "hidden_act": "silu",
11
+ "hidden_size": 3584,
12
+ "image_token_id": 151655,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 18944,
15
+ "max_position_embeddings": 32768,
16
+ "max_window_layers": 28,
17
+ "model_type": "qwen2_vl",
18
+ "num_attention_heads": 28,
19
+ "num_hidden_layers": 28,
20
+ "num_key_value_heads": 4,
21
+ "rms_norm_eps": 1e-06,
22
+ "rope_scaling": {
23
+ "mrope_section": [
24
+ 16,
25
+ 24,
26
+ 24
27
+ ],
28
+ "rope_type": "default",
29
+ "type": "default"
30
+ },
31
+ "rope_theta": 1000000.0,
32
+ "sliding_window": 32768,
33
+ "tie_word_embeddings": false,
34
+ "torch_dtype": "bfloat16",
35
+ "transformers_version": "4.47.1",
36
+ "use_cache": true,
37
+ "use_sliding_window": false,
38
+ "video_token_id": 151656,
39
+ "vision_config": {
40
+ "in_chans": 3,
41
+ "model_type": "qwen2_vl",
42
+ "spatial_patch_size": 14
43
+ },
44
+ "vision_end_token_id": 151653,
45
+ "vision_start_token_id": 151652,
46
+ "vision_token_id": 151654,
47
+ "vocab_size": 152064
48
+ }
generation_config.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "attn_implementation": "flash_attention_2",
3
+ "bos_token_id": 151643,
4
+ "do_sample": true,
5
+ "eos_token_id": [
6
+ 151645,
7
+ 151643
8
+ ],
9
+ "pad_token_id": 151643,
10
+ "temperature": 0.01,
11
+ "top_k": 1,
12
+ "top_p": 0.001,
13
+ "transformers_version": "4.47.0.dev0"
14
+ }
images/27vid-Gaza-City-Cover-gqmt-videoSixteenByNine1050 (1).jpg ADDED
images/nguyentonnhuan.jpg ADDED
images/nguyenvandung_back.png ADDED
images/nguyenvandung_front.png ADDED
images/test.txt ADDED
File without changes
images/trinhquangduy_back.jpg ADDED
images/trinhquangduy_front.jpg ADDED
merges.txt ADDED
The diff for this file is too large to render. See raw diff
 
openvino_language_model.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:bcd30330595dccf86956386c695929ea329c110269d94b369c20ecae2f0fbe50
3
+ size 3936211968
openvino_language_model.xml ADDED
The diff for this file is too large to render. See raw diff
 
openvino_text_embeddings_model.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9ddd207deedbbafaa2e15c910325fbbb1658491246ec356b9dd33593457e9b2e
3
+ size 1089994756
openvino_text_embeddings_model.xml ADDED
@@ -0,0 +1,107 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ <?xml version="1.0"?>
2
+ <net name="Model0" version="11">
3
+ <layers>
4
+ <layer id="0" name="input" type="Parameter" version="opset1">
5
+ <data shape="?,?" element_type="i64" />
6
+ <output>
7
+ <port id="0" precision="I64" names="input">
8
+ <dim>-1</dim>
9
+ <dim>-1</dim>
10
+ </port>
11
+ </output>
12
+ </layer>
13
+ <layer id="1" name="self.weight" type="Const" version="opset1">
14
+ <data element_type="bf16" shape="152064, 3584" offset="0" size="1089994752" />
15
+ <output>
16
+ <port id="0" precision="BF16" names="self.weight">
17
+ <dim>152064</dim>
18
+ <dim>3584</dim>
19
+ </port>
20
+ </output>
21
+ </layer>
22
+ <layer id="2" name="ov_ext::embedding/Convert" type="Convert" version="opset1">
23
+ <data destination_type="f32" />
24
+ <rt_info>
25
+ <attribute name="decompression" version="0" />
26
+ </rt_info>
27
+ <input>
28
+ <port id="0" precision="BF16">
29
+ <dim>152064</dim>
30
+ <dim>3584</dim>
31
+ </port>
32
+ </input>
33
+ <output>
34
+ <port id="1" precision="FP32">
35
+ <dim>152064</dim>
36
+ <dim>3584</dim>
37
+ </port>
38
+ </output>
39
+ </layer>
40
+ <layer id="3" name="ov_ext::embedding/Convert_1" type="Convert" version="opset1">
41
+ <data destination_type="i32" />
42
+ <input>
43
+ <port id="0" precision="I64">
44
+ <dim>-1</dim>
45
+ <dim>-1</dim>
46
+ </port>
47
+ </input>
48
+ <output>
49
+ <port id="1" precision="I32">
50
+ <dim>-1</dim>
51
+ <dim>-1</dim>
52
+ </port>
53
+ </output>
54
+ </layer>
55
+ <layer id="4" name="ov_ext::embedding/Constant" type="Const" version="opset1">
56
+ <data element_type="i32" shape="" offset="1089994752" size="4" />
57
+ <output>
58
+ <port id="0" precision="I32" />
59
+ </output>
60
+ </layer>
61
+ <layer id="5" name="ov_ext::embedding/Gather" type="Gather" version="opset8">
62
+ <data batch_dims="0" />
63
+ <input>
64
+ <port id="0" precision="FP32">
65
+ <dim>152064</dim>
66
+ <dim>3584</dim>
67
+ </port>
68
+ <port id="1" precision="I32">
69
+ <dim>-1</dim>
70
+ <dim>-1</dim>
71
+ </port>
72
+ <port id="2" precision="I32" />
73
+ </input>
74
+ <output>
75
+ <port id="3" precision="FP32">
76
+ <dim>-1</dim>
77
+ <dim>-1</dim>
78
+ <dim>3584</dim>
79
+ </port>
80
+ </output>
81
+ </layer>
82
+ <layer id="6" name="Result_9" type="Result" version="opset1">
83
+ <input>
84
+ <port id="0" precision="FP32">
85
+ <dim>-1</dim>
86
+ <dim>-1</dim>
87
+ <dim>3584</dim>
88
+ </port>
89
+ </input>
90
+ </layer>
91
+ </layers>
92
+ <edges>
93
+ <edge from-layer="0" from-port="0" to-layer="3" to-port="0" />
94
+ <edge from-layer="1" from-port="0" to-layer="2" to-port="0" />
95
+ <edge from-layer="2" from-port="1" to-layer="5" to-port="0" />
96
+ <edge from-layer="3" from-port="1" to-layer="5" to-port="1" />
97
+ <edge from-layer="4" from-port="0" to-layer="5" to-port="2" />
98
+ <edge from-layer="5" from-port="3" to-layer="6" to-port="0" />
99
+ </edges>
100
+ <rt_info>
101
+ <Runtime_version value="2024.6.0-17404-4c0f47d2335-releases/2024/6" />
102
+ <conversion_parameters>
103
+ <framework value="pytorch" />
104
+ <is_python_object value="True" />
105
+ </conversion_parameters>
106
+ </rt_info>
107
+ </net>
openvino_vision_embeddings_merger_model.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:708721814872d85ce7faf6e2ac54b3d0225c029a5293704a84602e352c4943e3
3
+ size 359928592
openvino_vision_embeddings_merger_model.xml ADDED
The diff for this file is too large to render. See raw diff
 
openvino_vision_embeddings_model.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:85a63e6b6f0f4755f31e9c05cd97299215cb157882242dc3683781cd9f3349d4
3
+ size 3010616
openvino_vision_embeddings_model.xml ADDED
@@ -0,0 +1,167 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ <?xml version="1.0"?>
2
+ <net name="Model9" version="11">
3
+ <layers>
4
+ <layer id="0" name="hidden_states" type="Parameter" version="opset1">
5
+ <data shape="?,?" element_type="f32" />
6
+ <output>
7
+ <port id="0" precision="FP32" names="hidden_states">
8
+ <dim>-1</dim>
9
+ <dim>-1</dim>
10
+ </port>
11
+ </output>
12
+ </layer>
13
+ <layer id="1" name="Constant_131546" type="Const" version="opset1">
14
+ <data element_type="i64" shape="5" offset="0" size="40" />
15
+ <rt_info>
16
+ <attribute name="precise" version="0" />
17
+ </rt_info>
18
+ <output>
19
+ <port id="0" precision="I64" names="8">
20
+ <dim>5</dim>
21
+ </port>
22
+ </output>
23
+ </layer>
24
+ <layer id="2" name="aten::view/Reshape" type="Reshape" version="opset1">
25
+ <data special_zero="false" />
26
+ <input>
27
+ <port id="0" precision="FP32">
28
+ <dim>-1</dim>
29
+ <dim>-1</dim>
30
+ </port>
31
+ <port id="1" precision="I64">
32
+ <dim>5</dim>
33
+ </port>
34
+ </input>
35
+ <output>
36
+ <port id="2" precision="FP32" names="14,9,hidden_states">
37
+ <dim>-1</dim>
38
+ <dim>3</dim>
39
+ <dim>2</dim>
40
+ <dim>14</dim>
41
+ <dim>14</dim>
42
+ </port>
43
+ </output>
44
+ </layer>
45
+ <layer id="3" name="self.proj.weight_compressed" type="Const" version="opset1">
46
+ <data element_type="f16" shape="1280, 3, 2, 14, 14" offset="40" size="3010560" />
47
+ <output>
48
+ <port id="0" precision="FP16" names="self.proj.weight">
49
+ <dim>1280</dim>
50
+ <dim>3</dim>
51
+ <dim>2</dim>
52
+ <dim>14</dim>
53
+ <dim>14</dim>
54
+ </port>
55
+ </output>
56
+ </layer>
57
+ <layer id="4" name="self.proj.weight" type="Convert" version="opset1">
58
+ <data destination_type="f32" />
59
+ <rt_info>
60
+ <attribute name="decompression" version="0" />
61
+ </rt_info>
62
+ <input>
63
+ <port id="0" precision="FP16">
64
+ <dim>1280</dim>
65
+ <dim>3</dim>
66
+ <dim>2</dim>
67
+ <dim>14</dim>
68
+ <dim>14</dim>
69
+ </port>
70
+ </input>
71
+ <output>
72
+ <port id="1" precision="FP32">
73
+ <dim>1280</dim>
74
+ <dim>3</dim>
75
+ <dim>2</dim>
76
+ <dim>14</dim>
77
+ <dim>14</dim>
78
+ </port>
79
+ </output>
80
+ </layer>
81
+ <layer id="5" name="__module.proj/aten::_convolution/Convolution" type="Convolution" version="opset1">
82
+ <data strides="2, 14, 14" dilations="1, 1, 1" pads_begin="0, 0, 0" pads_end="0, 0, 0" auto_pad="explicit" />
83
+ <input>
84
+ <port id="0" precision="FP32">
85
+ <dim>-1</dim>
86
+ <dim>3</dim>
87
+ <dim>2</dim>
88
+ <dim>14</dim>
89
+ <dim>14</dim>
90
+ </port>
91
+ <port id="1" precision="FP32">
92
+ <dim>1280</dim>
93
+ <dim>3</dim>
94
+ <dim>2</dim>
95
+ <dim>14</dim>
96
+ <dim>14</dim>
97
+ </port>
98
+ </input>
99
+ <output>
100
+ <port id="2" precision="FP32" names="32">
101
+ <dim>-1</dim>
102
+ <dim>1280</dim>
103
+ <dim>1</dim>
104
+ <dim>1</dim>
105
+ <dim>1</dim>
106
+ </port>
107
+ </output>
108
+ </layer>
109
+ <layer id="6" name="Constant_131593" type="Const" version="opset1">
110
+ <data element_type="i64" shape="2" offset="3010600" size="16" />
111
+ <rt_info>
112
+ <attribute name="precise" version="0" />
113
+ </rt_info>
114
+ <output>
115
+ <port id="0" precision="I64" names="18">
116
+ <dim>2</dim>
117
+ </port>
118
+ </output>
119
+ </layer>
120
+ <layer id="7" name="aten::view/Reshape_1" type="Reshape" version="opset1">
121
+ <data special_zero="false" />
122
+ <input>
123
+ <port id="0" precision="FP32">
124
+ <dim>-1</dim>
125
+ <dim>1280</dim>
126
+ <dim>1</dim>
127
+ <dim>1</dim>
128
+ <dim>1</dim>
129
+ </port>
130
+ <port id="1" precision="I64">
131
+ <dim>2</dim>
132
+ </port>
133
+ </input>
134
+ <output>
135
+ <port id="2" precision="FP32">
136
+ <dim>-1</dim>
137
+ <dim>1280</dim>
138
+ </port>
139
+ </output>
140
+ </layer>
141
+ <layer id="8" name="Result_131595" type="Result" version="opset1">
142
+ <input>
143
+ <port id="0" precision="FP32">
144
+ <dim>-1</dim>
145
+ <dim>1280</dim>
146
+ </port>
147
+ </input>
148
+ </layer>
149
+ </layers>
150
+ <edges>
151
+ <edge from-layer="0" from-port="0" to-layer="2" to-port="0" />
152
+ <edge from-layer="1" from-port="0" to-layer="2" to-port="1" />
153
+ <edge from-layer="2" from-port="2" to-layer="5" to-port="0" />
154
+ <edge from-layer="3" from-port="0" to-layer="4" to-port="0" />
155
+ <edge from-layer="4" from-port="1" to-layer="5" to-port="1" />
156
+ <edge from-layer="5" from-port="2" to-layer="7" to-port="0" />
157
+ <edge from-layer="6" from-port="0" to-layer="7" to-port="1" />
158
+ <edge from-layer="7" from-port="2" to-layer="8" to-port="0" />
159
+ </edges>
160
+ <rt_info>
161
+ <Runtime_version value="2024.6.0-17404-4c0f47d2335-releases/2024/6" />
162
+ <conversion_parameters>
163
+ <framework value="pytorch" />
164
+ <is_python_object value="True" />
165
+ </conversion_parameters>
166
+ </rt_info>
167
+ </net>
preprocessor_config.json ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "do_convert_rgb": true,
3
+ "do_normalize": true,
4
+ "do_rescale": true,
5
+ "do_resize": true,
6
+ "image_mean": [
7
+ 0.48145466,
8
+ 0.4578275,
9
+ 0.40821073
10
+ ],
11
+ "image_processor_type": "Qwen2VLImageProcessor",
12
+ "image_std": [
13
+ 0.26862954,
14
+ 0.26130258,
15
+ 0.27577711
16
+ ],
17
+ "max_pixels": 1003520,
18
+ "merge_size": 2,
19
+ "min_pixels": 200704,
20
+ "patch_size": 14,
21
+ "processor_class": "Qwen2VLProcessor",
22
+ "resample": 3,
23
+ "rescale_factor": 0.00392156862745098,
24
+ "size": {
25
+ "max_pixels": 1003520,
26
+ "min_pixels": 200704
27
+ },
28
+ "temporal_patch_size": 2
29
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,31 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "<|im_start|>",
4
+ "<|im_end|>",
5
+ "<|object_ref_start|>",
6
+ "<|object_ref_end|>",
7
+ "<|box_start|>",
8
+ "<|box_end|>",
9
+ "<|quad_start|>",
10
+ "<|quad_end|>",
11
+ "<|vision_start|>",
12
+ "<|vision_end|>",
13
+ "<|vision_pad|>",
14
+ "<|image_pad|>",
15
+ "<|video_pad|>"
16
+ ],
17
+ "eos_token": {
18
+ "content": "<|im_end|>",
19
+ "lstrip": false,
20
+ "normalized": false,
21
+ "rstrip": false,
22
+ "single_word": false
23
+ },
24
+ "pad_token": {
25
+ "content": "<|endoftext|>",
26
+ "lstrip": false,
27
+ "normalized": false,
28
+ "rstrip": false,
29
+ "single_word": false
30
+ }
31
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:091aa7594dc2fcfbfa06b9e3c22a5f0562ac14f30375c13af7309407a0e67b8a
3
+ size 11420371
tokenizer_config.json ADDED
@@ -0,0 +1,145 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_prefix_space": false,
3
+ "added_tokens_decoder": {
4
+ "151643": {
5
+ "content": "<|endoftext|>",
6
+ "lstrip": false,
7
+ "normalized": false,
8
+ "rstrip": false,
9
+ "single_word": false,
10
+ "special": true
11
+ },
12
+ "151644": {
13
+ "content": "<|im_start|>",
14
+ "lstrip": false,
15
+ "normalized": false,
16
+ "rstrip": false,
17
+ "single_word": false,
18
+ "special": true
19
+ },
20
+ "151645": {
21
+ "content": "<|im_end|>",
22
+ "lstrip": false,
23
+ "normalized": false,
24
+ "rstrip": false,
25
+ "single_word": false,
26
+ "special": true
27
+ },
28
+ "151646": {
29
+ "content": "<|object_ref_start|>",
30
+ "lstrip": false,
31
+ "normalized": false,
32
+ "rstrip": false,
33
+ "single_word": false,
34
+ "special": true
35
+ },
36
+ "151647": {
37
+ "content": "<|object_ref_end|>",
38
+ "lstrip": false,
39
+ "normalized": false,
40
+ "rstrip": false,
41
+ "single_word": false,
42
+ "special": true
43
+ },
44
+ "151648": {
45
+ "content": "<|box_start|>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false,
50
+ "special": true
51
+ },
52
+ "151649": {
53
+ "content": "<|box_end|>",
54
+ "lstrip": false,
55
+ "normalized": false,
56
+ "rstrip": false,
57
+ "single_word": false,
58
+ "special": true
59
+ },
60
+ "151650": {
61
+ "content": "<|quad_start|>",
62
+ "lstrip": false,
63
+ "normalized": false,
64
+ "rstrip": false,
65
+ "single_word": false,
66
+ "special": true
67
+ },
68
+ "151651": {
69
+ "content": "<|quad_end|>",
70
+ "lstrip": false,
71
+ "normalized": false,
72
+ "rstrip": false,
73
+ "single_word": false,
74
+ "special": true
75
+ },
76
+ "151652": {
77
+ "content": "<|vision_start|>",
78
+ "lstrip": false,
79
+ "normalized": false,
80
+ "rstrip": false,
81
+ "single_word": false,
82
+ "special": true
83
+ },
84
+ "151653": {
85
+ "content": "<|vision_end|>",
86
+ "lstrip": false,
87
+ "normalized": false,
88
+ "rstrip": false,
89
+ "single_word": false,
90
+ "special": true
91
+ },
92
+ "151654": {
93
+ "content": "<|vision_pad|>",
94
+ "lstrip": false,
95
+ "normalized": false,
96
+ "rstrip": false,
97
+ "single_word": false,
98
+ "special": true
99
+ },
100
+ "151655": {
101
+ "content": "<|image_pad|>",
102
+ "lstrip": false,
103
+ "normalized": false,
104
+ "rstrip": false,
105
+ "single_word": false,
106
+ "special": true
107
+ },
108
+ "151656": {
109
+ "content": "<|video_pad|>",
110
+ "lstrip": false,
111
+ "normalized": false,
112
+ "rstrip": false,
113
+ "single_word": false,
114
+ "special": true
115
+ }
116
+ },
117
+ "additional_special_tokens": [
118
+ "<|im_start|>",
119
+ "<|im_end|>",
120
+ "<|object_ref_start|>",
121
+ "<|object_ref_end|>",
122
+ "<|box_start|>",
123
+ "<|box_end|>",
124
+ "<|quad_start|>",
125
+ "<|quad_end|>",
126
+ "<|vision_start|>",
127
+ "<|vision_end|>",
128
+ "<|vision_pad|>",
129
+ "<|image_pad|>",
130
+ "<|video_pad|>"
131
+ ],
132
+ "bos_token": null,
133
+ "chat_template": "{% set image_count = namespace(value=0) %}{% set video_count = namespace(value=0) %}{% for message in messages %}{% if loop.first and message['role'] != 'system' %}<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n{% endif %}<|im_start|>{{ message['role'] }}\n{% if message['content'] is string %}{{ message['content'] }}<|im_end|>\n{% else %}{% for content in message['content'] %}{% if content['type'] == 'image' or 'image' in content or 'image_url' in content %}{% set image_count.value = image_count.value + 1 %}{% if add_vision_id %}Picture {{ image_count.value }}: {% endif %}<|vision_start|><|image_pad|><|vision_end|>{% elif content['type'] == 'video' or 'video' in content %}{% set video_count.value = video_count.value + 1 %}{% if add_vision_id %}Video {{ video_count.value }}: {% endif %}<|vision_start|><|video_pad|><|vision_end|>{% elif 'text' in content %}{{ content['text'] }}{% endif %}{% endfor %}<|im_end|>\n{% endif %}{% endfor %}{% if add_generation_prompt %}<|im_start|>assistant\n{% endif %}",
134
+ "clean_up_tokenization_spaces": false,
135
+ "eos_token": "<|im_end|>",
136
+ "errors": "replace",
137
+ "extra_special_tokens": {},
138
+ "model_max_length": 32768,
139
+ "pad_token": "<|endoftext|>",
140
+ "padding_side": "left",
141
+ "processor_class": "Qwen2VLProcessor",
142
+ "split_special_tokens": false,
143
+ "tokenizer_class": "Qwen2Tokenizer",
144
+ "unk_token": null
145
+ }
vocab.json ADDED
The diff for this file is too large to render. See raw diff