tanbinh2210 commited on
Commit
692f117
1 Parent(s): b1cee70

Add new SentenceTransformer model.

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": true,
4
+ "pooling_mode_mean_tokens": false,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,763 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: BAAI/bge-m3
3
+ library_name: sentence-transformers
4
+ pipeline_tag: sentence-similarity
5
+ tags:
6
+ - sentence-transformers
7
+ - sentence-similarity
8
+ - feature-extraction
9
+ - generated_from_trainer
10
+ - dataset_size:10363
11
+ - loss:MultipleNegativesRankingLoss
12
+ widget:
13
+ - source_sentence: Kiểm tra viên chính ngành Kiểm sát có được miễn tập sự hành nghề
14
+ luật sư không?
15
+ sentences:
16
+ - 'Điều 3. Giải thích từ ngữ: Trong Nghị định này, các từ ngữ dưới đây được hiểu
17
+ như sau: 1. Hệ thống ACTS là hệ thống công nghệ thống tin tích hợp do các nước
18
+ thành viên ASEAN thiết lập và kết nối, trao đổi thông tin với nhau để thực hiện
19
+ thủ tục quá cảnh điện tử, kiểm soát sự vận chuyển hàng hóa quá cảnh qua lãnh thổ
20
+ của các nước thành viên ASEAN, hỗ trợ cơ quan hải quan các nước thành viên ASEAN
21
+ tính tiền thuế hải quan, tiền bảo lãnh và trao đổi thông tin thu hồi nợ thuế hải
22
+ quan trên cơ sở quy định tại Nghị định thư 7 về hệ thống quá cảnh hải quan (sau
23
+ đây gọi là Nghị định thư 7). 2. Tờ khai quá cảnh hải quan là tờ khai hải quan
24
+ điện tử gồm các chỉ tiêu thông tin mà người khai hải quan phải khai khi thực hiện
25
+ thủ tục quá cảnh hàng hóa thông qua Hệ thống ACTS. Một tờ khai quá cảnh hải quan
26
+ chỉ được sử dụng để khai báo cho hàng hóa quá cảnh được vận chuyển trên một phương
27
+ tiện vận tải của một hành trình quá cảnh'
28
+ - 'Điều 1.: rất nghiêm trọng do cố ý, tội phạm đặc biệt nghiêm trọng do cố ý thì
29
+ không được cấp lại Chứng chỉ hành nghề luật sư. 5. Thủ tục cấp lại Chứng chỉ hành
30
+ nghề luật sư được thực hiện theo quy định tại Điều 17 của Luật này. 11. Điều 20
31
+ được sửa đổi, bổ sung như sau: “Điều 20. Gia nhập Đoàn luật sư 1. Người có Chứng
32
+ chỉ hành nghề luật sư có quyền lựa chọn gia nhập một Đoàn luật sư để hành nghề
33
+ luật sư. Người đã gia nhập Đoàn luật sư phải làm việc theo hợp đồng lao động cho
34
+ tổ chức hành nghề luật sư, hành nghề với tư cách cá nhân theo hợp đồng lao động
35
+ cho cơ quan, tổ chức hoặc thành lập, tham gia thành lập tổ chức hành nghề luật
36
+ sư theo quy định của Luật này tại địa phương nơi Đoàn luật sư có trụ sở. 2. Người
37
+ có Chứng chỉ hành nghề luật sư gửi hồ sơ gia nhập Đoàn luật sư đến Ban chủ nhiệm
38
+ Đoàn luật sư. Hồ sơ gia nhập Đoàn luật sư gồm có: a) Giấy đề nghị gia nhập Đoàn
39
+ luật sư theo mẫu do Liên đoàn luật sư Việt Nam ban hành; b) Phiếu lý lịch tư pháp
40
+ đối với trường hợp nộp hồ sơ gia nhập Đoàn luật sư quá sáu tháng, kể từ ngày được
41
+ cấp Chứng chỉ hành nghề luật sư; c) Bản sao Chứng chỉ hành nghề'
42
+ - 'Điều 11. Xử lý hóa đơn điện tử có sai sót sau khi cấp mã: sót lưu trên hệ thống
43
+ của cơ quan thuế. Hóa đơn điện tử mới thay thế hóa đơn điện tử đã được cấp mã
44
+ có sai sót phải có dòng chữ “Thay thế cho hóa đơn ký hiệu mẫu số, ký hiệu hóa
45
+ đơn…số hóa đơn..., ngày... tháng... năm”. Người bán ký số, ký điện tử trên hóa
46
+ đơn điện tử mới thay thế hóa đơn điện tử đã lập có sai sót sau đó người bán gửi
47
+ cơ quan thuế để cơ quan thuế cấp mã cho hóa đơn điện tử mới. 3. Trường hợp cơ
48
+ quan thuế phát hiện hóa đơn điện tử đã được cấp mã có sai sót thì cơ quan thuế
49
+ thông báo cho người bán theo Mẫu số 05 Phụ lục ban hành kèm theo Nghị định số
50
+ 119/2018/NĐ-CP để người bán kiểm tra sai sót. Trong thời gian 02 ngày kể từ ngày
51
+ nhận được thông báo của cơ quan thuế, người bán thực hiện thông báo với cơ quan
52
+ thuế theo Mẫu số 04 Phụ lục ban hành kèm theo Nghị định số 119/2018/NĐ-CP về việc
53
+ hủy hóa đơn điện tử có mã đã lập có sai sót và lập hóa đơn điện tử mới, ký số,
54
+ ký điện tử gửi cơ quan thuế để cấp mã hóa đơn điện tử mới thay thế hóa đơn điện
55
+ tử đã lập để gửi cho người mua theo hướng dẫn tại khoản 1 hoặc khoản 2 Điều này.
56
+ Nếu người bán không thông báo'
57
+ - source_sentence: Thực hiện chi phí tổ chức, quản lý, giám sát thu phí như thế nào?
58
+ sentences:
59
+ - 'Điều 5. Xử phạt người điều khiển xe ô tô và các loại xe tương tự xe ô tô vi phạm
60
+ quy tắc giao thông đường bộ: ra đường cao tốc; điều khiển xe chạy ở làn dừng xe
61
+ khẩn cấp hoặc phần lề đường của đường cao tốc; chuyển làn đường không đúng nơi
62
+ cho phép hoặc không có tín hiệu báo trước khi chạy trên đường cao tốc; không tuân
63
+ thủ quy định về khoảng cách an toàn đối với xe chạy liền trước khi chạy trên đường
64
+ cao tốc; h) Không nhường đường hoặc gây cản trở xe được quyền ưu tiên đang phát
65
+ tín hiệu ưu tiên đi làm nhiệm vụ; i) Điều khiển xe chạy quá tốc độ quy định từ
66
+ 10 km/h đến 20 km/h. 6. Phạt tiền từ 6.000.000 đồng đến 8.000.000 đồng đối với
67
+ người điều khiển xe thực hiện một trong các hành vi vi phạm sau đây: a) Điều khiển
68
+ xe chạy quá tốc độ quy định trên 20 km/h đến 35 km/h; b) Dừng xe, đỗ xe trên đường
69
+ cao tốc không đúng nơi quy định; không có báo hiệu để người lái xe khác biết khi
70
+ buộc phải dừng xe, đỗ xe trên đường cao tốc không đúng nơi quy định; quay đầu
71
+ xe trên đường cao tốc; c) Điều khiển xe trên đường mà trong máu hoặc hơi thở có
72
+ nồng độ cồn nhưng chưa vượt quá 50 miligam/100 mililít máu hoặc chưa vượt quá
73
+ 0,25 miligam/1 lít khí thở. 7. Phạt tiền từ 10.000.000 đồng đến 12.000.000 đồng
74
+ đối với người điều khiển xe thực hiện một trong các hành vi vi phạm'
75
+ - 'Điều 1. Sửa đổi, bổ sung, bãi bỏ một số điều của Bộ luật Hình sự số 100/2015/QH13:
76
+ Tùy từng trường hợp cụ thể, cơ quan có thẩm quyền ấn định thời điểm xin lỗi, thời
77
+ gian thực hiện nghĩa vụ bồi thường thiệt hại quy định tại điểm a khoản 3 Điều
78
+ này và nghĩa vụ quy định tại điểm b và điểm c khoản 3 Điều 93 của Bộ luật này
79
+ từ 03 tháng đến 01 năm.”. 17. Sửa đổi, bổ sung Điều 95 như sau: a) Sửa đổi, bổ
80
+ sung khoản 1 Điều 95 như sau: “1. Cơ quan điều tra, Viện kiểm sát hoặc Tòa án
81
+ có thể áp dụng biện pháp giáo dục tại xã, phường, thị trấn từ 01 năm đến 02 năm
82
+ đối với người dưới 18 tuổi phạm tội thuộc một trong các trường hợp sau đây: a)
83
+ Người từ đủ 16 tuổi đến dưới 18 tuổi phạm tội ít nghiêm trọng hoặc phạm tội nghiêm
84
+ trọng thuộc trường hợp quy định tại điểm a khoản 2 Điều 91 của Bộ luật này; b)
85
+ Người từ đủ 14 tuổi đến dưới 16 tuổi phạm tội rất nghiêm trọng thuộc trường hợp
86
+ quy định tại điểm b khoản 2 Điều 91 của Bộ luật này.”; b) Sửa đổi, bổ sung khoản
87
+ 3 Điều 95 như sau: “3. Nếu người được giáo dục tại xã, phường, thị trấn đã chấp
88
+ hành một phần hai thời hạn và có nhiều tiến bộ thì theo đề nghị của Ủy ban nhân
89
+ dân cấp xã được giao trách nhiệm giám sát, giáo dục, cơ quan'
90
+ - 'Điều 15. Chi phí tổ chức, quản lý, giám sát thu phí: 1. Chi phí tổ chức, quản
91
+ lý, giám sát thu phí là toàn bộ chi phí để nhà đầu tư thực hiện công tác tổ chức,
92
+ quản lý, giám sát thu phí (bao gồm cả việc thu phí điện tử không dừng và một dừng).
93
+ 2. Chi phí tổ chức, quản lý, giám sát thu phí do cơ quan nhà nước có thẩm quyền
94
+ thỏa thuận với nhà đầu tư trên nguyên tắc tính đúng, tính đủ, phù hợp quy định
95
+ của pháp luật.'
96
+ - source_sentence: Thế nào là giới hạn lệnh giao dịch một chứng khoán phái sinh?
97
+ sentences:
98
+ - 'Điều 4. Địa chính viên hạng II - Mã số: V.06.01.01: tra cơ bản về quản lý, sử
99
+ dụng đất đai; e) Chủ trì tổ chức biên soạn các tài liệu hướng dẫn kỹ thuật, tiêu
100
+ chuẩn, quy chuẩn kỹ thuật, định mức kinh tế - kỹ thuật trong quản lý đất đai;
101
+ g) Chỉ đạo biên soạn tài liệu và tham gia đào tạo, bồi dưỡng cho viên chức chuyên
102
+ ngành địa chính từ hạng tương đương trở xuống. 2. Tiêu chuẩn về trình độ đào tạo,
103
+ bồi dưỡng: a) Tốt nghiệp đại học trở lên thuộc các chuyên ngành đất đai, địa chính,
104
+ trắc địa hoặc chuyên ngành khác có liên quan; nếu tốt nghiệp chuyên ngành khác
105
+ phải hoàn thành chương trình bồi dưỡng kiến thức, kỹ năng nghề nghiệp chuyên ngành
106
+ do cơ quan quản lý viên chức chuyên ngành địa chính quy định; b) Có trình độ ngoại
107
+ ngữ bậc 3 theo quy định tại Thông tư số 01/2014/TT- BGDĐT ngày 24 tháng 01 năm
108
+ 2014 của Bộ Giáo dục và Đào tạo ban hành Khung năng lực ngoại ngữ 6 bậc dùng cho
109
+ Việt Nam (sau đây viết tắt là Thông tư số 01/2014/TT-BGDĐT); c) Có trình độ tin
110
+ học đạt chuẩn kỹ năng sử dụng công nghệ thông tin cơ bản theo quy định tại Thông
111
+ tư số 03/2014/TT-BTTTT ngày 11 tháng 3 năm 2014 của Bộ Thông tin và Truyền thông
112
+ quy định Chuẩn kỹ năng sử dụng công nghệ thông tin (sau đây viết tắt là Thông
113
+ tư số 03/2014/TT-BTTTT); d) Có'
114
+ - 'Điều 16. Chỉnh lý, hoàn thiện dự thảo văn bản quy phạm pháp luật: 1. Trường hợp
115
+ trong quá trình soạn thảo, cơ quan chủ trì soạn thảo không xác định được dự thảo
116
+ văn bản có nội dung bất bình đẳng giới, phân biệt đối xử về giới nhưng trong quá
117
+ trình thẩm định mới xác định dự thảo văn bản có nội dung liên quan đến vấn đề
118
+ này thì cơ quan thẩm định đề nghị cơ quan chủ trì soạn thảo thực hiện việc lồng
119
+ ghép vấn đề bình đẳng giới, giải trình rõ các nội dung có liên quan, hoàn thiện
120
+ dự thảo văn bản, hồ sơ gửi thẩm định. 2. Trường hợp còn có ý kiến khác nhau giữa
121
+ các cơ quan có liên quan về vấn đề bình đẳng giới, cơ quan thẩm định tổ chức họp
122
+ với đại diện của các cơ quan chủ trì soạn thảo, cơ quan lao động, thương binh
123
+ và xã hội, Hội liên hiệp phụ nữ Việt Nam hoặc Ban Vì sự tiến bộ của phụ nữ, Mặt
124
+ trận Tổ quốc Việt Nam và các cơ quan, tổ chức có liên quan để thảo luận, thống
125
+ nhất trước khi trình dự thảo văn bản.'
126
+ - 'Điều 3. Giải thích từ ngữ: dụng để đảm bảo nghĩa vụ thanh toán giao dịch chứng
127
+ khoán phái sinh của nhà đầu tư và thành viên bù trừ. 17. Tài khoản ký quỹ bù trừ
128
+ (sau đây gọi tắt là tài khoản ký quỹ) là tài khoản được mở cho nhà đầu tư, thành
129
+ viên bù trừ để quản lý vị thế, tài sản ký quỹ và thanh toán giao dịch chứng khoán
130
+ phái sinh. 18. Bù trừ, thanh toán giao dịch chứng khoán phái sinh là các hoạt
131
+ động bao gồm ký quỹ, đối chiếu, xác nhận kết quả giao dịch, xử lý lỗi, thế vị
132
+ giao dịch, bù trừ, xác định nghĩa vụ thanh toán, chuyển giao tiền hoặc chuyển
133
+ giao tiền và tài sản cơ sở vào ngày thanh toán. 19. Cơ chế đối tác bù trừ trung
134
+ tâm là hoạt động bù trừ, thanh toán giao dịch chứng khoán phái sinh do Tổng công
135
+ ty lưu ký và bù trừ chứng khoán Việt Nam thực hiện, trong đó Tổng công ty lưu
136
+ ký và bù trừ chứng khoán Việt Nam thông qua hoạt động thế vị trở thành một đối
137
+ tác của giao dịch chứng khoán phái sinh, thành viên bù trừ là đối tác còn lại
138
+ của giao dịch. 20. Thế vị là việc thay thế một bên trong hợp đồng hoặc giao dịch
139
+ chứng khoán phái sinh bằng một bên khác, trong đó bên thay thế kế thừa tất cả
140
+ các quyền lợi và nghĩa vụ có liên quan'
141
+ - source_sentence: Tổ chức khắc phục hậu quả bom mìn vật nổ là tổ chức nào?
142
+ sentences:
143
+ - 'Điều 13. Các hành vi bị nghiêm cấm: 1. Giả mạo, khai man hoặc thỏa thuận, ép
144
+ buộc người khác giả mạo, khai man, tẩy xóa chứng từ kế toán hoặc tài liệu kế toán
145
+ khác. 2. Cố ý, thỏa thuận hoặc ép buộc người khác cung cấp, xác nhận thông tin,
146
+ số liệu kế toán sai sự thật. 3. Để ngoài sổ kế toán tài sản, nợ phải trả của đơn
147
+ vị kế toán hoặc có liên quan đến đơn vị kế toán. 4. Hủy bỏ hoặc cố ý làm hư hỏng
148
+ tài liệu kế toán trước khi kết thúc thời hạn lưu trữ quy định tại Điều 41 của
149
+ Luật này. 5. Ban hành, công bố chuẩn mực kế toán, chế độ kế toán không đúng thẩm
150
+ quyền. 6. Mua chuộc, đe dọa, trù dập, ép buộc người làm kế toán thực hiện công
151
+ việc kế toán không đúng với quy định của Luật này. 7. Người có trách nhiệm quản
152
+ lý, điều hành đơn vị kế toán kiêm làm kế toán, thủ kho, thủ quỹ, trừ doanh nghiệp
153
+ tư nhân và công ty trách nhiệm hữu hạn do một cá nhân làm chủ sở hữu. 8. Bố trí
154
+ hoặc thuê người làm kế toán, người'
155
+ - 'Điều 3. Giải thích từ ngữ: Việt Nam. 7. Tổ chức khắc phục hậu quả bom mìn vật
156
+ nổ là tổ chức trong nước và tổ chức nước ngoài hoạt động trong lĩnh vực khắc phục
157
+ hậu quả bom mìn vật nổ sau chiến tranh tại Việt Nam theo quy định của pháp luật.
158
+ 8. Nạn nhân bom mìn vật nổ sau chiến tranh là người bị chết, bị khuyết tật hoặc
159
+ dị tật do bom mìn vật nổ còn sót lại sau chiến tranh. 9. Hoạt động khắc phục hậu
160
+ quả bom mìn vật nổ sau chiến tranh là các hoạt động nhằm hạn chế hậu quả, loại
161
+ bỏ tác động, ảnh hưởng của bom mìn vật nổ, khôi phục hoạt động bình thường ở khu
162
+ vực ô nhiễm bom mìn vật nổ sau chiến tranh. Hoạt động khắc phục hậu quả bom mìn
163
+ vật nổ sau chiến tranh là hoạt động công ích. 10. Hạng mục khắc phục hậu quả bom
164
+ mìn vật nổ sau chiến tranh trong thành phần dự án đầu tư là một hợp phần của dự
165
+ án đầu tư nhằm thực hiện các hoạt động khắc phục hậu quả bom mìn vật nổ phục vụ
166
+ cho việc tiến hành hoạt động của dự án đầu tư đó. 11. Nhiệm vụ khắc phục hậu quả
167
+ bom mìn vật nổ sau chiến tranh là các hoạt động khắc phục hậu quả bom mìn vật
168
+ nổ được Chính phủ, Bộ Quốc phòng hoặc cấp có thẩm quyền giao các đơn vị quân đội'
169
+ - 'Điều 1. Sửa đổi, bổ sung, bãi bỏ một số điều của Bộ luật Hình sự số 100/2015/QH13:
170
+ vĩnh viễn; đ) Pháp nhân thương mại còn có thể bị phạt tiền từ 50.000.000 đồng
171
+ đến 200.000.000 đồng, cấm kinh doanh, cấm hoạt động trong một số lĩnh vực nhất
172
+ định hoặc cấm huy động vốn từ 01 năm đến 03 năm.”. 40. Sửa đổi, bổ sung Điều 190
173
+ như sau: a) Sửa đổi, bổ sung các khoản 1, 2 và 3 Điều 190 như sau: “1. Người nào
174
+ thực hiện một trong các hành vi sau đây, nếu không thuộc trường hợp quy định tại
175
+ các điều 232, 234, 244, 246, 248, 251, 253, 254, 304, 305, 306, 309 và 311 của
176
+ Bộ luật này, thì bị phạt tiền từ 100.000.000 đồng đến 1.000.000.000 đồng hoặc
177
+ phạt tù từ 01 năm đến 05 năm: a) Sản xuất, buôn bán thuốc bảo vệ thực vật mà Nhà
178
+ nước cấm kinh doanh, cấm lưu hành, cấm sử dụng từ 50 kilôgam đến dưới 100 kilôgam
179
+ hoặc từ 50 lít đến dưới 100 lít; b) Buôn bán thuốc lá điếu nhập lậu từ 1.500 bao
180
+ đến dưới 3.000 bao; c) Sản xuất, buôn bán pháo nổ từ 06 kilôgam đến dưới 40 kilôgam;
181
+ d) Sản xuất, buôn bán hàng hóa khác mà Nhà nước cấm kinh doanh, cấm lưu hành,
182
+ cấm sử dụng trị giá từ 100.000.000 đồng đến dưới 300.000.000 đồng hoặc thu lợi
183
+ bất chính từ 50.000.000 đồng đến dưới 200.000.000 đồng; đ) Sản xuất, buôn bán
184
+ hàng hóa chưa được phép lưu hành, chưa được phép sử dụng'
185
+ - source_sentence: Mức xử phạt hành vi công chứng bản dịch không đính kèm bản sao
186
+ của bản chính được quy định như thế nào?
187
+ sentences:
188
+ - 'Điều 428. Đơn phương chấm dứt thực hiện hợp đồng: 1. Một bên có quyền đơn phương
189
+ chấm dứt thực hiện hợp đồng và không phải bồi thường thiệt hại khi bên kia vi
190
+ phạm nghiêm trọng nghĩa vụ trong hợp đồng hoặc các bên có thỏa thuận hoặc pháp
191
+ luật có quy định. 2. Bên đơn phương chấm dứt thực hiện hợp đồng phải thông báo
192
+ ngay cho bên kia biết về việc chấm dứt hợp đồng, nếu không thông báo mà gây thiệt
193
+ hại thì phải bồi thường. 3. Khi hợp đồng bị đơn phương chấm dứt thực hiện thì
194
+ hợp đồng chấm dứt kể từ thời điểm bên kia nhận được thông báo chấm dứt. Các bên
195
+ không phải tiếp tục thực hiện nghĩa vụ, trừ thỏa thuận về phạt vi phạm, bồi thường
196
+ thiệt hại và thỏa thuận về giải quyết tranh chấp. Bên đã thực hiện nghĩa vụ có
197
+ quyền yêu cầu bên kia thanh toán phần nghĩa vụ đã thực hiện. 4. Bên bị thiệt hại
198
+ do hành vi không thực hiện đúng nghĩa vụ trong hợp đồng của bên kia được bồi thường.
199
+ 5. Trường hợp việc đơn phương chấm dứt thực hiện hợp đồng không có căn cứ quy
200
+ định tại khoản'
201
+ - 'Điều 16. Vi phạm quy định về hoạt động sản xuất, kinh doanh theo Giấy chứng nhận
202
+ đủ điều kiện sản xuất, kinh doanh hóa chất sản xuất, kinh doanh có điều kiện trong
203
+ lĩnh vực công nghiệp: 1. Phạt cảnh cáo hoặc phạt tiền từ 500.000 đồng đến 1.000.000
204
+ đồng đối với hành vi viết thêm, tẩy xóa, sửa chữa làm thay đổi nội dung ghi trong
205
+ Giấy chứng nhận đủ điều kiện sản xuất, kinh doanh hóa chất sản xuất, kinh doanh
206
+ có điều kiện trong lĩnh vực công nghiệp. 2. Phạt tiền từ 1.000.000 đồng đến 3.000.000
207
+ đồng đối với một trong các hành vi vi phạm sau: a) Cho thuê, cho mượn, cầm cố,
208
+ thế chấp, bán, chuyển nhượng Giấy chứng nhận đủ điều kiện sản xuất, kinh doanh
209
+ hóa chất sản xuất, kinh doanh có điều kiện trong lĩnh vực công nghiệp; b) Thuê,
210
+ mượn, nhận cầm cố, nhận thế chấp, mua, nhận chuyển nhượng Giấy chứng nhận đủ điều
211
+ kiện sản xuất, kinh doanh hóa chất sản xuất, kinh doanh có điều kiện trong lĩnh
212
+ vực công nghiệp. 3. Phạt tiền từ 3.000.000 đồng đến 5.000.000 đồng đối với hành
213
+ vi sản xuất, kinh doanh không đúng địa điểm, quy mô, loại hóa chất sản xuất, kinh
214
+ doanh có điều kiện ghi trong Giấy chứng nhận đủ điều kiện sản xuất, kinh doanh
215
+ hóa chất sản xuất, kinh doanh có điều kiện'
216
+ - 'Điều 14. Hành vi vi phạm quy định của công chứng viên về công chứng bản dịch:
217
+ bản cần dịch. 4. Hình thức xử phạt bổ sung: a) Tước quyền sử dụng thẻ công chứng
218
+ viên từ 01 tháng đến 03 tháng đối với hành vi vi phạm quy định tại các điểm b
219
+ và d khoản 3 Điều này; b) Tước quyền sử dụng thẻ công chứng viên từ 03 tháng đến
220
+ 06 tháng đối với hành vi vi phạm quy định tại các điểm a, c, đ và e khoản 3 Điều
221
+ này. 5. Biện pháp khắc phục hậu quả: a) Buộc nộp lại số lợi bất hợp pháp có được
222
+ do thực hiện hành vi vi phạm quy định tại khoản 3 Điều này; b) Buộc tổ chức hành
223
+ nghề công chứng đang lưu trữ hồ sơ công chứng thông báo trên cổng thông tin điện
224
+ tử của Sở Tư pháp nơi đặt trụ sở về bản dịch đã được công chứng quy định tại các
225
+ điểm c, đ và e khoản 3 Điều này.'
226
+ ---
227
+
228
+ # SentenceTransformer based on BAAI/bge-m3
229
+
230
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) on the json dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
231
+
232
+ ## Model Details
233
+
234
+ ### Model Description
235
+ - **Model Type:** Sentence Transformer
236
+ - **Base model:** [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) <!-- at revision 5617a9f61b028005a4858fdac845db406aefb181 -->
237
+ - **Maximum Sequence Length:** 350 tokens
238
+ - **Output Dimensionality:** 1024 tokens
239
+ - **Similarity Function:** Cosine Similarity
240
+ - **Training Dataset:**
241
+ - json
242
+ <!-- - **Language:** Unknown -->
243
+ <!-- - **License:** Unknown -->
244
+
245
+ ### Model Sources
246
+
247
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
248
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
249
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
250
+
251
+ ### Full Model Architecture
252
+
253
+ ```
254
+ SentenceTransformer(
255
+ (0): Transformer({'max_seq_length': 350, 'do_lower_case': True}) with Transformer model: XLMRobertaModel
256
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
257
+ (2): Normalize()
258
+ )
259
+ ```
260
+
261
+ ## Usage
262
+
263
+ ### Direct Usage (Sentence Transformers)
264
+
265
+ First install the Sentence Transformers library:
266
+
267
+ ```bash
268
+ pip install -U sentence-transformers
269
+ ```
270
+
271
+ Then you can load this model and run inference.
272
+ ```python
273
+ from sentence_transformers import SentenceTransformer
274
+
275
+ # Download from the 🤗 Hub
276
+ model = SentenceTransformer("tanbinh2210/bge-m3-zalo-trained-0_8-zalo")
277
+ # Run inference
278
+ sentences = [
279
+ 'Mức xử phạt hành vi công chứng bản dịch không đính kèm bản sao của bản chính được quy định như thế nào?',
280
+ 'Điều 14. Hành vi vi phạm quy định của công chứng viên về công chứng bản dịch: bản cần dịch. 4. Hình thức xử phạt bổ sung: a) Tước quyền sử dụng thẻ công chứng viên từ 01 tháng đến 03 tháng đối với hành vi vi phạm quy định tại các điểm b và d khoản 3 Điều này; b) Tước quyền sử dụng thẻ công chứng viên từ 03 tháng đến 06 tháng đối với hành vi vi phạm quy định tại các điểm a, c, đ và e khoản 3 Điều này. 5. Biện pháp khắc phục hậu quả: a) Buộc nộp lại số lợi bất hợp pháp có được do thực hiện hành vi vi phạm quy định tại khoản 3 Điều này; b) Buộc tổ chức hành nghề công chứng đang lưu trữ hồ sơ công chứng thông báo trên cổng thông tin điện tử của Sở Tư pháp nơi đặt trụ sở về bản dịch đã được công chứng quy định tại các điểm c, đ và e khoản 3 Điều này.',
281
+ 'Điều 428. Đơn phương chấm dứt thực hiện hợp đồng: 1. Một bên có quyền đơn phương chấm dứt thực hiện hợp đồng và không phải bồi thường thiệt hại khi bên kia vi phạm nghiêm trọng nghĩa vụ trong hợp đồng hoặc các bên có thỏa thuận hoặc pháp luật có quy định. 2. Bên đơn phương chấm dứt thực hiện hợp đồng phải thông báo ngay cho bên kia biết về việc chấm dứt hợp đồng, nếu không thông báo mà gây thiệt hại thì phải bồi thường. 3. Khi hợp đồng bị đơn phương chấm dứt thực hiện thì hợp đồng chấm dứt kể từ thời điểm bên kia nhận được thông báo chấm dứt. Các bên không phải tiếp tục thực hiện nghĩa vụ, trừ thỏa thuận về phạt vi phạm, bồi thường thiệt hại và thỏa thuận về giải quyết tranh chấp. Bên đã thực hiện nghĩa vụ có quyền yêu cầu bên kia thanh toán phần nghĩa vụ đã thực hiện. 4. Bên bị thiệt hại do hành vi không thực hiện đúng nghĩa vụ trong hợp đồng của bên kia được bồi thường. 5. Trường hợp việc đơn phương chấm dứt thực hiện hợp đồng không có căn cứ quy định tại khoản',
282
+ ]
283
+ embeddings = model.encode(sentences)
284
+ print(embeddings.shape)
285
+ # [3, 1024]
286
+
287
+ # Get the similarity scores for the embeddings
288
+ similarities = model.similarity(embeddings, embeddings)
289
+ print(similarities.shape)
290
+ # [3, 3]
291
+ ```
292
+
293
+ <!--
294
+ ### Direct Usage (Transformers)
295
+
296
+ <details><summary>Click to see the direct usage in Transformers</summary>
297
+
298
+ </details>
299
+ -->
300
+
301
+ <!--
302
+ ### Downstream Usage (Sentence Transformers)
303
+
304
+ You can finetune this model on your own dataset.
305
+
306
+ <details><summary>Click to expand</summary>
307
+
308
+ </details>
309
+ -->
310
+
311
+ <!--
312
+ ### Out-of-Scope Use
313
+
314
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
315
+ -->
316
+
317
+ <!--
318
+ ## Bias, Risks and Limitations
319
+
320
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
321
+ -->
322
+
323
+ <!--
324
+ ### Recommendations
325
+
326
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
327
+ -->
328
+
329
+ ## Training Details
330
+
331
+ ### Training Dataset
332
+
333
+ #### json
334
+
335
+ * Dataset: json
336
+ * Size: 10,363 training samples
337
+ * Columns: <code>query</code> and <code>pos</code>
338
+ * Approximate statistics based on the first 1000 samples:
339
+ | | query | pos |
340
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
341
+ | type | string | string |
342
+ | details | <ul><li>min: 7 tokens</li><li>mean: 21.77 tokens</li><li>max: 41 tokens</li></ul> | <ul><li>min: 58 tokens</li><li>mean: 272.76 tokens</li><li>max: 350 tokens</li></ul> |
343
+ * Samples:
344
+ | query | pos |
345
+ |:--------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
346
+ | <code>Chỉ tuyển dụng giáo viên mầm non có bằng đại học từ năm 2021 có đúng không?</code> | <code>Điều 3. Giáo viên mầm non hạng III - Mã số V.07.02.26: quy định về đạo đức nhà giáo; quy định về hành vi, ứng xử và trang phục. 3. Tiêu chuẩn về trình độ đào tạo, bồi dưỡng a) Có bằng tốt nghiệp cao đẳng sư phạm giáo dục mầm non trở lên; b) Có chứng chỉ bồi dưỡng theo tiêu chuẩn chức danh nghề nghiệp giáo viên mầm non hạng III (đối với giáo viên mầm non mới được tuyển dụng vào giáo viên mầm non hạng III thì phải có chứng chỉ trong thời gian 36 tháng kể từ ngày được tuyển dụng). 4. Tiêu chuẩn về năng lực chuyên môn, nghiệp vụ a) Nắm được chủ trương, đường lối, chính sách, pháp luật của Đảng, Nhà nước, quy định và yêu cầu của ngành, địa phương về giáo dục mầm non và triển khai thực hiện vào nhiệm vụ được giao; b) Thực hiện đúng chương trình giáo dục mầm non; c) Biết phối hợp với đồng nghiệp, cha mẹ trẻ em và cộng đồng trong công tác nuôi dưỡng, chăm sóc, giáo dục trẻ em; d) Biết quản lý, sử dụng, bảo quản và giữ gìn có hiệu quả tài sản cơ sở vật chất, thiết bị của nhóm/Lớp, trường; đ) Có khả năng ứng dụng công nghệ thông tin trong thực hiện các nhiệm vụ của giáo viên mầm non hạng III và có khả năng sử dụng ngoại ngữ hoặc tiếng dân tộc thiểu số trong một số nhiệm vụ cụ thể được giao.</code> |
347
+ | <code>Trung tâm sát hạch lái xe không niêm yết mức giá các dịch vụ bị phạt bao nhiêu tiền?</code> | <code>Điều 37. Xử phạt các hành vi vi phạm quy định về đào tạo, sát hạch lái xe: 5.000.000 đồng đến 10.000.000 đồng đối với cơ sở đào tạo lái xe, trung tâm sát hạch lái xe thực hiện một trong các hành vi vi phạm sau đây: a) Cơ sở đào tạo lái xe tổ chức tuyển sinh, đào tạo vượt quá lưu lượng quy định trong Giấy phép đào tạo lái xe; b) Cơ sở đào tạo lái xe tổ chức đào tạo lái xe ngoài địa điểm được ghi trong Giấy phép đào tạo lái xe; c) Cơ sở đào tạo lái xe không lưu trữ hoặc lưu trữ không đầy đủ hồ sơ theo quy định của 02 khóa đào tạo trở lên; d) Cơ sở đào tạo lái xe bố trí số lượng học viên tập lái trên xe tập lái vượt quá quy định; đ) Cơ sở đào tạo lái xe không có đủ hệ thống phòng học; phòng học không đủ trang thiết bị, mô hình học cụ; e) Cơ sở đào tạo lái xe không có đủ sân tập lái hoặc sân tập lái không đủ điều kiện theo quy định; g) Cơ sở đào tạo lái xe không có đủ số lượng xe tập lái các hạng để đáp ứng với lưu lượng đào tạo thực tế tại các thời điểm hoặc sử dụng xe tập lái không đúng hạng để dạy thực hành lái xe; h) Trung tâm sát hạch lái xe không niêm yết mức thu phí sát hạch, giá các dịch vụ khác theo quy định;</code> |
348
+ | <code>Vị trí việc làm của viên chức được quy định như thế nào?</code> | <code>Điều 7. Vị trí việc làm: 1. Vị trí việc làm là công việc hoặc nhiệm vụ gắn với chức danh nghề nghiệp hoặc chức vụ quản lý tương ứng, là căn cứ xác định số lượng người làm việc, cơ cấu viên chức để thực hiện việc tuyển dụng, sử dụng và quản lý viên chức trong đơn vị sự nghiệp công lập. 2. Chính phủ quy định nguyên tắc, phương pháp xác định vị trí việc làm, thẩm quyền, trình tự, thủ tục quyết định số lượng vị trí việc làm trong đơn vị sự nghiệp công lập.</code> |
349
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
350
+ ```json
351
+ {
352
+ "scale": 20.0,
353
+ "similarity_fct": "cos_sim"
354
+ }
355
+ ```
356
+
357
+ ### Evaluation Dataset
358
+
359
+ #### json
360
+
361
+ * Dataset: json
362
+ * Size: 10,363 evaluation samples
363
+ * Columns: <code>query</code> and <code>pos</code>
364
+ * Approximate statistics based on the first 1000 samples:
365
+ | | query | pos |
366
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
367
+ | type | string | string |
368
+ | details | <ul><li>min: 7 tokens</li><li>mean: 21.75 tokens</li><li>max: 41 tokens</li></ul> | <ul><li>min: 37 tokens</li><li>mean: 269.62 tokens</li><li>max: 350 tokens</li></ul> |
369
+ * Samples:
370
+ | query | pos |
371
+ |:--------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
372
+ | <code>Theo quy định pháp luật, dẫn xuất của các loài động vật, thực vật là gì?</code> | <code>Điều 3. Giải thích từ ngữ: mục đích thương mại hoặc vì mục đích thương mại. 18. Nuôi sinh trưởng là hình thức nuôi giữ con non, trứng của các loài động vật hoang dã khai thác từ tự nhiên để nuôi lớn, cho ấp nở thành các cá thể con trong môi trường có kiểm soát. 19. Nuôi sinh sản là hình thức nuôi giữ động vật hoang dã để sản sinh ra các thế hệ kế tiếp trong môi trường có kiểm soát. 20. Trồng cấy nhân tạo là hình thức trồng, cấy từ hạt, mầm, hợp tử, ghép cành hoặc các cách nhân giống khác thực vật hoang dã trong môi trường có kiểm soát. 21. Nguồn giống sinh sản là cá thể động vật ban đầu hợp pháp được nuôi trong cơ sở nuôi sinh sản để sản xuất ra các cá thể thế hệ kế tiếp. 22. Thế hệ F1 gồm các cá thể được sinh ra trong môi trường có kiểm soát, trong đó có ít nhất bố hoặc mẹ được khai thác từ tự nhiên. 23. Thế hệ F2 hoặc các thế hệ kế tiếp gồm các cá thể được sinh ra trong môi trường có kiểm soát bởi cặp bố, mẹ thế hệ F1 trở đi. 24. Vật dụng cá nhân, vật dụng hộ gia đình có nguồn gốc động vật, thực vật hoang dã là mẫu vật có nguồn gốc hợp pháp của cá nhân, hộ gia đình. Mẫu vật sống không được coi là vật dụng</code> |
373
+ | <code>Hỗ trợ hoạt động khởi nghiệp doanh nghiệp khoa học và công nghệ được quy định như thế nào?</code> | <code>Điều 5. Nội dung và mức chi ngân sách nhà nước thực hiện hỗ trợ ươm tạo doanh nghiệp khoa học và công nghệ: 1. Hỗ trợ cơ sở ươm tạo doanh nghiệp khoa học và công nghệ: Đối tượng thuộc phạm vi hỗ trợ theo quy định tại Khoản này phải đáp ứng các điều kiện quy định tại Khoản 1 Điều 9 Thông tư số 19/2016/TT-BKHCN ngày 28 tháng 10 năm 2016 của Bộ Khoa học và Công nghệ quy định quản lý Chương trình hỗ trợ phát triển doanh nghiệp khoa học và công nghệ và tổ chức khoa học và công nghệ công lập thực hiện cơ chế tự chủ, tự chịu trách nhiệm (sau đây gọi là Thông tư số 19/2016/TT-BKHCN). Các nội dung hỗ trợ như sau: a) Hỗ trợ kinh phí mua sắm các trang thiết bị dùng chung phục vụ trực tiếp hoạt động ươm tạo công nghệ, ươm tạo doanh nghiệp khoa học và công nghệ của cơ sở ươm tạo doanh nghiệp khoa học và công nghệ (sau đây gọi là cơ sở ươm tạo): Danh mục trang thiết bị dùng chung cho cơ sở ươm tạo được xác định phù hợp theo từng lĩnh vực công nghệ theo quy định của Bộ Khoa học và Công nghệ. Mức hỗ trợ kinh phí mua</code> |
374
+ | <code>Mức án cao nhất về đồng phạm trong tội bạo loạn là bao nhiêu năm tù?</code> | <code>Điều 1. Sửa đổi, bổ sung, bãi bỏ một số điều của Bộ luật Hình sự số 100/2015/QH13: thực vật thông thường hoặc 50 mét khối (m3) trở lên gỗ thuộc Danh mục thực vật rừng, động vật rừng nguy cấp, quý, hiếm Nhóm IIA; b) Khai thác trái phép rừng sản xuất là rừng tự nhiên 40 mét khối (m3) trở lên gỗ loài thực vật thông thường hoặc 30 mét khối (m3) trở lên gỗ thuộc Danh mục thực vật rừng, động vật rừng nguy cấp, quý, hiếm Nhóm IIA; c) Khai thác trái phép rừng phòng hộ là rừng trồng 60 mét khối (m3) trở lên gỗ loài thực vật thông thường hoặc 40 mét khối (m3) trở lên gỗ thuộc Danh mục thực vật rừng, động vật rừng nguy cấp, quý, hiếm Nhóm IIA; d) Khai thác trái phép rừng phòng hộ là rừng tự nhiên 30 mét khối (m3) trở lên gỗ loài thực vật thông thường hoặc 20 mét khối (m3) trở lên gỗ thuộc Danh mục thực vật rừng, động vật rừng nguy cấp, quý, hiếm Nhóm IIA; đ) Khai thác trái phép rừng đặc dụng là rừng trồng 40 mét khối (m3) trở lên gỗ loài thực vật thông thường hoặc 20 mét khối (m3) trở lên gỗ thuộc Danh mục thực vật rừng, động vật rừng nguy cấp, quý, hiếm Nhóm IIA; e) Khai thác trái phép rừng đặc dụng là rừng tự nhiên 15 mét khối (m3) trở lên gỗ loài thực vật thông thường hoặc 10 mét khối (m3) trở lên gỗ thuộc Danh mục thực vật</code> |
375
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
376
+ ```json
377
+ {
378
+ "scale": 20.0,
379
+ "similarity_fct": "cos_sim"
380
+ }
381
+ ```
382
+
383
+ ### Training Hyperparameters
384
+ #### Non-Default Hyperparameters
385
+
386
+ - `overwrite_output_dir`: True
387
+ - `per_device_train_batch_size`: 7
388
+ - `per_device_eval_batch_size`: 7
389
+ - `learning_rate`: 2e-05
390
+ - `num_train_epochs`: 15
391
+ - `lr_scheduler_type`: cosine
392
+ - `warmup_ratio`: 0.1
393
+ - `fp16`: True
394
+ - `batch_sampler`: no_duplicates
395
+
396
+ #### All Hyperparameters
397
+ <details><summary>Click to expand</summary>
398
+
399
+ - `overwrite_output_dir`: True
400
+ - `do_predict`: False
401
+ - `eval_strategy`: no
402
+ - `prediction_loss_only`: True
403
+ - `per_device_train_batch_size`: 7
404
+ - `per_device_eval_batch_size`: 7
405
+ - `per_gpu_train_batch_size`: None
406
+ - `per_gpu_eval_batch_size`: None
407
+ - `gradient_accumulation_steps`: 1
408
+ - `eval_accumulation_steps`: None
409
+ - `torch_empty_cache_steps`: None
410
+ - `learning_rate`: 2e-05
411
+ - `weight_decay`: 0.0
412
+ - `adam_beta1`: 0.9
413
+ - `adam_beta2`: 0.999
414
+ - `adam_epsilon`: 1e-08
415
+ - `max_grad_norm`: 1.0
416
+ - `num_train_epochs`: 15
417
+ - `max_steps`: -1
418
+ - `lr_scheduler_type`: cosine
419
+ - `lr_scheduler_kwargs`: {}
420
+ - `warmup_ratio`: 0.1
421
+ - `warmup_steps`: 0
422
+ - `log_level`: passive
423
+ - `log_level_replica`: warning
424
+ - `log_on_each_node`: True
425
+ - `logging_nan_inf_filter`: True
426
+ - `save_safetensors`: True
427
+ - `save_on_each_node`: False
428
+ - `save_only_model`: False
429
+ - `restore_callback_states_from_checkpoint`: False
430
+ - `no_cuda`: False
431
+ - `use_cpu`: False
432
+ - `use_mps_device`: False
433
+ - `seed`: 42
434
+ - `data_seed`: None
435
+ - `jit_mode_eval`: False
436
+ - `use_ipex`: False
437
+ - `bf16`: False
438
+ - `fp16`: True
439
+ - `fp16_opt_level`: O1
440
+ - `half_precision_backend`: auto
441
+ - `bf16_full_eval`: False
442
+ - `fp16_full_eval`: False
443
+ - `tf32`: None
444
+ - `local_rank`: 0
445
+ - `ddp_backend`: None
446
+ - `tpu_num_cores`: None
447
+ - `tpu_metrics_debug`: False
448
+ - `debug`: []
449
+ - `dataloader_drop_last`: False
450
+ - `dataloader_num_workers`: 0
451
+ - `dataloader_prefetch_factor`: None
452
+ - `past_index`: -1
453
+ - `disable_tqdm`: False
454
+ - `remove_unused_columns`: True
455
+ - `label_names`: None
456
+ - `load_best_model_at_end`: False
457
+ - `ignore_data_skip`: False
458
+ - `fsdp`: []
459
+ - `fsdp_min_num_params`: 0
460
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
461
+ - `fsdp_transformer_layer_cls_to_wrap`: None
462
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
463
+ - `deepspeed`: None
464
+ - `label_smoothing_factor`: 0.0
465
+ - `optim`: adamw_torch
466
+ - `optim_args`: None
467
+ - `adafactor`: False
468
+ - `group_by_length`: False
469
+ - `length_column_name`: length
470
+ - `ddp_find_unused_parameters`: None
471
+ - `ddp_bucket_cap_mb`: None
472
+ - `ddp_broadcast_buffers`: False
473
+ - `dataloader_pin_memory`: True
474
+ - `dataloader_persistent_workers`: False
475
+ - `skip_memory_metrics`: True
476
+ - `use_legacy_prediction_loop`: False
477
+ - `push_to_hub`: False
478
+ - `resume_from_checkpoint`: None
479
+ - `hub_model_id`: None
480
+ - `hub_strategy`: every_save
481
+ - `hub_private_repo`: False
482
+ - `hub_always_push`: False
483
+ - `gradient_checkpointing`: False
484
+ - `gradient_checkpointing_kwargs`: None
485
+ - `include_inputs_for_metrics`: False
486
+ - `eval_do_concat_batches`: True
487
+ - `fp16_backend`: auto
488
+ - `push_to_hub_model_id`: None
489
+ - `push_to_hub_organization`: None
490
+ - `mp_parameters`:
491
+ - `auto_find_batch_size`: False
492
+ - `full_determinism`: False
493
+ - `torchdynamo`: None
494
+ - `ray_scope`: last
495
+ - `ddp_timeout`: 1800
496
+ - `torch_compile`: False
497
+ - `torch_compile_backend`: None
498
+ - `torch_compile_mode`: None
499
+ - `dispatch_batches`: None
500
+ - `split_batches`: None
501
+ - `include_tokens_per_second`: False
502
+ - `include_num_input_tokens_seen`: False
503
+ - `neftune_noise_alpha`: None
504
+ - `optim_target_modules`: None
505
+ - `batch_eval_metrics`: False
506
+ - `eval_on_start`: False
507
+ - `eval_use_gather_object`: False
508
+ - `batch_sampler`: no_duplicates
509
+ - `multi_dataset_batch_sampler`: proportional
510
+
511
+ </details>
512
+
513
+ ### Training Logs
514
+ <details><summary>Click to expand</summary>
515
+
516
+ | Epoch | Step | Training Loss |
517
+ |:-------:|:-----:|:-------------:|
518
+ | 0.0794 | 100 | 0.4425 |
519
+ | 0.1589 | 200 | 0.3211 |
520
+ | 0.2383 | 300 | 0.2169 |
521
+ | 0.3177 | 400 | 0.1759 |
522
+ | 0.3971 | 500 | 0.1872 |
523
+ | 0.4766 | 600 | 0.1666 |
524
+ | 0.5560 | 700 | 0.1504 |
525
+ | 0.6354 | 800 | 0.1578 |
526
+ | 0.7149 | 900 | 0.1456 |
527
+ | 0.7943 | 1000 | 0.1393 |
528
+ | 0.8737 | 1100 | 0.1547 |
529
+ | 0.9531 | 1200 | 0.1237 |
530
+ | 1.0326 | 1300 | 0.1351 |
531
+ | 1.1120 | 1400 | 0.1789 |
532
+ | 1.1914 | 1500 | 0.1375 |
533
+ | 1.2708 | 1600 | 0.1368 |
534
+ | 1.3503 | 1700 | 0.114 |
535
+ | 1.4297 | 1800 | 0.1593 |
536
+ | 1.5091 | 1900 | 0.1097 |
537
+ | 1.5886 | 2000 | 0.1299 |
538
+ | 1.6680 | 2100 | 0.1086 |
539
+ | 1.7474 | 2200 | 0.1377 |
540
+ | 1.8268 | 2300 | 0.1323 |
541
+ | 1.9063 | 2400 | 0.3259 |
542
+ | 1.9857 | 2500 | 0.212 |
543
+ | 2.0651 | 2600 | 0.137 |
544
+ | 2.1446 | 2700 | 0.1743 |
545
+ | 2.2240 | 2800 | 0.1232 |
546
+ | 2.3034 | 2900 | 0.1032 |
547
+ | 2.3828 | 3000 | 0.1058 |
548
+ | 2.4623 | 3100 | 0.1324 |
549
+ | 2.5417 | 3200 | 0.1126 |
550
+ | 2.6211 | 3300 | 0.101 |
551
+ | 2.7006 | 3400 | 0.1237 |
552
+ | 2.7800 | 3500 | 0.1177 |
553
+ | 2.8594 | 3600 | 0.1154 |
554
+ | 2.9388 | 3700 | 0.1456 |
555
+ | 3.0183 | 3800 | 0.1141 |
556
+ | 3.0977 | 3900 | 0.1472 |
557
+ | 3.1771 | 4000 | 0.1482 |
558
+ | 3.2566 | 4100 | 0.1184 |
559
+ | 3.3360 | 4200 | 0.0841 |
560
+ | 3.4154 | 4300 | 0.1225 |
561
+ | 3.4948 | 4400 | 0.1063 |
562
+ | 3.5743 | 4500 | 0.1104 |
563
+ | 3.6537 | 4600 | 0.1182 |
564
+ | 3.7331 | 4700 | 0.1217 |
565
+ | 3.8125 | 4800 | 0.1215 |
566
+ | 3.8920 | 4900 | 0.1061 |
567
+ | 3.9714 | 5000 | 0.1187 |
568
+ | 4.0508 | 5100 | 0.1043 |
569
+ | 4.1303 | 5200 | 0.1648 |
570
+ | 4.2097 | 5300 | 0.1165 |
571
+ | 4.2891 | 5400 | 0.105 |
572
+ | 4.3685 | 5500 | 0.0915 |
573
+ | 4.4480 | 5600 | 0.1289 |
574
+ | 4.5274 | 5700 | 0.106 |
575
+ | 4.6068 | 5800 | 0.0927 |
576
+ | 4.6863 | 5900 | 0.0852 |
577
+ | 4.7657 | 6000 | 0.13 |
578
+ | 4.8451 | 6100 | 0.0998 |
579
+ | 4.9245 | 6200 | 0.1287 |
580
+ | 5.0040 | 6300 | 0.1195 |
581
+ | 5.0834 | 6400 | 0.1454 |
582
+ | 5.1628 | 6500 | 0.1592 |
583
+ | 5.2423 | 6600 | 0.124 |
584
+ | 5.3217 | 6700 | 0.0866 |
585
+ | 5.4011 | 6800 | 0.1073 |
586
+ | 5.4805 | 6900 | 0.1147 |
587
+ | 5.5600 | 7000 | 0.1102 |
588
+ | 5.6394 | 7100 | 0.103 |
589
+ | 5.7188 | 7200 | 0.1033 |
590
+ | 5.7983 | 7300 | 0.129 |
591
+ | 5.8777 | 7400 | 0.1178 |
592
+ | 5.9571 | 7500 | 0.1057 |
593
+ | 6.0365 | 7600 | 0.121 |
594
+ | 6.1160 | 7700 | 0.1694 |
595
+ | 6.1954 | 7800 | 0.1143 |
596
+ | 6.2748 | 7900 | 0.1811 |
597
+ | 6.3542 | 8000 | 0.0901 |
598
+ | 6.4337 | 8100 | 0.1362 |
599
+ | 6.5131 | 8200 | 0.0944 |
600
+ | 6.5925 | 8300 | 0.1026 |
601
+ | 6.6720 | 8400 | 0.0868 |
602
+ | 6.7514 | 8500 | 0.1058 |
603
+ | 6.8308 | 8600 | 0.1129 |
604
+ | 6.9102 | 8700 | 0.0925 |
605
+ | 6.9897 | 8800 | 0.1111 |
606
+ | 7.0691 | 8900 | 0.1159 |
607
+ | 7.1485 | 9000 | 0.1507 |
608
+ | 7.2280 | 9100 | 0.1124 |
609
+ | 7.3074 | 9200 | 0.0822 |
610
+ | 7.3868 | 9300 | 0.0935 |
611
+ | 7.4662 | 9400 | 0.1133 |
612
+ | 7.5457 | 9500 | 0.1031 |
613
+ | 7.6251 | 9600 | 0.0948 |
614
+ | 7.7045 | 9700 | 0.0948 |
615
+ | 7.7840 | 9800 | 0.1219 |
616
+ | 7.8634 | 9900 | 0.0885 |
617
+ | 7.9428 | 10000 | 0.1034 |
618
+ | 8.0222 | 10100 | 0.1049 |
619
+ | 8.1017 | 10200 | 0.1413 |
620
+ | 8.1811 | 10300 | 0.1255 |
621
+ | 8.2605 | 10400 | 0.0991 |
622
+ | 8.3400 | 10500 | 0.0847 |
623
+ | 8.4194 | 10600 | 0.1224 |
624
+ | 8.4988 | 10700 | 0.0932 |
625
+ | 8.5782 | 10800 | 0.0892 |
626
+ | 8.6577 | 10900 | 0.0843 |
627
+ | 8.7371 | 11000 | 0.1192 |
628
+ | 8.8165 | 11100 | 0.098 |
629
+ | 8.8959 | 11200 | 0.0957 |
630
+ | 8.9754 | 11300 | 0.0946 |
631
+ | 9.0548 | 11400 | 0.1066 |
632
+ | 9.1342 | 11500 | 0.1467 |
633
+ | 9.2137 | 11600 | 0.1035 |
634
+ | 9.2931 | 11700 | 0.091 |
635
+ | 9.3725 | 11800 | 0.0818 |
636
+ | 9.4519 | 11900 | 0.1048 |
637
+ | 9.5314 | 12000 | 0.0935 |
638
+ | 9.6108 | 12100 | 0.0672 |
639
+ | 9.6902 | 12200 | 0.0709 |
640
+ | 9.7697 | 12300 | 0.0916 |
641
+ | 9.8491 | 12400 | 0.0856 |
642
+ | 9.9285 | 12500 | 0.0941 |
643
+ | 10.0079 | 12600 | 0.0707 |
644
+ | 10.0874 | 12700 | 0.1203 |
645
+ | 10.1668 | 12800 | 0.1215 |
646
+ | 10.2462 | 12900 | 0.089 |
647
+ | 10.3257 | 13000 | 0.0717 |
648
+ | 10.4051 | 13100 | 0.0799 |
649
+ | 10.4845 | 13200 | 0.0755 |
650
+ | 10.5639 | 13300 | 0.0984 |
651
+ | 10.6434 | 13400 | 0.0729 |
652
+ | 10.7228 | 13500 | 0.0733 |
653
+ | 10.8022 | 13600 | 0.1 |
654
+ | 10.8817 | 13700 | 0.049 |
655
+ | 10.9611 | 13800 | 0.0732 |
656
+ | 11.0405 | 13900 | 0.0794 |
657
+ | 11.1199 | 14000 | 0.1286 |
658
+ | 11.1994 | 14100 | 0.0922 |
659
+ | 11.2788 | 14200 | 0.056 |
660
+ | 11.3582 | 14300 | 0.0794 |
661
+ | 11.4376 | 14400 | 0.0924 |
662
+ | 11.5171 | 14500 | 0.0544 |
663
+ | 11.5965 | 14600 | 0.0868 |
664
+ | 11.6759 | 14700 | 0.059 |
665
+ | 11.7554 | 14800 | 0.0837 |
666
+ | 11.8348 | 14900 | 0.069 |
667
+ | 11.9142 | 15000 | 0.0525 |
668
+ | 11.9936 | 15100 | 0.0566 |
669
+ | 12.0731 | 15200 | 0.0908 |
670
+ | 12.1525 | 15300 | 0.1087 |
671
+ | 12.2319 | 15400 | 0.0894 |
672
+ | 12.3114 | 15500 | 0.0638 |
673
+ | 12.3908 | 15600 | 0.058 |
674
+ | 12.4702 | 15700 | 0.0678 |
675
+ | 12.5496 | 15800 | 0.0833 |
676
+ | 12.6291 | 15900 | 0.0667 |
677
+ | 12.7085 | 16000 | 0.0651 |
678
+ | 12.7879 | 16100 | 0.1124 |
679
+ | 12.8674 | 16200 | 0.0689 |
680
+ | 12.9468 | 16300 | 0.1077 |
681
+ | 13.0262 | 16400 | 0.0615 |
682
+ | 13.1056 | 16500 | 0.11 |
683
+ | 13.1851 | 16600 | 0.0695 |
684
+ | 13.2645 | 16700 | 0.0629 |
685
+ | 13.3439 | 16800 | 0.0711 |
686
+ | 13.4234 | 16900 | 0.0693 |
687
+ | 13.5028 | 17000 | 0.056 |
688
+ | 13.5822 | 17100 | 0.0778 |
689
+ | 13.6616 | 17200 | 0.051 |
690
+ | 13.7411 | 17300 | 0.0611 |
691
+ | 13.8205 | 17400 | 0.0772 |
692
+ | 13.8999 | 17500 | 0.0814 |
693
+ | 13.9793 | 17600 | 0.0764 |
694
+ | 14.0588 | 17700 | 0.0847 |
695
+ | 14.1382 | 17800 | 0.1169 |
696
+ | 14.2176 | 17900 | 0.0626 |
697
+ | 14.2971 | 18000 | 0.0673 |
698
+ | 14.3765 | 18100 | 0.0583 |
699
+ | 14.4559 | 18200 | 0.0623 |
700
+ | 14.5353 | 18300 | 0.072 |
701
+ | 14.6148 | 18400 | 0.0472 |
702
+ | 14.6942 | 18500 | 0.0513 |
703
+ | 14.7736 | 18600 | 0.0759 |
704
+ | 14.8531 | 18700 | 0.067 |
705
+ | 14.9325 | 18800 | 0.0955 |
706
+
707
+ </details>
708
+
709
+ ### Framework Versions
710
+ - Python: 3.10.14
711
+ - Sentence Transformers: 3.1.0
712
+ - Transformers: 4.44.0
713
+ - PyTorch: 2.4.0
714
+ - Accelerate: 0.33.0
715
+ - Datasets: 2.21.0
716
+ - Tokenizers: 0.19.1
717
+
718
+ ## Citation
719
+
720
+ ### BibTeX
721
+
722
+ #### Sentence Transformers
723
+ ```bibtex
724
+ @inproceedings{reimers-2019-sentence-bert,
725
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
726
+ author = "Reimers, Nils and Gurevych, Iryna",
727
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
728
+ month = "11",
729
+ year = "2019",
730
+ publisher = "Association for Computational Linguistics",
731
+ url = "https://arxiv.org/abs/1908.10084",
732
+ }
733
+ ```
734
+
735
+ #### MultipleNegativesRankingLoss
736
+ ```bibtex
737
+ @misc{henderson2017efficient,
738
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
739
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
740
+ year={2017},
741
+ eprint={1705.00652},
742
+ archivePrefix={arXiv},
743
+ primaryClass={cs.CL}
744
+ }
745
+ ```
746
+
747
+ <!--
748
+ ## Glossary
749
+
750
+ *Clearly define terms in order to be accessible across audiences.*
751
+ -->
752
+
753
+ <!--
754
+ ## Model Card Authors
755
+
756
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
757
+ -->
758
+
759
+ <!--
760
+ ## Model Card Contact
761
+
762
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
763
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "BAAI/bge-m3",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 8194,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.44.0",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.1.0",
4
+ "transformers": "4.44.0",
5
+ "pytorch": "2.4.0"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9460bca3b9b102396f6e6327de6817240fc24a029e946b7a0c629387797cac88
3
+ size 2271064456
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 350,
3
+ "do_lower_case": true
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:46e605db9ba92a352509003b801fb9d00f5d681ccd8f502aef7cd53fa91a61ba
3
+ size 17083052
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "model_max_length": 350,
50
+ "pad_token": "<pad>",
51
+ "sep_token": "</s>",
52
+ "sp_model_kwargs": {},
53
+ "tokenizer_class": "XLMRobertaTokenizer",
54
+ "unk_token": "<unk>"
55
+ }