AnanthZeke commited on
Commit
c017f9f
1 Parent(s): 5567efd

Training in progress, step 400

Browse files
.gitignore ADDED
@@ -0,0 +1 @@
 
 
1
+ checkpoint-*/
added_tokens.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "!": 502,
3
+ "\"": 511,
4
+ "'": 510,
5
+ "(": 508,
6
+ ")": 509,
7
+ ",": 501,
8
+ "-": 504,
9
+ ".": 500,
10
+ "...": 512,
11
+ "/": 507,
12
+ "0": 513,
13
+ "1": 514,
14
+ "2": 515,
15
+ "3": 516,
16
+ "4": 517,
17
+ "5": 518,
18
+ "6": 519,
19
+ "7": 520,
20
+ "8": 521,
21
+ "9": 522,
22
+ ":": 505,
23
+ ";": 506,
24
+ "?": 503
25
+ }
config.json ADDED
@@ -0,0 +1,41 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "livinNector/tabert-500",
3
+ "activation": "gelu",
4
+ "architectures": [
5
+ "DistilBertForTokenClassification"
6
+ ],
7
+ "attention_dropout": 0.1,
8
+ "dim": 768,
9
+ "dropout": 0.1,
10
+ "hidden_dim": 3072,
11
+ "id2label": {
12
+ "0": "O",
13
+ "1": "B-PER",
14
+ "2": "I-PER",
15
+ "3": "B-ORG",
16
+ "4": "I-ORG",
17
+ "5": "B-LOC",
18
+ "6": "I-LOC"
19
+ },
20
+ "initializer_range": 0.02,
21
+ "label2id": {
22
+ "B-LOC": 5,
23
+ "B-ORG": 3,
24
+ "B-PER": 1,
25
+ "I-LOC": 6,
26
+ "I-ORG": 4,
27
+ "I-PER": 2,
28
+ "O": 0
29
+ },
30
+ "max_position_embeddings": 512,
31
+ "model_type": "distilbert",
32
+ "n_heads": 12,
33
+ "n_layers": 6,
34
+ "pad_token_id": 0,
35
+ "qa_dropout": 0.1,
36
+ "seq_classif_dropout": 0.2,
37
+ "sinusoidal_pos_embds": false,
38
+ "torch_dtype": "float32",
39
+ "transformers_version": "4.29.2",
40
+ "vocab_size": 523
41
+ }
pytorch_model.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:26b88106a4459eb045bf4c65181af4a8856492386ac0cb20b5fbc06aee9499e4
3
+ size 173350949
runs/May18_09-23-55_d3d84cdc5660/1684401845.8939042/events.out.tfevents.1684401845.d3d84cdc5660.106.1 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c37dc36788e5f997a70e468376c88da7554c6a2650c0b1c2d6b3588790f1bfc6
3
+ size 5911
runs/May18_09-23-55_d3d84cdc5660/events.out.tfevents.1684401845.d3d84cdc5660.106.0 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:aa90bd10cb50cf573817a9b64e572ccf2a5a2495629a9ab2c69718631366e44a
3
+ size 4788
special_tokens_map.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": "[CLS]",
3
+ "mask_token": "[MASK]",
4
+ "pad_token": "[PAD]",
5
+ "sep_token": "[SEP]",
6
+ "unk_token": "[UNK]"
7
+ }
tokenizer.json ADDED
@@ -0,0 +1,857 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "version": "1.0",
3
+ "truncation": null,
4
+ "padding": null,
5
+ "added_tokens": [
6
+ {
7
+ "id": 0,
8
+ "content": "[PAD]",
9
+ "single_word": false,
10
+ "lstrip": false,
11
+ "rstrip": false,
12
+ "normalized": false,
13
+ "special": true
14
+ },
15
+ {
16
+ "id": 1,
17
+ "content": "[UNK]",
18
+ "single_word": false,
19
+ "lstrip": false,
20
+ "rstrip": false,
21
+ "normalized": false,
22
+ "special": true
23
+ },
24
+ {
25
+ "id": 2,
26
+ "content": "[CLS]",
27
+ "single_word": false,
28
+ "lstrip": false,
29
+ "rstrip": false,
30
+ "normalized": false,
31
+ "special": true
32
+ },
33
+ {
34
+ "id": 3,
35
+ "content": "[SEP]",
36
+ "single_word": false,
37
+ "lstrip": false,
38
+ "rstrip": false,
39
+ "normalized": false,
40
+ "special": true
41
+ },
42
+ {
43
+ "id": 4,
44
+ "content": "[MASK]",
45
+ "single_word": false,
46
+ "lstrip": false,
47
+ "rstrip": false,
48
+ "normalized": false,
49
+ "special": true
50
+ },
51
+ {
52
+ "id": 500,
53
+ "content": ".",
54
+ "single_word": false,
55
+ "lstrip": false,
56
+ "rstrip": false,
57
+ "normalized": true,
58
+ "special": false
59
+ },
60
+ {
61
+ "id": 501,
62
+ "content": ",",
63
+ "single_word": false,
64
+ "lstrip": false,
65
+ "rstrip": false,
66
+ "normalized": true,
67
+ "special": false
68
+ },
69
+ {
70
+ "id": 502,
71
+ "content": "!",
72
+ "single_word": false,
73
+ "lstrip": false,
74
+ "rstrip": false,
75
+ "normalized": true,
76
+ "special": false
77
+ },
78
+ {
79
+ "id": 503,
80
+ "content": "?",
81
+ "single_word": false,
82
+ "lstrip": false,
83
+ "rstrip": false,
84
+ "normalized": true,
85
+ "special": false
86
+ },
87
+ {
88
+ "id": 504,
89
+ "content": "-",
90
+ "single_word": false,
91
+ "lstrip": false,
92
+ "rstrip": false,
93
+ "normalized": true,
94
+ "special": false
95
+ },
96
+ {
97
+ "id": 505,
98
+ "content": ":",
99
+ "single_word": false,
100
+ "lstrip": false,
101
+ "rstrip": false,
102
+ "normalized": true,
103
+ "special": false
104
+ },
105
+ {
106
+ "id": 506,
107
+ "content": ";",
108
+ "single_word": false,
109
+ "lstrip": false,
110
+ "rstrip": false,
111
+ "normalized": true,
112
+ "special": false
113
+ },
114
+ {
115
+ "id": 507,
116
+ "content": "/",
117
+ "single_word": false,
118
+ "lstrip": false,
119
+ "rstrip": false,
120
+ "normalized": true,
121
+ "special": false
122
+ },
123
+ {
124
+ "id": 508,
125
+ "content": "(",
126
+ "single_word": false,
127
+ "lstrip": false,
128
+ "rstrip": false,
129
+ "normalized": true,
130
+ "special": false
131
+ },
132
+ {
133
+ "id": 509,
134
+ "content": ")",
135
+ "single_word": false,
136
+ "lstrip": false,
137
+ "rstrip": false,
138
+ "normalized": true,
139
+ "special": false
140
+ },
141
+ {
142
+ "id": 510,
143
+ "content": "'",
144
+ "single_word": false,
145
+ "lstrip": false,
146
+ "rstrip": false,
147
+ "normalized": true,
148
+ "special": false
149
+ },
150
+ {
151
+ "id": 511,
152
+ "content": "\"",
153
+ "single_word": false,
154
+ "lstrip": false,
155
+ "rstrip": false,
156
+ "normalized": true,
157
+ "special": false
158
+ },
159
+ {
160
+ "id": 512,
161
+ "content": "...",
162
+ "single_word": false,
163
+ "lstrip": false,
164
+ "rstrip": false,
165
+ "normalized": true,
166
+ "special": false
167
+ },
168
+ {
169
+ "id": 513,
170
+ "content": "0",
171
+ "single_word": false,
172
+ "lstrip": false,
173
+ "rstrip": false,
174
+ "normalized": true,
175
+ "special": false
176
+ },
177
+ {
178
+ "id": 514,
179
+ "content": "1",
180
+ "single_word": false,
181
+ "lstrip": false,
182
+ "rstrip": false,
183
+ "normalized": true,
184
+ "special": false
185
+ },
186
+ {
187
+ "id": 515,
188
+ "content": "2",
189
+ "single_word": false,
190
+ "lstrip": false,
191
+ "rstrip": false,
192
+ "normalized": true,
193
+ "special": false
194
+ },
195
+ {
196
+ "id": 516,
197
+ "content": "3",
198
+ "single_word": false,
199
+ "lstrip": false,
200
+ "rstrip": false,
201
+ "normalized": true,
202
+ "special": false
203
+ },
204
+ {
205
+ "id": 517,
206
+ "content": "4",
207
+ "single_word": false,
208
+ "lstrip": false,
209
+ "rstrip": false,
210
+ "normalized": true,
211
+ "special": false
212
+ },
213
+ {
214
+ "id": 518,
215
+ "content": "5",
216
+ "single_word": false,
217
+ "lstrip": false,
218
+ "rstrip": false,
219
+ "normalized": true,
220
+ "special": false
221
+ },
222
+ {
223
+ "id": 519,
224
+ "content": "6",
225
+ "single_word": false,
226
+ "lstrip": false,
227
+ "rstrip": false,
228
+ "normalized": true,
229
+ "special": false
230
+ },
231
+ {
232
+ "id": 520,
233
+ "content": "7",
234
+ "single_word": false,
235
+ "lstrip": false,
236
+ "rstrip": false,
237
+ "normalized": true,
238
+ "special": false
239
+ },
240
+ {
241
+ "id": 521,
242
+ "content": "8",
243
+ "single_word": false,
244
+ "lstrip": false,
245
+ "rstrip": false,
246
+ "normalized": true,
247
+ "special": false
248
+ },
249
+ {
250
+ "id": 522,
251
+ "content": "9",
252
+ "single_word": false,
253
+ "lstrip": false,
254
+ "rstrip": false,
255
+ "normalized": true,
256
+ "special": false
257
+ }
258
+ ],
259
+ "normalizer": {
260
+ "type": "BertNormalizer",
261
+ "clean_text": true,
262
+ "handle_chinese_chars": true,
263
+ "strip_accents": null,
264
+ "lowercase": false
265
+ },
266
+ "pre_tokenizer": {
267
+ "type": "BertPreTokenizer"
268
+ },
269
+ "post_processor": {
270
+ "type": "TemplateProcessing",
271
+ "single": [
272
+ {
273
+ "SpecialToken": {
274
+ "id": "[CLS]",
275
+ "type_id": 0
276
+ }
277
+ },
278
+ {
279
+ "Sequence": {
280
+ "id": "A",
281
+ "type_id": 0
282
+ }
283
+ },
284
+ {
285
+ "SpecialToken": {
286
+ "id": "[SEP]",
287
+ "type_id": 0
288
+ }
289
+ }
290
+ ],
291
+ "pair": [
292
+ {
293
+ "SpecialToken": {
294
+ "id": "[CLS]",
295
+ "type_id": 0
296
+ }
297
+ },
298
+ {
299
+ "Sequence": {
300
+ "id": "A",
301
+ "type_id": 0
302
+ }
303
+ },
304
+ {
305
+ "SpecialToken": {
306
+ "id": "[SEP]",
307
+ "type_id": 0
308
+ }
309
+ },
310
+ {
311
+ "Sequence": {
312
+ "id": "B",
313
+ "type_id": 1
314
+ }
315
+ },
316
+ {
317
+ "SpecialToken": {
318
+ "id": "[SEP]",
319
+ "type_id": 1
320
+ }
321
+ }
322
+ ],
323
+ "special_tokens": {
324
+ "[CLS]": {
325
+ "id": "[CLS]",
326
+ "ids": [
327
+ 2
328
+ ],
329
+ "tokens": [
330
+ "[CLS]"
331
+ ]
332
+ },
333
+ "[SEP]": {
334
+ "id": "[SEP]",
335
+ "ids": [
336
+ 3
337
+ ],
338
+ "tokens": [
339
+ "[SEP]"
340
+ ]
341
+ }
342
+ }
343
+ },
344
+ "decoder": {
345
+ "type": "WordPiece",
346
+ "prefix": "##",
347
+ "cleanup": true
348
+ },
349
+ "model": {
350
+ "type": "WordPiece",
351
+ "unk_token": "[UNK]",
352
+ "continuing_subword_prefix": "##",
353
+ "max_input_chars_per_word": 100,
354
+ "vocab": {
355
+ "[PAD]": 0,
356
+ "[UNK]": 1,
357
+ "[CLS]": 2,
358
+ "[SEP]": 3,
359
+ "[MASK]": 4,
360
+ "஁": 5,
361
+ "ஂ": 6,
362
+ "ஃ": 7,
363
+ "அ": 8,
364
+ "ஆ": 9,
365
+ "இ": 10,
366
+ "ஈ": 11,
367
+ "உ": 12,
368
+ "ஊ": 13,
369
+ "஋": 14,
370
+ "எ": 15,
371
+ "ஏ": 16,
372
+ "ஐ": 17,
373
+ "஑": 18,
374
+ "ஒ": 19,
375
+ "ஓ": 20,
376
+ "ஔ": 21,
377
+ "க": 22,
378
+ "஖": 23,
379
+ "஗": 24,
380
+ "ங": 25,
381
+ "ச": 26,
382
+ "ஜ": 27,
383
+ "ஞ": 28,
384
+ "ட": 29,
385
+ "஠": 30,
386
+ "஡": 31,
387
+ "஢": 32,
388
+ "ண": 33,
389
+ "த": 34,
390
+ "஥": 35,
391
+ "஦": 36,
392
+ "஧": 37,
393
+ "ந": 38,
394
+ "ன": 39,
395
+ "ப": 40,
396
+ "஫": 41,
397
+ "஬": 42,
398
+ "஭": 43,
399
+ "ம": 44,
400
+ "ய": 45,
401
+ "ர": 46,
402
+ "ற": 47,
403
+ "ல": 48,
404
+ "ள": 49,
405
+ "ழ": 50,
406
+ "வ": 51,
407
+ "ஶ": 52,
408
+ "ஷ": 53,
409
+ "ஸ": 54,
410
+ "ஹ": 55,
411
+ "஽": 56,
412
+ "ா": 57,
413
+ "ி": 58,
414
+ "ீ": 59,
415
+ "ு": 60,
416
+ "ூ": 61,
417
+ "௃": 62,
418
+ "ெ": 63,
419
+ "ே": 64,
420
+ "ை": 65,
421
+ "௉": 66,
422
+ "ொ": 67,
423
+ "ோ": 68,
424
+ "ௌ": 69,
425
+ "்": 70,
426
+ "ௐ": 71,
427
+ "ௗ": 72,
428
+ "௠": 73,
429
+ "௦": 74,
430
+ "௧": 75,
431
+ "௨": 76,
432
+ "௩": 77,
433
+ "௪": 78,
434
+ "௫": 79,
435
+ "௬": 80,
436
+ "௭": 81,
437
+ "௮": 82,
438
+ "௯": 83,
439
+ "௰": 84,
440
+ "௱": 85,
441
+ "௲": 86,
442
+ "௳": 87,
443
+ "௴": 88,
444
+ "௵": 89,
445
+ "௶": 90,
446
+ "௷": 91,
447
+ "௸": 92,
448
+ "௹": 93,
449
+ "௺": 94,
450
+ "௼": 95,
451
+ "௿": 96,
452
+ "##ல": 97,
453
+ "##ை": 98,
454
+ "##க": 99,
455
+ "##்": 100,
456
+ "##ு": 101,
457
+ "##த": 102,
458
+ "##ர": 103,
459
+ "##வ": 104,
460
+ "##ே": 105,
461
+ "##ற": 106,
462
+ "##ம": 107,
463
+ "##ப": 108,
464
+ "##ன": 109,
465
+ "##ட": 110,
466
+ "##ி": 111,
467
+ "##ா": 112,
468
+ "##ச": 113,
469
+ "##ூ": 114,
470
+ "##ழ": 115,
471
+ "##ந": 116,
472
+ "##ோ": 117,
473
+ "##ொ": 118,
474
+ "##ெ": 119,
475
+ "##ள": 120,
476
+ "##ங": 121,
477
+ "##ய": 122,
478
+ "##ஞ": 123,
479
+ "##ண": 124,
480
+ "##ஸ": 125,
481
+ "##ஜ": 126,
482
+ "##ஷ": 127,
483
+ "##ீ": 128,
484
+ "##ஹ": 129,
485
+ "##உ": 130,
486
+ "##ஃ": 131,
487
+ "##அ": 132,
488
+ "##ஓ": 133,
489
+ "##எ": 134,
490
+ "##ஆ": 135,
491
+ "##ஊ": 136,
492
+ "##இ": 137,
493
+ "##ௌ": 138,
494
+ "##ஏ": 139,
495
+ "##ஒ": 140,
496
+ "##ஐ": 141,
497
+ "##௫": 142,
498
+ "##ஶ": 143,
499
+ "##௯": 144,
500
+ "##஑": 145,
501
+ "##ஈ": 146,
502
+ "##஢": 147,
503
+ "##ஔ": 148,
504
+ "##௦": 149,
505
+ "##௧": 150,
506
+ "##௰": 151,
507
+ "##௪": 152,
508
+ "##ஂ": 153,
509
+ "##௱": 154,
510
+ "##ௗ": 155,
511
+ "##௬": 156,
512
+ "##஡": 157,
513
+ "##஭": 158,
514
+ "##௩": 159,
515
+ "##௿": 160,
516
+ "##ௐ": 161,
517
+ "##௲": 162,
518
+ "##௭": 163,
519
+ "##஧": 164,
520
+ "##௮": 165,
521
+ "##௨": 166,
522
+ "##௃": 167,
523
+ "##௵": 168,
524
+ "##஦": 169,
525
+ "##஬": 170,
526
+ "##௶": 171,
527
+ "##஽": 172,
528
+ "##௹": 173,
529
+ "##௸": 174,
530
+ "##஖": 175,
531
+ "##௴": 176,
532
+ "##௉": 177,
533
+ "##௳": 178,
534
+ "##஫": 179,
535
+ "##௠": 180,
536
+ "##஠": 181,
537
+ "##௼": 182,
538
+ "##஁": 183,
539
+ "##஥": 184,
540
+ "##்க": 185,
541
+ "##்த": 186,
542
+ "##ம்": 187,
543
+ "##ன்": 188,
544
+ "##ல்": 189,
545
+ "##க்க": 190,
546
+ "##்ட": 191,
547
+ "##ப்": 192,
548
+ "##த்த": 193,
549
+ "##ள்": 194,
550
+ "##ும்": 195,
551
+ "##ர்": 196,
552
+ "##ிய": 197,
553
+ "##ப்ப": 198,
554
+ "##ரு": 199,
555
+ "##ந்த": 200,
556
+ "##ட்ட": 201,
557
+ "##து": 202,
558
+ "##ில்": 203,
559
+ "##ங்க": 204,
560
+ "##ைய": 205,
561
+ "##ற்": 206,
562
+ "##ின்": 207,
563
+ "##ாக": 208,
564
+ "##று": 209,
565
+ "##ிர": 210,
566
+ "##டு": 211,
567
+ "##ிக": 212,
568
+ "##ண்ட": 213,
569
+ "##்ச": 214,
570
+ "##க்கு": 215,
571
+ "##ர்க": 216,
572
+ "##ிற": 217,
573
+ "##ில": 218,
574
+ "மு": 219,
575
+ "##ான": 220,
576
+ "##த்து": 221,
577
+ "செ": 222,
578
+ "என்": 223,
579
+ "##டி": 224,
580
+ "வி": 225,
581
+ "##லை": 226,
582
+ "##ற்ற": 227,
583
+ "##ள்ள": 228,
584
+ "##ார": 229,
585
+ "##தி": 230,
586
+ "##ார்": 231,
587
+ "##ப்பு": 232,
588
+ "##ிரு": 233,
589
+ "##வு": 234,
590
+ "##ட்டு": 235,
591
+ "##ல்ல": 236,
592
+ "##ரி": 237,
593
+ "##வி": 238,
594
+ "##க்": 239,
595
+ "கு": 240,
596
+ "##ான்": 241,
597
+ "##ந்து": 242,
598
+ "##ால்": 243,
599
+ "##ளை": 244,
600
+ "##ய்": 245,
601
+ "##ச்ச": 246,
602
+ "கொ": 247,
603
+ "##த்": 248,
604
+ "போ": 249,
605
+ "இரு": 250,
606
+ "##னை": 251,
607
+ "அவ": 252,
608
+ "கா": 253,
609
+ "##ர்கள்": 254,
610
+ "##ங்கள்": 255,
611
+ "பெ": 256,
612
+ "##ண்": 257,
613
+ "##ம்ப": 258,
614
+ "##றி": 259,
615
+ "##ஸ்": 260,
616
+ "##ாத": 261,
617
+ "##மி": 262,
618
+ "பு": 263,
619
+ "##கள்": 264,
620
+ "##கு": 265,
621
+ "##ாவ": 266,
622
+ "##மை": 267,
623
+ "##ளு": 268,
624
+ "வே": 269,
625
+ "ஒரு": 270,
626
+ "##க்கும்": 271,
627
+ "##ின": 272,
628
+ "##ழு": 273,
629
+ "பா": 274,
630
+ "அத": 275,
631
+ "தொ": 276,
632
+ "இந்த": 277,
633
+ "வெ": 278,
634
+ "##ண்டு": 279,
635
+ "##ாம்": 280,
636
+ "வா": 281,
637
+ "##ற்க": 282,
638
+ "##த்தில்": 283,
639
+ "##டை": 284,
640
+ "##ன்ன": 285,
641
+ "செய": 286,
642
+ "##ன்ற": 287,
643
+ "##ழ்": 288,
644
+ "##மா": 289,
645
+ "##ிக்க": 290,
646
+ "##டிய": 291,
647
+ "நா": 292,
648
+ "மா": 293,
649
+ "##ச்": 294,
650
+ "##ரை": 295,
651
+ "##ரா": 296,
652
+ "##வா": 297,
653
+ "##ரிய": 298,
654
+ "##தை": 299,
655
+ "##ையில்": 300,
656
+ "##ட்": 301,
657
+ "##ளி": 302,
658
+ "கூ": 303,
659
+ "பொ": 304,
660
+ "##வே": 305,
661
+ "சு": 306,
662
+ "##ால": 307,
663
+ "##்த்த": 308,
664
+ "தமி": 309,
665
+ "மே": 310,
666
+ "என": 311,
667
+ "##றை": 312,
668
+ "தே": 313,
669
+ "சொ": 314,
670
+ "பிர": 315,
671
+ "##ங்கள": 316,
672
+ "##வை": 317,
673
+ "##ாம": 318,
674
+ "சி": 319,
675
+ "##ப்பட்ட": 320,
676
+ "##ற்ப": 321,
677
+ "##ையும்": 322,
678
+ "##மாக": 323,
679
+ "நி": 324,
680
+ "##மு": 325,
681
+ "##ண்ண": 326,
682
+ "பே": 327,
683
+ "##த்தை": 328,
684
+ "##கிற": 329,
685
+ "##திய": 330,
686
+ "##ளுக்கு": 331,
687
+ "தெ": 332,
688
+ "என்று": 333,
689
+ "##ட்ச": 334,
690
+ "கோ": 335,
691
+ "நீ": 336,
692
+ "செய்த": 337,
693
+ "##ிகள்": 338,
694
+ "##வர்": 339,
695
+ "##னி": 340,
696
+ "##மான": 341,
697
+ "##பு": 342,
698
+ "என்ற": 343,
699
+ "##வும்": 344,
700
+ "##சு": 345,
701
+ "##ன்று": 346,
702
+ "##டுத்த": 347,
703
+ "##னு": 348,
704
+ "##கள": 349,
705
+ "##டன்": 350,
706
+ "மற்ற": 351,
707
+ "##லி": 352,
708
+ "##்கள்": 353,
709
+ "##ர்கள": 354,
710
+ "உள்ள": 355,
711
+ "##ரும்": 356,
712
+ "பகு": 357,
713
+ "##சி": 358,
714
+ "##ற்று": 359,
715
+ "##ப்பட": 360,
716
+ "##ாள": 361,
717
+ "அர": 362,
718
+ "செய்": 363,
719
+ "பி": 364,
720
+ "இத": 365,
721
+ "##வத": 366,
722
+ "##ணி": 367,
723
+ "##வில்": 368,
724
+ "##ின்ற": 369,
725
+ "##ழி": 370,
726
+ "##ாய": 371,
727
+ "கே": 372,
728
+ "##க்கிற": 373,
729
+ "என்ப": 374,
730
+ "##ேன்": 375,
731
+ "நட": 376,
732
+ "து": 377,
733
+ "கி": 378,
734
+ "##்கு": 379,
735
+ "##சிய": 380,
736
+ "##னர்": 381,
737
+ "திரு": 382,
738
+ "##ஞ்ச": 383,
739
+ "மற்றும்": 384,
740
+ "##டைய": 385,
741
+ "##ண்டும்": 386,
742
+ "##ிக்": 387,
743
+ "தொட": 388,
744
+ "வை": 389,
745
+ "##பா": 390,
746
+ "முத": 391,
747
+ "##கம்": 392,
748
+ "##டம்": 393,
749
+ "மூ": 394,
750
+ "##ங்கு": 395,
751
+ "##லா": 396,
752
+ "கரு": 397,
753
+ "சே": 398,
754
+ "##ியா": 399,
755
+ "பய": 400,
756
+ "செய்ய": 401,
757
+ "வீ": 402,
758
+ "பல": 403,
759
+ "ஆக": 404,
760
+ "##மைய": 405,
761
+ "வரு": 406,
762
+ "##வர": 407,
763
+ "##ட்டி": 408,
764
+ "மீ": 409,
765
+ "##களை": 410,
766
+ "##னால்": 411,
767
+ "##வ்": 412,
768
+ "##ப்பா": 413,
769
+ "##ளிய": 414,
770
+ "இது": 415,
771
+ "எழு": 416,
772
+ "இருந்த": 417,
773
+ "பகுப்பு": 418,
774
+ "அறி": 419,
775
+ "தி": 420,
776
+ "தமிழ்": 421,
777
+ "##ப்பி": 422,
778
+ "நில": 423,
779
+ "##மே": 424,
780
+ "அந்த": 425,
781
+ "##ும்ப": 426,
782
+ "வர": 427,
783
+ "பதி": 428,
784
+ "##ப்போ": 429,
785
+ "##க்கிய": 430,
786
+ "நே": 431,
787
+ "தலை": 432,
788
+ "தமிழ": 433,
789
+ "##கை": 434,
790
+ "##ணை": 435,
791
+ "##லாம்": 436,
792
+ "பார": 437,
793
+ "##த்தின்": 438,
794
+ "##விய": 439,
795
+ "வழ": 440,
796
+ "##ிருந்த": 441,
797
+ "##டுத்து": 442,
798
+ "கொண்ட": 443,
799
+ "##ர்க்க": 444,
800
+ "##ம்பர்": 445,
801
+ "குறி": 446,
802
+ "##ையை": 447,
803
+ "கட": 448,
804
+ "என்ன": 449,
805
+ "##ூர்": 450,
806
+ "அமை": 451,
807
+ "##ற்கு": 452,
808
+ "##ரம்": 453,
809
+ "##லு": 454,
810
+ "##ன்ப": 455,
811
+ "##நா": 456,
812
+ "##கிறது": 457,
813
+ "##ிலும்": 458,
814
+ "தீ": 459,
815
+ "##ழை": 460,
816
+ "##க்கள்": 461,
817
+ "##வது": 462,
818
+ "##லம்": 463,
819
+ "##ங்களை": 464,
820
+ "##ார்கள்": 465,
821
+ "வெளிய": 466,
822
+ "இய": 467,
823
+ "##ிகள": 468,
824
+ "இர": 469,
825
+ "##ற்றி": 470,
826
+ "##யர்": 471,
827
+ "##ணம்": 472,
828
+ "சம": 473,
829
+ "##ங்கில": 474,
830
+ "சா": 475,
831
+ "##த்திய": 476,
832
+ "சொல்ல": 477,
833
+ "##க்கி": 478,
834
+ "அதிக": 479,
835
+ "வேண்டும்": 480,
836
+ "##ாது": 481,
837
+ "##னா": 482,
838
+ "பத": 483,
839
+ "நான்": 484,
840
+ "அல்ல": 485,
841
+ "இல்": 486,
842
+ "பின்": 487,
843
+ "இல": 488,
844
+ "##ரோ": 489,
845
+ "##பி": 490,
846
+ "சிற": 491,
847
+ "திர": 492,
848
+ "##க்கம்": 493,
849
+ "##ஸ்ட": 494,
850
+ "வந்த": 495,
851
+ "##போ": 496,
852
+ "##ிற்கு": 497,
853
+ "##டிக்க": 498,
854
+ "பிற": 499
855
+ }
856
+ }
857
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,15 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "clean_up_tokenization_spaces": true,
3
+ "cls_token": "[CLS]",
4
+ "do_basic_tokenize": true,
5
+ "do_lower_case": false,
6
+ "mask_token": "[MASK]",
7
+ "model_max_length": 512,
8
+ "never_split": null,
9
+ "pad_token": "[PAD]",
10
+ "sep_token": "[SEP]",
11
+ "strip_accents": null,
12
+ "tokenize_chinese_chars": true,
13
+ "tokenizer_class": "DistilBertTokenizer",
14
+ "unk_token": "[UNK]"
15
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7e021a4cb1f2bcb70f6b823b4345b914f83a2c34c42047bfdd51f7356617545c
3
+ size 3963
vocab.txt ADDED
@@ -0,0 +1,500 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [PAD]
2
+ [UNK]
3
+ [CLS]
4
+ [SEP]
5
+ [MASK]
6
+
7
+
8
+
9
+
10
+
11
+
12
+
13
+
14
+
15
+
16
+
17
+
18
+
19
+
20
+
21
+
22
+
23
+
24
+
25
+
26
+
27
+
28
+
29
+
30
+
31
+
32
+
33
+
34
+
35
+
36
+
37
+
38
+
39
+
40
+
41
+
42
+
43
+
44
+
45
+
46
+
47
+
48
+
49
+
50
+
51
+
52
+
53
+
54
+
55
+
56
+
57
+
58
+
59
+ ி
60
+
61
+
62
+
63
+
64
+
65
+
66
+
67
+
68
+
69
+
70
+
71
+
72
+
73
+
74
+
75
+
76
+
77
+
78
+
79
+
80
+
81
+
82
+
83
+
84
+
85
+
86
+
87
+
88
+
89
+
90
+
91
+
92
+
93
+
94
+
95
+
96
+
97
+ ௿
98
+ ##ல
99
+ ##ை
100
+ ##க
101
+ ##்
102
+ ##ு
103
+ ##த
104
+ ##ர
105
+ ##வ
106
+ ##ே
107
+ ##ற
108
+ ##ம
109
+ ##ப
110
+ ##ன
111
+ ##ட
112
+ ##ி
113
+ ##ா
114
+ ##ச
115
+ ##ூ
116
+ ##ழ
117
+ ##ந
118
+ ##ோ
119
+ ##ொ
120
+ ##ெ
121
+ ##ள
122
+ ##ங
123
+ ##ய
124
+ ##ஞ
125
+ ##ண
126
+ ##ஸ
127
+ ##ஜ
128
+ ##ஷ
129
+ ##ீ
130
+ ##ஹ
131
+ ##உ
132
+ ##ஃ
133
+ ##அ
134
+ ##ஓ
135
+ ##எ
136
+ ##ஆ
137
+ ##ஊ
138
+ ##இ
139
+ ##ௌ
140
+ ##ஏ
141
+ ##ஒ
142
+ ##ஐ
143
+ ##௫
144
+ ##ஶ
145
+ ##௯
146
+ ##஑
147
+ ##ஈ
148
+ ##஢
149
+ ##ஔ
150
+ ##௦
151
+ ##௧
152
+ ##௰
153
+ ##௪
154
+ ##ஂ
155
+ ##௱
156
+ ##ௗ
157
+ ##௬
158
+ ##஡
159
+ ##஭
160
+ ##௩
161
+ ##௿
162
+ ##ௐ
163
+ ##௲
164
+ ##௭
165
+ ##஧
166
+ ##௮
167
+ ##௨
168
+ ##௃
169
+ ##௵
170
+ ##஦
171
+ ##஬
172
+ ##௶
173
+ ##஽
174
+ ##௹
175
+ ##௸
176
+ ##஖
177
+ ##௴
178
+ ##௉
179
+ ##௳
180
+ ##஫
181
+ ##௠
182
+ ##஠
183
+ ##௼
184
+ ##஁
185
+ ##஥
186
+ ##்க
187
+ ##்த
188
+ ##ம்
189
+ ##ன்
190
+ ##ல்
191
+ ##க்க
192
+ ##்ட
193
+ ##ப்
194
+ ##த்த
195
+ ##ள்
196
+ ##ும்
197
+ ##ர்
198
+ ##ிய
199
+ ##ப்ப
200
+ ##ரு
201
+ ##ந்த
202
+ ##ட்ட
203
+ ##து
204
+ ##ில்
205
+ ##ங்க
206
+ ##ைய
207
+ ##ற்
208
+ ##ின்
209
+ ##ாக
210
+ ##று
211
+ ##ிர
212
+ ##டு
213
+ ##ிக
214
+ ##ண்ட
215
+ ##்ச
216
+ ##க்கு
217
+ ##ர்க
218
+ ##ிற
219
+ ##ில
220
+ மு
221
+ ##ான
222
+ ##த்து
223
+ செ
224
+ என்
225
+ ##டி
226
+ வி
227
+ ##லை
228
+ ##ற்ற
229
+ ##ள்ள
230
+ ##ார
231
+ ##தி
232
+ ##ார்
233
+ ##ப்பு
234
+ ##ிரு
235
+ ##வு
236
+ ##ட்டு
237
+ ##ல்ல
238
+ ##ரி
239
+ ##வி
240
+ ##க்
241
+ கு
242
+ ##ான்
243
+ ##ந்து
244
+ ##ால்
245
+ ##ளை
246
+ ##ய்
247
+ ##ச்ச
248
+ கொ
249
+ ##த்
250
+ போ
251
+ இரு
252
+ ##னை
253
+ அவ
254
+ கா
255
+ ##ர்கள்
256
+ ##ங்கள்
257
+ பெ
258
+ ##ண்
259
+ ##ம்ப
260
+ ##றி
261
+ ##ஸ்
262
+ ##ாத
263
+ ##மி
264
+ பு
265
+ ##கள்
266
+ ##கு
267
+ ##ாவ
268
+ ##மை
269
+ ##ளு
270
+ வே
271
+ ஒரு
272
+ ##க்கும்
273
+ ##ின
274
+ ##ழு
275
+ பா
276
+ அத
277
+ தொ
278
+ இந்த
279
+ வெ
280
+ ##ண்டு
281
+ ##ாம்
282
+ வா
283
+ ##ற்க
284
+ ##த்தில்
285
+ ##டை
286
+ ##ன்ன
287
+ செய
288
+ ##ன்ற
289
+ ##ழ்
290
+ ##மா
291
+ ##ிக்க
292
+ ##டிய
293
+ நா
294
+ மா
295
+ ##ச்
296
+ ##ரை
297
+ ##ரா
298
+ ##வா
299
+ ##ரிய
300
+ ##தை
301
+ ##ையில்
302
+ ##ட்
303
+ ##ளி
304
+ கூ
305
+ பொ
306
+ ##வே
307
+ சு
308
+ ##ால
309
+ ##்த்த
310
+ தமி
311
+ மே
312
+ என
313
+ ##றை
314
+ தே
315
+ சொ
316
+ பிர
317
+ ##ங்கள
318
+ ##வை
319
+ ##ாம
320
+ சி
321
+ ##ப்பட்ட
322
+ ##ற்ப
323
+ ##ையும்
324
+ ##மாக
325
+ நி
326
+ ##மு
327
+ ##ண்ண
328
+ பே
329
+ ##த்தை
330
+ ##கிற
331
+ ##திய
332
+ ##ளுக்கு
333
+ தெ
334
+ என்று
335
+ ##ட்ச
336
+ கோ
337
+ நீ
338
+ செய்த
339
+ ##ிகள்
340
+ ##வர்
341
+ ##னி
342
+ ##மான
343
+ ##பு
344
+ என்ற
345
+ ##வும்
346
+ ##சு
347
+ ##ன்று
348
+ ##டுத்த
349
+ ##னு
350
+ ##கள
351
+ ##டன்
352
+ மற்ற
353
+ ##லி
354
+ ##்கள்
355
+ ##ர்கள
356
+ உள்ள
357
+ ##ரும்
358
+ பகு
359
+ ##சி
360
+ ##ற்று
361
+ ##ப்பட
362
+ ##ாள
363
+ அர
364
+ செய்
365
+ பி
366
+ இத
367
+ ##வத
368
+ ##ணி
369
+ ##வில்
370
+ ##ின்ற
371
+ ##ழி
372
+ ##ாய
373
+ கே
374
+ ##க்கிற
375
+ என்ப
376
+ ##ேன்
377
+ நட
378
+ து
379
+ கி
380
+ ##்கு
381
+ ##சிய
382
+ ##னர்
383
+ திரு
384
+ ##ஞ்ச
385
+ மற்றும்
386
+ ##டைய
387
+ ##ண்டும்
388
+ ##ிக்
389
+ தொட
390
+ வை
391
+ ##பா
392
+ முத
393
+ ##கம்
394
+ ##டம்
395
+ மூ
396
+ ##ங்கு
397
+ ##லா
398
+ கரு
399
+ சே
400
+ ##ியா
401
+ பய
402
+ செய்ய
403
+ வீ
404
+ பல
405
+ ஆக
406
+ ##மைய
407
+ வரு
408
+ ##வர
409
+ ##ட்டி
410
+ மீ
411
+ ##களை
412
+ ##னால்
413
+ ##வ்
414
+ ##ப்பா
415
+ ##ளிய
416
+ இது
417
+ எழு
418
+ இருந்த
419
+ பகுப்பு
420
+ அறி
421
+ தி
422
+ தமிழ்
423
+ ##ப்பி
424
+ நில
425
+ ##மே
426
+ அந்த
427
+ ##ும்ப
428
+ வர
429
+ பதி
430
+ ##ப்போ
431
+ ##க்கிய
432
+ நே
433
+ தலை
434
+ தமிழ
435
+ ##கை
436
+ ##ணை
437
+ ##லாம்
438
+ பார
439
+ ##த்தின்
440
+ ##விய
441
+ வழ
442
+ ##ிருந்த
443
+ ##டுத்து
444
+ கொண்ட
445
+ ##ர்க்க
446
+ ##ம்பர்
447
+ குறி
448
+ ##ையை
449
+ கட
450
+ என்ன
451
+ ##ூர்
452
+ அமை
453
+ ##ற்கு
454
+ ##ரம்
455
+ ##லு
456
+ ##ன்ப
457
+ ##நா
458
+ ##கிறது
459
+ ##ிலும்
460
+ தீ
461
+ ##ழை
462
+ ##க்கள்
463
+ ##வது
464
+ ##லம்
465
+ ##ங்களை
466
+ ##ார்கள்
467
+ வெளிய
468
+ இய
469
+ ##ிகள
470
+ இர
471
+ ##ற்றி
472
+ ##யர்
473
+ ##ணம்
474
+ சம
475
+ ##ங்கில
476
+ சா
477
+ ##த்திய
478
+ சொல்ல
479
+ ##க்கி
480
+ அதிக
481
+ வேண்டும்
482
+ ##ாது
483
+ ##னா
484
+ பத
485
+ நான்
486
+ அல்ல
487
+ இல்
488
+ பின்
489
+ இல
490
+ ##ரோ
491
+ ##பி
492
+ சிற
493
+ திர
494
+ ##க்கம்
495
+ ##ஸ்ட
496
+ வந்த
497
+ ##போ
498
+ ##ிற்கு
499
+ ##டிக்க
500
+ பிற