Edit model card

collapse_gemma-2-2b_hs2_accumulate_iter20_sftsd1

This model is a fine-tuned version of google/gemma-2-2b on an unknown dataset. It achieves the following results on the evaluation set:

  • Loss: 1.1002
  • Num Input Tokens Seen: 102380944

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 8e-06
  • train_batch_size: 8
  • eval_batch_size: 16
  • seed: 1
  • gradient_accumulation_steps: 16
  • total_train_batch_size: 128
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: constant_with_warmup
  • lr_scheduler_warmup_ratio: 0.05
  • num_epochs: 1

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
No log 0 0 1.3909 0
1.6479 0.0026 5 1.3902 259928
1.5651 0.0052 10 1.3844 519064
1.6034 0.0078 15 1.3662 788272
1.6282 0.0104 20 1.3378 1059744
1.4419 0.0130 25 1.3020 1319264
1.475 0.0156 30 1.2596 1586848
1.4266 0.0182 35 1.2303 1856056
1.2516 0.0208 40 1.2031 2119040
1.1887 0.0234 45 1.1898 2386472
1.0702 0.0259 50 1.1992 2656024
1.0109 0.0285 55 1.2195 2930216
0.7844 0.0311 60 1.2457 3199040
0.7676 0.0337 65 1.2815 3469632
0.7428 0.0363 70 1.3054 3731160
0.598 0.0389 75 1.3241 4005848
0.4244 0.0415 80 1.3789 4267288
0.4576 0.0441 85 1.3194 4525896
0.2969 0.0467 90 1.3127 4792712
0.2909 0.0493 95 1.2823 5059856
0.3139 0.0519 100 1.2619 5324280
0.3074 0.0545 105 1.2322 5592128
0.2565 0.0571 110 1.2477 5861480
0.2462 0.0597 115 1.2297 6120384
0.253 0.0623 120 1.2333 6388272
0.2025 0.0649 125 1.2124 6648696
0.2139 0.0675 130 1.2028 6915760
0.1744 0.0701 135 1.2166 7180584
0.2072 0.0727 140 1.1977 7445784
0.1824 0.0753 145 1.2076 7712936
0.1711 0.0778 150 1.2040 7970240
0.1292 0.0804 155 1.2029 8237720
0.1421 0.0830 160 1.1975 8501080
0.1319 0.0856 165 1.2034 8760672
0.1731 0.0882 170 1.1942 9028744
0.1959 0.0908 175 1.1929 9291464
0.1586 0.0934 180 1.1841 9554128
0.1471 0.0960 185 1.1920 9820576
0.1871 0.0986 190 1.1854 10090896
0.1332 0.1012 195 1.1813 10361112
0.1609 0.1038 200 1.1875 10630080
0.0992 0.1064 205 1.1844 10893536
0.1718 0.1090 210 1.1794 11155384
0.0941 0.1116 215 1.1843 11416224
0.1865 0.1142 220 1.1802 11674592
0.1943 0.1168 225 1.1748 11947512
0.1231 0.1194 230 1.1824 12211760
0.1185 0.1220 235 1.1752 12476440
0.0922 0.1246 240 1.1701 12735312
0.1547 0.1272 245 1.1697 12995936
0.129 0.1297 250 1.1785 13267840
0.1482 0.1323 255 1.1747 13537768
0.12 0.1349 260 1.1713 13804000
0.1795 0.1375 265 1.1750 14071248
0.1337 0.1401 270 1.1690 14329744
0.1524 0.1427 275 1.1664 14595984
0.151 0.1453 280 1.1682 14856528
0.1471 0.1479 285 1.1633 15126608
0.1077 0.1505 290 1.1690 15389768
0.0932 0.1531 295 1.1640 15661880
0.1696 0.1557 300 1.1591 15929384
0.1181 0.1583 305 1.1642 16199440
0.185 0.1609 310 1.1650 16463512
0.1527 0.1635 315 1.1618 16727968
0.1106 0.1661 320 1.1621 16991168
0.1189 0.1687 325 1.1643 17258592
0.1117 0.1713 330 1.1615 17526640
0.0761 0.1739 335 1.1598 17789680
0.1519 0.1765 340 1.1571 18044392
0.1315 0.1791 345 1.1622 18317488
0.1639 0.1816 350 1.1562 18585776
0.1278 0.1842 355 1.1570 18846664
0.1177 0.1868 360 1.1576 19113976
0.1477 0.1894 365 1.1563 19372456
0.1226 0.1920 370 1.1544 19640016
0.161 0.1946 375 1.1544 19901808
0.144 0.1972 380 1.1588 20167512
0.1464 0.1998 385 1.1566 20430944
0.1444 0.2024 390 1.1553 20692600
0.136 0.2050 395 1.1560 20969648
0.0987 0.2076 400 1.1544 21234656
0.1149 0.2102 405 1.1509 21497912
0.1667 0.2128 410 1.1504 21757296
0.1104 0.2154 415 1.1535 22020032
0.0827 0.2180 420 1.1527 22283856
0.1158 0.2206 425 1.1500 22557096
0.1484 0.2232 430 1.1503 22823560
0.1203 0.2258 435 1.1480 23090064
0.1831 0.2284 440 1.1459 23358712
0.077 0.2310 445 1.1470 23628040
0.1138 0.2335 450 1.1518 23898360
0.128 0.2361 455 1.1497 24170736
0.1263 0.2387 460 1.1486 24427136
0.1445 0.2413 465 1.1498 24689696
0.1031 0.2439 470 1.1479 24955112
0.0896 0.2465 475 1.1463 25229016
0.1346 0.2491 480 1.1447 25500112
0.1423 0.2517 485 1.1438 25772192
0.1481 0.2543 490 1.1432 26038832
0.0895 0.2569 495 1.1413 26305320
0.1558 0.2595 500 1.1455 26570264
0.095 0.2621 505 1.1463 26837312
0.1034 0.2647 510 1.1391 27103984
0.1259 0.2673 515 1.1394 27368488
0.1227 0.2699 520 1.1464 27637792
0.112 0.2725 525 1.1451 27909832
0.1099 0.2751 530 1.1378 28172960
0.1616 0.2777 535 1.1384 28446976
0.09 0.2803 540 1.1419 28708752
0.0859 0.2829 545 1.1392 28986128
0.1201 0.2854 550 1.1390 29256664
0.0991 0.2880 555 1.1404 29530168
0.0793 0.2906 560 1.1381 29796520
0.177 0.2932 565 1.1371 30056024
0.1504 0.2958 570 1.1358 30319264
0.0893 0.2984 575 1.1379 30580432
0.0784 0.3010 580 1.1401 30833328
0.0775 0.3036 585 1.1370 31108888
0.0836 0.3062 590 1.1345 31361760
0.1462 0.3088 595 1.1392 31636960
0.1242 0.3114 600 1.1379 31904432
0.0955 0.3140 605 1.1368 32174072
0.164 0.3166 610 1.1363 32439032
0.0997 0.3192 615 1.1346 32698888
0.1401 0.3218 620 1.1350 32973256
0.1412 0.3244 625 1.1334 33241984
0.1455 0.3270 630 1.1334 33517704
0.0965 0.3296 635 1.1342 33777808
0.1554 0.3322 640 1.1327 34043424
0.1043 0.3347 645 1.1317 34304360
0.1783 0.3373 650 1.1316 34578544
0.1297 0.3399 655 1.1367 34842960
0.2293 0.3425 660 1.1344 35113000
0.2579 0.3451 665 1.1310 35380488
0.1496 0.3477 670 1.1312 35636376
0.1115 0.3503 675 1.1331 35900976
0.0984 0.3529 680 1.1313 36160840
0.0789 0.3555 685 1.1313 36415936
0.1145 0.3581 690 1.1336 36691072
0.1277 0.3607 695 1.1303 36960192
0.1105 0.3633 700 1.1297 37223496
0.1841 0.3659 705 1.1346 37489064
0.1882 0.3685 710 1.1319 37758120
0.1002 0.3711 715 1.1285 38017928
0.1058 0.3737 720 1.1287 38283024
0.0985 0.3763 725 1.1293 38552120
0.176 0.3789 730 1.1278 38820176
0.1206 0.3815 735 1.1286 39082272
0.1141 0.3841 740 1.1279 39347760
0.0707 0.3866 745 1.1285 39608016
0.1274 0.3892 750 1.1314 39874208
0.1121 0.3918 755 1.1281 40141400
0.1712 0.3944 760 1.1256 40406744
0.1075 0.3970 765 1.1266 40665208
0.0453 0.3996 770 1.1305 40928352
0.1488 0.4022 775 1.1311 41190336
0.1022 0.4048 780 1.1281 41455792
0.1196 0.4074 785 1.1272 41721744
0.1324 0.4100 790 1.1257 41983976
0.1613 0.4126 795 1.1271 42248264
0.1483 0.4152 800 1.1283 42515280
0.1166 0.4178 805 1.1260 42779648
0.1216 0.4204 810 1.1248 43042872
0.1188 0.4230 815 1.1252 43311904
0.1436 0.4256 820 1.1248 43574936
0.1026 0.4282 825 1.1259 43846928
0.1141 0.4308 830 1.1278 44111208
0.1036 0.4334 835 1.1255 44375952
0.0651 0.4360 840 1.1257 44640840
0.1026 0.4385 845 1.1259 44910656
0.1408 0.4411 850 1.1249 45182200
0.133 0.4437 855 1.1255 45450152
0.0951 0.4463 860 1.1271 45710088
0.0983 0.4489 865 1.1262 45967792
0.168 0.4515 870 1.1235 46236440
0.1261 0.4541 875 1.1231 46502440
0.146 0.4567 880 1.1249 46777648
0.112 0.4593 885 1.1244 47040736
0.1077 0.4619 890 1.1222 47305296
0.0871 0.4645 895 1.1216 47566128
0.1717 0.4671 900 1.1245 47829232
0.1104 0.4697 905 1.1207 48096592
0.1184 0.4723 910 1.1213 48368824
0.1298 0.4749 915 1.1214 48631024
0.1139 0.4775 920 1.1218 48900768
0.1283 0.4801 925 1.1233 49170240
0.1126 0.4827 930 1.1234 49442904
0.1136 0.4853 935 1.1218 49709728
0.1613 0.4879 940 1.1209 49975832
0.0684 0.4904 945 1.1227 50240024
0.088 0.4930 950 1.1227 50506960
0.0903 0.4956 955 1.1213 50772776
0.0959 0.4982 960 1.1197 51041696
0.203 0.5008 965 1.1188 51309168
0.1403 0.5034 970 1.1194 51570952
0.121 0.5060 975 1.1191 51835552
0.0769 0.5086 980 1.1179 52097720
0.09 0.5112 985 1.1173 52360704
0.1068 0.5138 990 1.1185 52628824
0.1151 0.5164 995 1.1196 52888120
0.0899 0.5190 1000 1.1173 53149256
0.126 0.5216 1005 1.1163 53417936
0.0877 0.5242 1010 1.1190 53692552
0.1062 0.5268 1015 1.1194 53954616
0.0857 0.5294 1020 1.1175 54222056
0.0563 0.5320 1025 1.1169 54489272
0.0955 0.5346 1030 1.1176 54762080
0.1072 0.5372 1035 1.1169 55033656
0.1663 0.5398 1040 1.1162 55302432
0.1644 0.5423 1045 1.1166 55568768
0.1258 0.5449 1050 1.1176 55837344
0.1122 0.5475 1055 1.1186 56103344
0.0937 0.5501 1060 1.1172 56357912
0.1175 0.5527 1065 1.1160 56628128
0.0966 0.5553 1070 1.1169 56889752
0.0816 0.5579 1075 1.1154 57152960
0.082 0.5605 1080 1.1160 57424088
0.0881 0.5631 1085 1.1158 57688632
0.1175 0.5657 1090 1.1155 57946080
0.0715 0.5683 1095 1.1154 58219432
0.1691 0.5709 1100 1.1145 58478648
0.1546 0.5735 1105 1.1149 58743104
0.1189 0.5761 1110 1.1161 59003048
0.1396 0.5787 1115 1.1159 59273016
0.1077 0.5813 1120 1.1148 59539832
0.1461 0.5839 1125 1.1124 59807896
0.0894 0.5865 1130 1.1123 60074800
0.1292 0.5891 1135 1.1155 60342408
0.0818 0.5917 1140 1.1143 60604856
0.0837 0.5942 1145 1.1129 60874304
0.0958 0.5968 1150 1.1138 61146480
0.116 0.5994 1155 1.1154 61399320
0.0856 0.6020 1160 1.1149 61667280
0.0335 0.6046 1165 1.1136 61933936
0.0867 0.6072 1170 1.1144 62198688
0.0482 0.6098 1175 1.1151 62461032
0.088 0.6124 1180 1.1131 62728600
0.1611 0.6150 1185 1.1136 62995440
0.1172 0.6176 1190 1.1150 63264872
0.1844 0.6202 1195 1.1126 63533000
0.1021 0.6228 1200 1.1103 63791536
0.153 0.6254 1205 1.1116 64058256
0.1484 0.6280 1210 1.1159 64318208
0.1095 0.6306 1215 1.1149 64580688
0.1147 0.6332 1220 1.1132 64848008
0.0906 0.6358 1225 1.1115 65104976
0.0884 0.6384 1230 1.1152 65366752
0.0964 0.6410 1235 1.1147 65631232
0.1017 0.6435 1240 1.1130 65899344
0.1265 0.6461 1245 1.1119 66164432
0.1173 0.6487 1250 1.1135 66437904
0.1344 0.6513 1255 1.1133 66710552
0.1403 0.6539 1260 1.1121 66975672
0.1075 0.6565 1265 1.1121 67245024
0.1965 0.6591 1270 1.1120 67511672
0.1057 0.6617 1275 1.1098 67780208
0.1561 0.6643 1280 1.1086 68036040
0.1016 0.6669 1285 1.1109 68298984
0.105 0.6695 1290 1.1102 68561960
0.1448 0.6721 1295 1.1085 68828184
0.0671 0.6747 1300 1.1096 69092416
0.0877 0.6773 1305 1.1094 69358312
0.1356 0.6799 1310 1.1080 69631680
0.0737 0.6825 1315 1.1096 69892912
0.0713 0.6851 1320 1.1110 70158608
0.1053 0.6877 1325 1.1096 70427696
0.0961 0.6903 1330 1.1090 70697464
0.075 0.6929 1335 1.1093 70964168
0.064 0.6954 1340 1.1103 71228672
0.0902 0.6980 1345 1.1103 71490112
0.101 0.7006 1350 1.1087 71752096
0.0633 0.7032 1355 1.1071 72019408
0.1264 0.7058 1360 1.1074 72286288
0.1696 0.7084 1365 1.1062 72555384
0.0527 0.7110 1370 1.1066 72823672
0.1218 0.7136 1375 1.1076 73091352
0.1882 0.7162 1380 1.1067 73361888
0.0886 0.7188 1385 1.1055 73628016
0.1298 0.7214 1390 1.1087 73899856
0.0752 0.7240 1395 1.1117 74169536
0.113 0.7266 1400 1.1083 74439200
0.1104 0.7292 1405 1.1075 74700568
0.0874 0.7318 1410 1.1092 74963176
0.1437 0.7344 1415 1.1086 75232144
0.1215 0.7370 1420 1.1080 75501016
0.0688 0.7396 1425 1.1074 75760408
0.1089 0.7422 1430 1.1083 76028392
0.1318 0.7448 1435 1.1090 76294888
0.1465 0.7473 1440 1.1068 76558104
0.1005 0.7499 1445 1.1059 76830592
0.1166 0.7525 1450 1.1077 77097728
0.1233 0.7551 1455 1.1073 77360992
0.1039 0.7577 1460 1.1049 77633344
0.0969 0.7603 1465 1.1054 77900656
0.1498 0.7629 1470 1.1074 78157792
0.1328 0.7655 1475 1.1077 78426912
0.1069 0.7681 1480 1.1056 78689512
0.0476 0.7707 1485 1.1048 78953952
0.1474 0.7733 1490 1.1057 79217872
0.0917 0.7759 1495 1.1064 79479768
0.1258 0.7785 1500 1.1065 79738776
0.1028 0.7811 1505 1.1058 80009784
0.1163 0.7837 1510 1.1054 80272584
0.0905 0.7863 1515 1.1051 80543584
0.1293 0.7889 1520 1.1049 80811096
0.1193 0.7915 1525 1.1038 81084664
0.1249 0.7941 1530 1.1043 81344696
0.065 0.7967 1535 1.1042 81608712
0.0915 0.7992 1540 1.1050 81883480
0.1116 0.8018 1545 1.1059 82149344
0.0872 0.8044 1550 1.1037 82416216
0.1403 0.8070 1555 1.1026 82680680
0.0722 0.8096 1560 1.1049 82943672
0.1262 0.8122 1565 1.1050 83209400
0.0984 0.8148 1570 1.1032 83476224
0.1274 0.8174 1575 1.1035 83741792
0.09 0.8200 1580 1.1048 84014040
0.1303 0.8226 1585 1.1053 84271168
0.0748 0.8252 1590 1.1041 84533272
0.0924 0.8278 1595 1.1034 84797552
0.1165 0.8304 1600 1.1039 85066264
0.0918 0.8330 1605 1.1039 85330264
0.1588 0.8356 1610 1.1026 85595056
0.0956 0.8382 1615 1.1020 85852952
0.1122 0.8408 1620 1.1027 86115800
0.1403 0.8434 1625 1.1028 86376704
0.1379 0.8460 1630 1.1030 86644880
0.1212 0.8486 1635 1.1029 86907224
0.1044 0.8511 1640 1.1026 87178488
0.1232 0.8537 1645 1.1018 87457200
0.1055 0.8563 1650 1.1019 87719920
0.0863 0.8589 1655 1.1026 87982104
0.0714 0.8615 1660 1.1026 88250536
0.0677 0.8641 1665 1.1019 88519480
0.0772 0.8667 1670 1.1033 88785328
0.1166 0.8693 1675 1.1036 89047384
0.1652 0.8719 1680 1.1028 89313536
0.1431 0.8745 1685 1.1025 89582424
0.1187 0.8771 1690 1.1009 89851904
0.1024 0.8797 1695 1.1004 90117768
0.0913 0.8823 1700 1.1007 90379848
0.1002 0.8849 1705 1.1028 90642928
0.1625 0.8875 1710 1.1048 90904448
0.0982 0.8901 1715 1.1038 91174712
0.1614 0.8927 1720 1.1028 91438752
0.1482 0.8953 1725 1.1013 91697256
0.1048 0.8979 1730 1.1009 91963144
0.0831 0.9005 1735 1.1022 92236440
0.0953 0.9030 1740 1.1021 92498040
0.0732 0.9056 1745 1.1015 92764088
0.0645 0.9082 1750 1.1019 93029352
0.0839 0.9108 1755 1.1016 93300432
0.1116 0.9134 1760 1.1006 93571208
0.1118 0.9160 1765 1.1013 93829704
0.1076 0.9186 1770 1.1018 94100904
0.086 0.9212 1775 1.1012 94364072
0.1013 0.9238 1780 1.1009 94629568
0.1329 0.9264 1785 1.1020 94902216
0.096 0.9290 1790 1.1011 95164976
0.0901 0.9316 1795 1.1007 95430416
0.1244 0.9342 1800 1.1017 95697648
0.13 0.9368 1805 1.1007 95960520
0.123 0.9394 1810 1.0992 96225040
0.0763 0.9420 1815 1.0982 96487088
0.1787 0.9446 1820 1.0984 96746696
0.116 0.9472 1825 1.0999 97016784
0.1212 0.9498 1830 1.1014 97280392
0.1041 0.9524 1835 1.1001 97542440
0.0467 0.9549 1840 1.0991 97812888
0.1473 0.9575 1845 1.0990 98078512
0.0915 0.9601 1850 1.0996 98344248
0.0869 0.9627 1855 1.0993 98615056
0.1814 0.9653 1860 1.0993 98877128
0.1143 0.9679 1865 1.0989 99140488
0.0982 0.9705 1870 1.0993 99408128
0.1015 0.9731 1875 1.0994 99675520
0.1003 0.9757 1880 1.0992 99942096
0.1714 0.9783 1885 1.1008 100210520
0.148 0.9809 1890 1.1015 100474232
0.1322 0.9835 1895 1.0998 100745696
0.1361 0.9861 1900 1.1000 101006312
0.1216 0.9887 1905 1.1002 101268504
0.0706 0.9913 1910 1.1009 101538464
0.1325 0.9939 1915 1.0996 101801832
0.0997 0.9965 1920 1.0999 102066320
0.0505 0.9991 1925 1.1001 102325776

Framework versions

  • Transformers 4.44.0
  • Pytorch 2.4.0+cu121
  • Datasets 2.20.0
  • Tokenizers 0.19.1
Downloads last month
9
Safetensors
Model size
2.61B params
Tensor type
BF16
·
Inference API
Unable to determine this model's library. Check the docs .

Model tree for RylanSchaeffer/collapse_gemma-2-2b_hs2_accumulate_iter20_sftsd1

Base model

google/gemma-2-2b
Finetuned
(463)
this model