fats-fme commited on
Commit
a449acc
·
verified ·
1 Parent(s): 14bc037

Training in progress, step 152, checkpoint

Browse files
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:cdbb032b2c38c6d87a9d358dcc3180bf13f11278018e8feee884f36f1c824fa7
3
  size 501168482
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3e5789679118fe6249de3ab6bee816cb3c4cf3ab01068ebb0e9d5de334ad6944
3
  size 501168482
last-checkpoint/rng_state_0.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:18ef8632fbc8c2fd71394fd417dea822342f516e1d9a1808f7a77f591d4cb3eb
3
  size 14512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a357998c9e06de8784c658751b0b6822cd40078cbe2fdb27b35497f312e7f07b
3
  size 14512
last-checkpoint/rng_state_1.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0a465e7b600b2eb4b23d7eca04cb3ea9fa0684b6bc8cd24aba333e83e13a8293
3
  size 14512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dc2ba61932409c71c4b4e2c80294a20bd07f9a04c03c96589d342f141ba26914
3
  size 14512
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:adae00deb0c1057a8fffd51118c3e03f2b7e37c29fe1e99873db394f6ac98449
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8a18cea3621f9dc2789cea415c39b96c4e45945922514433b7b11735bf5d8256
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.023112597886413747,
5
  "eval_steps": 76,
6
- "global_step": 76,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -555,6 +555,546 @@
555
  "eval_samples_per_second": 3.94,
556
  "eval_steps_per_second": 0.985,
557
  "step": 76
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
558
  }
559
  ],
560
  "logging_steps": 1,
@@ -574,7 +1114,7 @@
574
  "attributes": {}
575
  }
576
  },
577
- "total_flos": 5.175457109466153e+17,
578
  "train_batch_size": 2,
579
  "trial_name": null,
580
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.04622519577282749,
5
  "eval_steps": 76,
6
+ "global_step": 152,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
555
  "eval_samples_per_second": 3.94,
556
  "eval_steps_per_second": 0.985,
557
  "step": 76
558
+ },
559
+ {
560
+ "epoch": 0.023416711016498136,
561
+ "grad_norm": NaN,
562
+ "learning_rate": 0.0001944321908543708,
563
+ "loss": 0.0,
564
+ "step": 77
565
+ },
566
+ {
567
+ "epoch": 0.02372082414658253,
568
+ "grad_norm": NaN,
569
+ "learning_rate": 0.00019401636137990816,
570
+ "loss": 0.0,
571
+ "step": 78
572
+ },
573
+ {
574
+ "epoch": 0.02402493727666692,
575
+ "grad_norm": NaN,
576
+ "learning_rate": 0.00019358603562568416,
577
+ "loss": 0.0,
578
+ "step": 79
579
+ },
580
+ {
581
+ "epoch": 0.02432905040675131,
582
+ "grad_norm": NaN,
583
+ "learning_rate": 0.0001931412799431554,
584
+ "loss": 0.0,
585
+ "step": 80
586
+ },
587
+ {
588
+ "epoch": 0.024633163536835704,
589
+ "grad_norm": NaN,
590
+ "learning_rate": 0.0001926821629087133,
591
+ "loss": 0.0,
592
+ "step": 81
593
+ },
594
+ {
595
+ "epoch": 0.024937276666920093,
596
+ "grad_norm": NaN,
597
+ "learning_rate": 0.00019220875531311045,
598
+ "loss": 0.0,
599
+ "step": 82
600
+ },
601
+ {
602
+ "epoch": 0.025241389797004486,
603
+ "grad_norm": NaN,
604
+ "learning_rate": 0.00019172113015054532,
605
+ "loss": 0.0,
606
+ "step": 83
607
+ },
608
+ {
609
+ "epoch": 0.025545502927088876,
610
+ "grad_norm": NaN,
611
+ "learning_rate": 0.00019121936260740752,
612
+ "loss": 0.0,
613
+ "step": 84
614
+ },
615
+ {
616
+ "epoch": 0.02584961605717327,
617
+ "grad_norm": NaN,
618
+ "learning_rate": 0.00019070353005068484,
619
+ "loss": 0.0,
620
+ "step": 85
621
+ },
622
+ {
623
+ "epoch": 0.02615372918725766,
624
+ "grad_norm": NaN,
625
+ "learning_rate": 0.00019017371201603407,
626
+ "loss": 0.0,
627
+ "step": 86
628
+ },
629
+ {
630
+ "epoch": 0.02645784231734205,
631
+ "grad_norm": NaN,
632
+ "learning_rate": 0.00018962999019551754,
633
+ "loss": 0.0,
634
+ "step": 87
635
+ },
636
+ {
637
+ "epoch": 0.026761955447426444,
638
+ "grad_norm": NaN,
639
+ "learning_rate": 0.00018907244842500704,
640
+ "loss": 0.0,
641
+ "step": 88
642
+ },
643
+ {
644
+ "epoch": 0.027066068577510833,
645
+ "grad_norm": NaN,
646
+ "learning_rate": 0.00018850117267125738,
647
+ "loss": 0.0,
648
+ "step": 89
649
+ },
650
+ {
651
+ "epoch": 0.027370181707595226,
652
+ "grad_norm": NaN,
653
+ "learning_rate": 0.00018791625101865117,
654
+ "loss": 0.0,
655
+ "step": 90
656
+ },
657
+ {
658
+ "epoch": 0.027674294837679615,
659
+ "grad_norm": NaN,
660
+ "learning_rate": 0.0001873177736556172,
661
+ "loss": 0.0,
662
+ "step": 91
663
+ },
664
+ {
665
+ "epoch": 0.027978407967764008,
666
+ "grad_norm": NaN,
667
+ "learning_rate": 0.00018670583286072443,
668
+ "loss": 0.0,
669
+ "step": 92
670
+ },
671
+ {
672
+ "epoch": 0.0282825210978484,
673
+ "grad_norm": NaN,
674
+ "learning_rate": 0.0001860805229884536,
675
+ "loss": 0.0,
676
+ "step": 93
677
+ },
678
+ {
679
+ "epoch": 0.02858663422793279,
680
+ "grad_norm": NaN,
681
+ "learning_rate": 0.00018544194045464886,
682
+ "loss": 0.0,
683
+ "step": 94
684
+ },
685
+ {
686
+ "epoch": 0.028890747358017183,
687
+ "grad_norm": NaN,
688
+ "learning_rate": 0.0001847901837216515,
689
+ "loss": 0.0,
690
+ "step": 95
691
+ },
692
+ {
693
+ "epoch": 0.029194860488101573,
694
+ "grad_norm": NaN,
695
+ "learning_rate": 0.00018412535328311814,
696
+ "loss": 0.0,
697
+ "step": 96
698
+ },
699
+ {
700
+ "epoch": 0.029498973618185965,
701
+ "grad_norm": NaN,
702
+ "learning_rate": 0.0001834475516485257,
703
+ "loss": 0.0,
704
+ "step": 97
705
+ },
706
+ {
707
+ "epoch": 0.029803086748270355,
708
+ "grad_norm": NaN,
709
+ "learning_rate": 0.00018275688332736577,
710
+ "loss": 0.0,
711
+ "step": 98
712
+ },
713
+ {
714
+ "epoch": 0.030107199878354748,
715
+ "grad_norm": NaN,
716
+ "learning_rate": 0.00018205345481302998,
717
+ "loss": 0.0,
718
+ "step": 99
719
+ },
720
+ {
721
+ "epoch": 0.03041131300843914,
722
+ "grad_norm": NaN,
723
+ "learning_rate": 0.00018133737456639044,
724
+ "loss": 0.0,
725
+ "step": 100
726
+ },
727
+ {
728
+ "epoch": 0.03071542613852353,
729
+ "grad_norm": NaN,
730
+ "learning_rate": 0.0001806087529990758,
731
+ "loss": 0.0,
732
+ "step": 101
733
+ },
734
+ {
735
+ "epoch": 0.031019539268607923,
736
+ "grad_norm": NaN,
737
+ "learning_rate": 0.0001798677024564473,
738
+ "loss": 0.0,
739
+ "step": 102
740
+ },
741
+ {
742
+ "epoch": 0.031323652398692316,
743
+ "grad_norm": NaN,
744
+ "learning_rate": 0.00017911433720027624,
745
+ "loss": 0.0,
746
+ "step": 103
747
+ },
748
+ {
749
+ "epoch": 0.031627765528776705,
750
+ "grad_norm": NaN,
751
+ "learning_rate": 0.00017834877339112612,
752
+ "loss": 0.0,
753
+ "step": 104
754
+ },
755
+ {
756
+ "epoch": 0.031931878658861094,
757
+ "grad_norm": NaN,
758
+ "learning_rate": 0.000177571129070442,
759
+ "loss": 0.0,
760
+ "step": 105
761
+ },
762
+ {
763
+ "epoch": 0.03223599178894549,
764
+ "grad_norm": NaN,
765
+ "learning_rate": 0.00017678152414234968,
766
+ "loss": 0.0,
767
+ "step": 106
768
+ },
769
+ {
770
+ "epoch": 0.03254010491902988,
771
+ "grad_norm": NaN,
772
+ "learning_rate": 0.000175980080355168,
773
+ "loss": 0.0,
774
+ "step": 107
775
+ },
776
+ {
777
+ "epoch": 0.03284421804911427,
778
+ "grad_norm": NaN,
779
+ "learning_rate": 0.00017516692128263648,
780
+ "loss": 0.0,
781
+ "step": 108
782
+ },
783
+ {
784
+ "epoch": 0.03314833117919866,
785
+ "grad_norm": NaN,
786
+ "learning_rate": 0.00017434217230486164,
787
+ "loss": 0.0,
788
+ "step": 109
789
+ },
790
+ {
791
+ "epoch": 0.033452444309283055,
792
+ "grad_norm": NaN,
793
+ "learning_rate": 0.00017350596058898483,
794
+ "loss": 0.0,
795
+ "step": 110
796
+ },
797
+ {
798
+ "epoch": 0.033756557439367445,
799
+ "grad_norm": NaN,
800
+ "learning_rate": 0.0001726584150695744,
801
+ "loss": 0.0,
802
+ "step": 111
803
+ },
804
+ {
805
+ "epoch": 0.034060670569451834,
806
+ "grad_norm": NaN,
807
+ "learning_rate": 0.00017179966642874543,
808
+ "loss": 0.0,
809
+ "step": 112
810
+ },
811
+ {
812
+ "epoch": 0.03436478369953623,
813
+ "grad_norm": NaN,
814
+ "learning_rate": 0.0001709298470760101,
815
+ "loss": 0.0,
816
+ "step": 113
817
+ },
818
+ {
819
+ "epoch": 0.03466889682962062,
820
+ "grad_norm": NaN,
821
+ "learning_rate": 0.00017004909112786144,
822
+ "loss": 0.0,
823
+ "step": 114
824
+ },
825
+ {
826
+ "epoch": 0.03497300995970501,
827
+ "grad_norm": NaN,
828
+ "learning_rate": 0.00016915753438709417,
829
+ "loss": 0.0,
830
+ "step": 115
831
+ },
832
+ {
833
+ "epoch": 0.0352771230897894,
834
+ "grad_norm": NaN,
835
+ "learning_rate": 0.00016825531432186543,
836
+ "loss": 0.0,
837
+ "step": 116
838
+ },
839
+ {
840
+ "epoch": 0.035581236219873795,
841
+ "grad_norm": NaN,
842
+ "learning_rate": 0.00016734257004449862,
843
+ "loss": 0.0,
844
+ "step": 117
845
+ },
846
+ {
847
+ "epoch": 0.035885349349958184,
848
+ "grad_norm": NaN,
849
+ "learning_rate": 0.00016641944229003395,
850
+ "loss": 0.0,
851
+ "step": 118
852
+ },
853
+ {
854
+ "epoch": 0.036189462480042574,
855
+ "grad_norm": NaN,
856
+ "learning_rate": 0.00016548607339452853,
857
+ "loss": 0.0,
858
+ "step": 119
859
+ },
860
+ {
861
+ "epoch": 0.03649357561012697,
862
+ "grad_norm": NaN,
863
+ "learning_rate": 0.00016454260727310978,
864
+ "loss": 0.0,
865
+ "step": 120
866
+ },
867
+ {
868
+ "epoch": 0.03679768874021136,
869
+ "grad_norm": NaN,
870
+ "learning_rate": 0.00016358918939778536,
871
+ "loss": 0.0,
872
+ "step": 121
873
+ },
874
+ {
875
+ "epoch": 0.03710180187029575,
876
+ "grad_norm": NaN,
877
+ "learning_rate": 0.00016262596677501297,
878
+ "loss": 0.0,
879
+ "step": 122
880
+ },
881
+ {
882
+ "epoch": 0.03740591500038014,
883
+ "grad_norm": NaN,
884
+ "learning_rate": 0.0001616530879230335,
885
+ "loss": 0.0,
886
+ "step": 123
887
+ },
888
+ {
889
+ "epoch": 0.037710028130464535,
890
+ "grad_norm": NaN,
891
+ "learning_rate": 0.00016067070284897137,
892
+ "loss": 0.0,
893
+ "step": 124
894
+ },
895
+ {
896
+ "epoch": 0.038014141260548924,
897
+ "grad_norm": NaN,
898
+ "learning_rate": 0.00015967896302570485,
899
+ "loss": 0.0,
900
+ "step": 125
901
+ },
902
+ {
903
+ "epoch": 0.03831825439063331,
904
+ "grad_norm": NaN,
905
+ "learning_rate": 0.0001586780213685108,
906
+ "loss": 0.0,
907
+ "step": 126
908
+ },
909
+ {
910
+ "epoch": 0.03862236752071771,
911
+ "grad_norm": NaN,
912
+ "learning_rate": 0.00015766803221148673,
913
+ "loss": 0.0,
914
+ "step": 127
915
+ },
916
+ {
917
+ "epoch": 0.0389264806508021,
918
+ "grad_norm": NaN,
919
+ "learning_rate": 0.0001566491512837543,
920
+ "loss": 0.0,
921
+ "step": 128
922
+ },
923
+ {
924
+ "epoch": 0.03923059378088649,
925
+ "grad_norm": NaN,
926
+ "learning_rate": 0.00015562153568544752,
927
+ "loss": 0.0,
928
+ "step": 129
929
+ },
930
+ {
931
+ "epoch": 0.03953470691097088,
932
+ "grad_norm": NaN,
933
+ "learning_rate": 0.00015458534386348966,
934
+ "loss": 0.0,
935
+ "step": 130
936
+ },
937
+ {
938
+ "epoch": 0.039838820041055274,
939
+ "grad_norm": NaN,
940
+ "learning_rate": 0.0001535407355871626,
941
+ "loss": 0.0,
942
+ "step": 131
943
+ },
944
+ {
945
+ "epoch": 0.040142933171139664,
946
+ "grad_norm": NaN,
947
+ "learning_rate": 0.00015248787192347196,
948
+ "loss": 0.0,
949
+ "step": 132
950
+ },
951
+ {
952
+ "epoch": 0.04044704630122405,
953
+ "grad_norm": NaN,
954
+ "learning_rate": 0.00015142691521231267,
955
+ "loss": 0.0,
956
+ "step": 133
957
+ },
958
+ {
959
+ "epoch": 0.04075115943130845,
960
+ "grad_norm": NaN,
961
+ "learning_rate": 0.00015035802904143762,
962
+ "loss": 0.0,
963
+ "step": 134
964
+ },
965
+ {
966
+ "epoch": 0.04105527256139284,
967
+ "grad_norm": NaN,
968
+ "learning_rate": 0.00014928137822123452,
969
+ "loss": 0.0,
970
+ "step": 135
971
+ },
972
+ {
973
+ "epoch": 0.04135938569147723,
974
+ "grad_norm": NaN,
975
+ "learning_rate": 0.0001481971287593138,
976
+ "loss": 0.0,
977
+ "step": 136
978
+ },
979
+ {
980
+ "epoch": 0.04166349882156162,
981
+ "grad_norm": NaN,
982
+ "learning_rate": 0.00014710544783491208,
983
+ "loss": 0.0,
984
+ "step": 137
985
+ },
986
+ {
987
+ "epoch": 0.041967611951646014,
988
+ "grad_norm": NaN,
989
+ "learning_rate": 0.00014600650377311522,
990
+ "loss": 0.0,
991
+ "step": 138
992
+ },
993
+ {
994
+ "epoch": 0.0422717250817304,
995
+ "grad_norm": NaN,
996
+ "learning_rate": 0.00014490046601890405,
997
+ "loss": 0.0,
998
+ "step": 139
999
+ },
1000
+ {
1001
+ "epoch": 0.04257583821181479,
1002
+ "grad_norm": NaN,
1003
+ "learning_rate": 0.00014378750511102826,
1004
+ "loss": 0.0,
1005
+ "step": 140
1006
+ },
1007
+ {
1008
+ "epoch": 0.04287995134189919,
1009
+ "grad_norm": NaN,
1010
+ "learning_rate": 0.00014266779265571087,
1011
+ "loss": 0.0,
1012
+ "step": 141
1013
+ },
1014
+ {
1015
+ "epoch": 0.04318406447198358,
1016
+ "grad_norm": NaN,
1017
+ "learning_rate": 0.00014154150130018866,
1018
+ "loss": 0.0,
1019
+ "step": 142
1020
+ },
1021
+ {
1022
+ "epoch": 0.04348817760206797,
1023
+ "grad_norm": NaN,
1024
+ "learning_rate": 0.00014040880470609187,
1025
+ "loss": 0.0,
1026
+ "step": 143
1027
+ },
1028
+ {
1029
+ "epoch": 0.043792290732152364,
1030
+ "grad_norm": NaN,
1031
+ "learning_rate": 0.00013926987752266735,
1032
+ "loss": 0.0,
1033
+ "step": 144
1034
+ },
1035
+ {
1036
+ "epoch": 0.044096403862236754,
1037
+ "grad_norm": NaN,
1038
+ "learning_rate": 0.00013812489535984981,
1039
+ "loss": 0.0,
1040
+ "step": 145
1041
+ },
1042
+ {
1043
+ "epoch": 0.04440051699232114,
1044
+ "grad_norm": NaN,
1045
+ "learning_rate": 0.00013697403476118454,
1046
+ "loss": 0.0,
1047
+ "step": 146
1048
+ },
1049
+ {
1050
+ "epoch": 0.04470463012240553,
1051
+ "grad_norm": NaN,
1052
+ "learning_rate": 0.0001358174731766064,
1053
+ "loss": 0.0,
1054
+ "step": 147
1055
+ },
1056
+ {
1057
+ "epoch": 0.04500874325248993,
1058
+ "grad_norm": NaN,
1059
+ "learning_rate": 0.00013465538893507907,
1060
+ "loss": 0.0,
1061
+ "step": 148
1062
+ },
1063
+ {
1064
+ "epoch": 0.04531285638257432,
1065
+ "grad_norm": NaN,
1066
+ "learning_rate": 0.00013348796121709862,
1067
+ "loss": 0.0,
1068
+ "step": 149
1069
+ },
1070
+ {
1071
+ "epoch": 0.04561696951265871,
1072
+ "grad_norm": NaN,
1073
+ "learning_rate": 0.00013231537002706594,
1074
+ "loss": 0.0,
1075
+ "step": 150
1076
+ },
1077
+ {
1078
+ "epoch": 0.045921082642743104,
1079
+ "grad_norm": NaN,
1080
+ "learning_rate": 0.0001311377961655319,
1081
+ "loss": 0.0,
1082
+ "step": 151
1083
+ },
1084
+ {
1085
+ "epoch": 0.04622519577282749,
1086
+ "grad_norm": NaN,
1087
+ "learning_rate": 0.00012995542120132017,
1088
+ "loss": 0.0,
1089
+ "step": 152
1090
+ },
1091
+ {
1092
+ "epoch": 0.04622519577282749,
1093
+ "eval_loss": NaN,
1094
+ "eval_runtime": 1407.6583,
1095
+ "eval_samples_per_second": 3.934,
1096
+ "eval_steps_per_second": 0.984,
1097
+ "step": 152
1098
  }
1099
  ],
1100
  "logging_steps": 1,
 
1114
  "attributes": {}
1115
  }
1116
  },
1117
+ "total_flos": 1.0424076796386345e+18,
1118
  "train_batch_size": 2,
1119
  "trial_name": null,
1120
  "trial_params": null