Llama-3.2-11B-DataVizQA / logs /log_1728047431.txt

Upload folder using huggingface_hub

3ec648b verified about 1 month ago

8.32 kB

	Step 1 \| loss:0.9819899201393127 lr:2e-05 tokens_per_second_per_gpu:7.734699300633465 grad_norm:DTensor(local_tensor=588.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 2 \| loss:0.10344056785106659 lr:2e-05 tokens_per_second_per_gpu:24.03684223214773 grad_norm:DTensor(local_tensor=21.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 3 \| loss:0.14387205243110657 lr:2e-05 tokens_per_second_per_gpu:31.60882780035777 grad_norm:DTensor(local_tensor=38.25, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 4 \| loss:0.10579227656126022 lr:2e-05 tokens_per_second_per_gpu:31.745860419194234 grad_norm:DTensor(local_tensor=16.5, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 5 \| loss:0.04224634915590286 lr:2e-05 tokens_per_second_per_gpu:31.68598594235708 grad_norm:DTensor(local_tensor=9.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 6 \| loss:0.09355802088975906 lr:2e-05 tokens_per_second_per_gpu:31.634265476783963 grad_norm:DTensor(local_tensor=9.5625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 7 \| loss:0.04229458421468735 lr:2e-05 tokens_per_second_per_gpu:31.291392042111845 grad_norm:DTensor(local_tensor=21.25, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 8 \| loss:0.06167937070131302 lr:2e-05 tokens_per_second_per_gpu:31.548174619281138 grad_norm:DTensor(local_tensor=13.3125, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 9 \| loss:0.07292375713586807 lr:2e-05 tokens_per_second_per_gpu:32.565462605175746 grad_norm:DTensor(local_tensor=13.9375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 10 \| loss:0.09643712639808655 lr:2e-05 tokens_per_second_per_gpu:32.86753105233543 grad_norm:DTensor(local_tensor=14.5, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 11 \| loss:0.03650011122226715 lr:2e-05 tokens_per_second_per_gpu:29.188105634872123 grad_norm:DTensor(local_tensor=8.8125, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 12 \| loss:0.08273939788341522 lr:2e-05 tokens_per_second_per_gpu:32.55047762083378 grad_norm:DTensor(local_tensor=3.84375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 13 \| loss:0.06700858473777771 lr:2e-05 tokens_per_second_per_gpu:31.95107795260042 grad_norm:DTensor(local_tensor=8.25, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 14 \| loss:0.03902854397892952 lr:2e-05 tokens_per_second_per_gpu:31.690385620952814 grad_norm:DTensor(local_tensor=6.65625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 15 \| loss:0.05187463015317917 lr:2e-05 tokens_per_second_per_gpu:32.12924024991362 grad_norm:DTensor(local_tensor=12.75, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 16 \| loss:0.09306984394788742 lr:2e-05 tokens_per_second_per_gpu:32.014480291596435 grad_norm:DTensor(local_tensor=16.75, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 17 \| loss:0.06169477477669716 lr:2e-05 tokens_per_second_per_gpu:31.980235291711175 grad_norm:DTensor(local_tensor=9.4375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 18 \| loss:0.05085933953523636 lr:2e-05 tokens_per_second_per_gpu:31.55819874100472 grad_norm:DTensor(local_tensor=5.4375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 19 \| loss:0.027735000476241112 lr:2e-05 tokens_per_second_per_gpu:32.56772044279201 grad_norm:DTensor(local_tensor=12.5625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 20 \| loss:0.02117377519607544 lr:2e-05 tokens_per_second_per_gpu:31.223482446635142 grad_norm:DTensor(local_tensor=9.1875, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 21 \| loss:0.04413335770368576 lr:2e-05 tokens_per_second_per_gpu:31.414342552450947 grad_norm:DTensor(local_tensor=8.75, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 22 \| loss:0.03632764890789986 lr:2e-05 tokens_per_second_per_gpu:31.957969478792684 grad_norm:DTensor(local_tensor=6.9375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 23 \| loss:0.032768961042165756 lr:2e-05 tokens_per_second_per_gpu:31.70802074489129 grad_norm:DTensor(local_tensor=15.375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 24 \| loss:0.11937770992517471 lr:2e-05 tokens_per_second_per_gpu:32.078262252964 grad_norm:DTensor(local_tensor=13.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 25 \| loss:0.01887187734246254 lr:2e-05 tokens_per_second_per_gpu:32.6166871421247 grad_norm:DTensor(local_tensor=8.0625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 26 \| loss:0.04282096028327942 lr:2e-05 tokens_per_second_per_gpu:31.148587547185134 grad_norm:DTensor(local_tensor=4.34375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 27 \| loss:0.026883212849497795 lr:2e-05 tokens_per_second_per_gpu:32.18356570564285 grad_norm:DTensor(local_tensor=3.65625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 28 \| loss:0.038033705204725266 lr:2e-05 tokens_per_second_per_gpu:30.388504363190535 grad_norm:DTensor(local_tensor=13.875, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 29 \| loss:0.02629825845360756 lr:2e-05 tokens_per_second_per_gpu:32.53178649500475 grad_norm:DTensor(local_tensor=12.1875, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 30 \| loss:0.05449863150715828 lr:2e-05 tokens_per_second_per_gpu:30.88258585346185 grad_norm:DTensor(local_tensor=7.1875, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 31 \| loss:0.03493243455886841 lr:2e-05 tokens_per_second_per_gpu:31.321164259033 grad_norm:DTensor(local_tensor=6.4375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 32 \| loss:0.026349157094955444 lr:2e-05 tokens_per_second_per_gpu:30.229063666872896 grad_norm:DTensor(local_tensor=14.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 33 \| loss:0.05750144273042679 lr:2e-05 tokens_per_second_per_gpu:33.35898359731796 grad_norm:DTensor(local_tensor=5.65625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 34 \| loss:0.020532047376036644 lr:2e-05 tokens_per_second_per_gpu:30.774099511532626 grad_norm:DTensor(local_tensor=6.15625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 35 \| loss:0.050430480390787125 lr:2e-05 tokens_per_second_per_gpu:31.671692720646266 grad_norm:DTensor(local_tensor=8.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))

	Step 1 \| loss:0.9819899201393127 lr:2e-05 tokens_per_second_per_gpu:7.734699300633465 grad_norm:DTensor(local_tensor=588.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 2 \| loss:0.10344056785106659 lr:2e-05 tokens_per_second_per_gpu:24.03684223214773 grad_norm:DTensor(local_tensor=21.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 3 \| loss:0.14387205243110657 lr:2e-05 tokens_per_second_per_gpu:31.60882780035777 grad_norm:DTensor(local_tensor=38.25, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 4 \| loss:0.10579227656126022 lr:2e-05 tokens_per_second_per_gpu:31.745860419194234 grad_norm:DTensor(local_tensor=16.5, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 5 \| loss:0.04224634915590286 lr:2e-05 tokens_per_second_per_gpu:31.68598594235708 grad_norm:DTensor(local_tensor=9.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 6 \| loss:0.09355802088975906 lr:2e-05 tokens_per_second_per_gpu:31.634265476783963 grad_norm:DTensor(local_tensor=9.5625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 7 \| loss:0.04229458421468735 lr:2e-05 tokens_per_second_per_gpu:31.291392042111845 grad_norm:DTensor(local_tensor=21.25, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 8 \| loss:0.06167937070131302 lr:2e-05 tokens_per_second_per_gpu:31.548174619281138 grad_norm:DTensor(local_tensor=13.3125, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 9 \| loss:0.07292375713586807 lr:2e-05 tokens_per_second_per_gpu:32.565462605175746 grad_norm:DTensor(local_tensor=13.9375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 10 \| loss:0.09643712639808655 lr:2e-05 tokens_per_second_per_gpu:32.86753105233543 grad_norm:DTensor(local_tensor=14.5, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 11 \| loss:0.03650011122226715 lr:2e-05 tokens_per_second_per_gpu:29.188105634872123 grad_norm:DTensor(local_tensor=8.8125, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 12 \| loss:0.08273939788341522 lr:2e-05 tokens_per_second_per_gpu:32.55047762083378 grad_norm:DTensor(local_tensor=3.84375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 13 \| loss:0.06700858473777771 lr:2e-05 tokens_per_second_per_gpu:31.95107795260042 grad_norm:DTensor(local_tensor=8.25, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 14 \| loss:0.03902854397892952 lr:2e-05 tokens_per_second_per_gpu:31.690385620952814 grad_norm:DTensor(local_tensor=6.65625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 15 \| loss:0.05187463015317917 lr:2e-05 tokens_per_second_per_gpu:32.12924024991362 grad_norm:DTensor(local_tensor=12.75, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 16 \| loss:0.09306984394788742 lr:2e-05 tokens_per_second_per_gpu:32.014480291596435 grad_norm:DTensor(local_tensor=16.75, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 17 \| loss:0.06169477477669716 lr:2e-05 tokens_per_second_per_gpu:31.980235291711175 grad_norm:DTensor(local_tensor=9.4375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 18 \| loss:0.05085933953523636 lr:2e-05 tokens_per_second_per_gpu:31.55819874100472 grad_norm:DTensor(local_tensor=5.4375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 19 \| loss:0.027735000476241112 lr:2e-05 tokens_per_second_per_gpu:32.56772044279201 grad_norm:DTensor(local_tensor=12.5625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 20 \| loss:0.02117377519607544 lr:2e-05 tokens_per_second_per_gpu:31.223482446635142 grad_norm:DTensor(local_tensor=9.1875, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 21 \| loss:0.04413335770368576 lr:2e-05 tokens_per_second_per_gpu:31.414342552450947 grad_norm:DTensor(local_tensor=8.75, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 22 \| loss:0.03632764890789986 lr:2e-05 tokens_per_second_per_gpu:31.957969478792684 grad_norm:DTensor(local_tensor=6.9375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 23 \| loss:0.032768961042165756 lr:2e-05 tokens_per_second_per_gpu:31.70802074489129 grad_norm:DTensor(local_tensor=15.375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 24 \| loss:0.11937770992517471 lr:2e-05 tokens_per_second_per_gpu:32.078262252964 grad_norm:DTensor(local_tensor=13.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 25 \| loss:0.01887187734246254 lr:2e-05 tokens_per_second_per_gpu:32.6166871421247 grad_norm:DTensor(local_tensor=8.0625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 26 \| loss:0.04282096028327942 lr:2e-05 tokens_per_second_per_gpu:31.148587547185134 grad_norm:DTensor(local_tensor=4.34375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 27 \| loss:0.026883212849497795 lr:2e-05 tokens_per_second_per_gpu:32.18356570564285 grad_norm:DTensor(local_tensor=3.65625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 28 \| loss:0.038033705204725266 lr:2e-05 tokens_per_second_per_gpu:30.388504363190535 grad_norm:DTensor(local_tensor=13.875, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 29 \| loss:0.02629825845360756 lr:2e-05 tokens_per_second_per_gpu:32.53178649500475 grad_norm:DTensor(local_tensor=12.1875, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 30 \| loss:0.05449863150715828 lr:2e-05 tokens_per_second_per_gpu:30.88258585346185 grad_norm:DTensor(local_tensor=7.1875, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 31 \| loss:0.03493243455886841 lr:2e-05 tokens_per_second_per_gpu:31.321164259033 grad_norm:DTensor(local_tensor=6.4375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 32 \| loss:0.026349157094955444 lr:2e-05 tokens_per_second_per_gpu:30.229063666872896 grad_norm:DTensor(local_tensor=14.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 33 \| loss:0.05750144273042679 lr:2e-05 tokens_per_second_per_gpu:33.35898359731796 grad_norm:DTensor(local_tensor=5.65625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 34 \| loss:0.020532047376036644 lr:2e-05 tokens_per_second_per_gpu:30.774099511532626 grad_norm:DTensor(local_tensor=6.15625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))
	Step 35 \| loss:0.050430480390787125 lr:2e-05 tokens_per_second_per_gpu:31.671692720646266 grad_norm:DTensor(local_tensor=8.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))