budecosystem
/

code-millenials-8b

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

dittops commited on Apr 21

Commit

3be3888

•

1 Parent(s): 85d673e

Update README.md

Files changed (1) hide show

README.md +4 -4

README.md CHANGED Viewed

@@ -85,20 +85,20 @@ print(tokenizer.decode(sample[0]))
 ## Training details
-The model is trained of 16 A100 80GB for approximately 50hrs.
 | Hyperparameters              | Value  |
 | :----------------------------| :-----: |
-| per_device_train_batch_size  | 16      |
 | gradient_accumulation_steps  | 1      |
 | epoch | 3 |
-| steps | 2157 |
 | learning_rate                | 2e-5   |
 | lr schedular type | cosine |
 | warmup ratio | 0.1 |
 | optimizer                    | adamw  |
 | fp16                         | True   |
-| GPU                          | 16 A100 80GB |
 ### Important Note

 ## Training details
+The model is trained of 8 A100 80GB for approximately 50hrs.
 | Hyperparameters              | Value  |
 | :----------------------------| :-----: |
+| per_device_train_batch_size  | 8      |
 | gradient_accumulation_steps  | 1      |
 | epoch | 3 |
+| steps | 8628 |
 | learning_rate                | 2e-5   |
 | lr schedular type | cosine |
 | warmup ratio | 0.1 |
 | optimizer                    | adamw  |
 | fp16                         | True   |
+| GPU                          | 8 A100 80GB |
 ### Important Note