quinnb
/

whisper-Large-v3-hindi

@@ -17,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 # Whisper Large v3 Trained on Hindi
-This model is a fine-tuned version of [openai/whisper-large-v3](https://huggingface.co/openai/whisper-large-v3) on the Custom Hindi dataset dataset.
 ## Model description
@@ -37,24 +37,17 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 1e-05
-- train_batch_size: 1
-- eval_batch_size: 16
 - seed: 42
-- distributed_type: multi-GPU
-- num_devices: 4
 - gradient_accumulation_steps: 16
 - total_train_batch_size: 64
-- total_eval_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- lr_scheduler_warmup_steps: 250
-- num_epochs: 3.0
 - mixed_precision_training: Native AMP
-### Training results
 ### Framework versions
 - Transformers 4.41.1

 # Whisper Large v3 Trained on Hindi
+This model is a fine-tuned version of [openai/whisper-large-v3](https://huggingface.co/openai/whisper-large-v3) on the Common Voice 17.0 dataset.
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 1e-05
+- train_batch_size: 4
+- eval_batch_size: 64
 - seed: 42
 - gradient_accumulation_steps: 16
 - total_train_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 500
+- training_steps: 20
 - mixed_precision_training: Native AMP
 ### Framework versions
 - Transformers 4.41.1

config.json CHANGED Viewed

@@ -25,7 +25,6 @@
   "encoder_layerdrop": 0.0,
   "encoder_layers": 32,
   "eos_token_id": 50257,
-  "forced_decoder_ids": null,
   "init_std": 0.02,
   "is_encoder_decoder": true,
   "mask_feature_length": 10,
@@ -43,8 +42,7 @@
   "num_mel_bins": 128,
   "pad_token_id": 50256,
   "scale_embedding": false,
-  "suppress_tokens": [],
-  "torch_dtype": "float16",
   "transformers_version": "4.41.1",
   "use_cache": true,
   "use_weighted_layer_sum": false,

   "encoder_layerdrop": 0.0,
   "encoder_layers": 32,
   "eos_token_id": 50257,
   "init_std": 0.02,
   "is_encoder_decoder": true,
   "mask_feature_length": 10,
   "num_mel_bins": 128,
   "pad_token_id": 50256,
   "scale_embedding": false,
+  "torch_dtype": "float32",
   "transformers_version": "4.41.1",
   "use_cache": true,
   "use_weighted_layer_sum": false,

generation_config.json CHANGED Viewed

@@ -48,16 +48,6 @@
   "bos_token_id": 50257,
   "decoder_start_token_id": 50258,
   "eos_token_id": 50257,
-  "forced_decoder_ids": [
-    [
-      1,
-      null
-    ],
-    [
-      2,
-      50360
-    ]
-  ],
   "is_multilingual": true,
   "lang_to_id": {
     "<|af|>": 50327,
@@ -161,6 +151,7 @@
     "<|yue|>": 50358,
     "<|zh|>": 50260
   },
   "max_initial_timestamp_index": 50,
   "max_length": 448,
   "no_timestamps_token_id": 50364,
@@ -257,6 +248,7 @@
     50362,
     50363
   ],
   "task_to_id": {
     "transcribe": 50360,
     "translate": 50359

   "bos_token_id": 50257,
   "decoder_start_token_id": 50258,
   "eos_token_id": 50257,
   "is_multilingual": true,
   "lang_to_id": {
     "<|af|>": 50327,
     "<|yue|>": 50358,
     "<|zh|>": 50260
   },
+  "language": "hindi",
   "max_initial_timestamp_index": 50,
   "max_length": 448,
   "no_timestamps_token_id": 50364,
     50362,
     50363
   ],
+  "task": "transcribe",
   "task_to_id": {
     "transcribe": 50360,
     "translate": 50359

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3808877e186e53d02403c6cdca7d73cd3a22cc5292819e042fa3faa5156d51e0
-size 5615

 version https://git-lfs.github.com/spec/v1
+oid sha256:34facea37d4705d15a4fdc1db99d081ec602439fc3e74151978af6c6ac17b08e
+size 4783