marinone94
/

whisper-medium-swedish

@@ -165,10 +165,16 @@ class DataTrainingArguments:
     Arguments pertaining to what data we are going to input our model for training and eval.
     """
-    dataset_name: str = field(
         default=None, metadata={"help": "The name of the dataset to use (via the datasets library)."}
     )
-    dataset_config_name: Optional[str] = field(
         default=None, metadata={"help": "The configuration name of the dataset to use (via the datasets library)."}
     )
     text_column: Optional[str] = field(
@@ -529,17 +535,17 @@ def main():
         )
     raw_datasets_features = list(next(iter(raw_datasets.values())).features.keys())
     if data_args.audio_column_name not in raw_datasets_features:
         raise ValueError(
-            f"--audio_column_name '{data_args.audio_column_name}' not found in dataset '{data_args.dataset_name}'. "
             "Make sure to set `--audio_column_name` to the correct audio column - one of "
             f"{', '.join(raw_datasets_features)}."
         )
-    if data_args.text_column_name not in raw_datasets_features:
         raise ValueError(
-            f"--text_column_name {data_args.text_column_name} not found in dataset '{data_args.dataset_name}'. "
             "Make sure to set `--text_column_name` to the correct text column - one of "
             f"{', '.join(raw_datasets_features)}."
         )
@@ -600,7 +606,6 @@ def main():
     max_input_length = data_args.max_duration_in_seconds * feature_extractor.sampling_rate
     min_input_length = data_args.min_duration_in_seconds * feature_extractor.sampling_rate
     audio_column_name = data_args.audio_column_name
-    text_column_name = data_args.text_column_name
     model_input_name = feature_extractor.model_input_names[0]
     do_lower_case = data_args.do_lower_case
     do_remove_punctuation = data_args.do_remove_punctuation
@@ -761,13 +766,13 @@ def main():
         "tasks": "automatic-speech-recognition",
         "tags": "whisper-event",
     }
-    if data_args.dataset_name is not None:
-        kwargs["dataset_tags"] = data_args.dataset_name
         if data_args.dataset_config_name is not None:
-            kwargs["dataset"] = f"{data_args.dataset_name} {data_args.dataset_config_name}"
         else:
-            kwargs["dataset"] = data_args.dataset_name
-        if "common_voice" in data_args.dataset_name:
             kwargs["language"] = data_args.dataset_config_name[:2]
         if model_args.model_index_name is not None:
             kwargs["model_name"] = model_args.model_index_name

     Arguments pertaining to what data we are going to input our model for training and eval.
     """
+    dataset_train_name: str = field(
         default=None, metadata={"help": "The name of the dataset to use (via the datasets library)."}
     )
+    dataset_train_config_name: Optional[str] = field(
+        default=None, metadata={"help": "The configuration name of the dataset to use (via the datasets library)."}
+    )
+    dataset_eval_name: str = field(
+        default=None, metadata={"help": "The name of the dataset to use (via the datasets library)."}
+    )
+    dataset_eval_config_name: Optional[str] = field(
         default=None, metadata={"help": "The configuration name of the dataset to use (via the datasets library)."}
     )
     text_column: Optional[str] = field(
         )
     raw_datasets_features = list(next(iter(raw_datasets.values())).features.keys())
+    text_column_name = data_args.text_column_name.split(",")[0]
     if data_args.audio_column_name not in raw_datasets_features:
         raise ValueError(
+            f"--audio_column_name '{data_args.audio_column_name}' not found in dataset '{data_args.dataset_train_name}'. "
             "Make sure to set `--audio_column_name` to the correct audio column - one of "
             f"{', '.join(raw_datasets_features)}."
         )
+    if text_column_name not in raw_datasets_features:
         raise ValueError(
+            f"--text_column_name {text_column_name} not found in dataset '{data_args.dataset_train_name}'. "
             "Make sure to set `--text_column_name` to the correct text column - one of "
             f"{', '.join(raw_datasets_features)}."
         )
     max_input_length = data_args.max_duration_in_seconds * feature_extractor.sampling_rate
     min_input_length = data_args.min_duration_in_seconds * feature_extractor.sampling_rate
     audio_column_name = data_args.audio_column_name
     model_input_name = feature_extractor.model_input_names[0]
     do_lower_case = data_args.do_lower_case
     do_remove_punctuation = data_args.do_remove_punctuation
         "tasks": "automatic-speech-recognition",
         "tags": "whisper-event",
     }
+    if data_args.dataset_train_name is not None:
+        kwargs["dataset_tags"] = data_args.dataset_train_name
         if data_args.dataset_config_name is not None:
+            kwargs["dataset"] = f"{data_args.dataset_train_name} {data_args.dataset_config_name}"
         else:
+            kwargs["dataset"] = data_args.dataset_train_name
+        if "common_voice" in data_args.dataset_train_name:
             kwargs["language"] = data_args.dataset_config_name[:2]
         if model_args.model_index_name is not None:
             kwargs["model_name"] = model_args.model_index_name