metadata

language:
  - km
license: apache-2.0
library_name: transformers
tags:
  - hf-asr-leaderboard
  - generated_from_trainer
datasets:
  - openslr
  - google/fleurs
  - seanghay/km-speech-corpus
metrics:
  - wer
pipeline_tag: automatic-speech-recognition
base_model: openai/whisper-small
model-index:
  - name: Whisper Small Khmer Spaced - Seanghay Yath
    results:
      - task:
          type: automatic-speech-recognition
          name: Automatic Speech Recognition
        dataset:
          name: Google FLEURS
          type: google/fleurs
          config: km_kh
          split: test
        metrics:
          - type: wer
            value: 0.6165
            name: Wer

whisper-small-khmer-v2

This model is a fine-tuned version of openai/whisper-small on the openslr, google/fleurs and km-speech-corpus dataset. It achieves the following results on the evaluation set:

Loss: 0.26
Wer: 0.6165

Model description

This model is fine-tuned with Google FLEURS, OpenSLR (SLR42) and km-speech-corpus dataset.

from transformers import pipeline

pipe = pipeline(
    task="automatic-speech-recognition",
    model="seanghay/whisper-small-khmer-v2",
)

result = pipe("audio.wav",
  generate_kwargs={
    "language":"<|km|>",
    "task":"transcribe"},
    batch_size=16
)

print(result["text"])