metadata

license: apache-2.0
tags:
  - generated_from_trainer
metrics:
  - wer
base_model: openai/whisper-large-v3
model-index:
  - name: whisper_final
    results: []

구음장애 환자를 위한 음성인식 모델

프로젝트 정보

재단법인 미래와 소프트웨어와 함께하는 제 3회아이디어 공모전

프로젝트 명

"구음장애 음성 데이터를 활용한 고령 환자의 의사소통 개선방안"

모델 설명

openai/whisper-large-v3에 대한 파인튜닝 모델
본 모델은 "구음장애 음성 데이터를 활용한 고령 환자의 의사소통 개선방안" 프로젝트의 구음장애환자들에 대한 한국어 음성인식 모델임. OpenAI의 Whisper 모델을 파인튜닝 하여 구음장애의 음성적 특성을 반영한 모델을 구축하였음.
오른쪽 "Inference API"를 통해 음성인식 모델을 테스트 해볼 수 있습니다.

학습 모델

Paper: Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR.
URL: https://proceedings.mlr.press/v202/radford23a.html

학습 데이터

AIHub "구음장애 음성 데이터" (KOR)
URL: https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=608

학습 파라미터

learning_rate: 5e-07
train_batch_size: 8
eval_batch_size: 8
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 10
mixed_precision_training: Native AMP

학습 결과

Training Loss	Epoch	Step	Validation Loss	Wer
4.2932	0.09	10	4.6306	16.0442
4.2744	0.18	20	4.1942	16.2348
3.7418	0.27	30	3.7625	15.5107
3.2037	0.36	40	3.5635	14.6723
3.4714	0.45	50	3.4383	14.3674
2.8962	0.55	60	3.3494	14.1768
2.7958	0.64	70	3.2752	18.2927
2.8691	0.73	80	3.2208	19.5884
2.8693	0.82	90	3.1857	20.6174
2.9474	0.91	100	3.1644	20.6555
3.1712	1.0	110	3.1551	20.6174

Framework versions

Transformers 4.38.0.dev0
Pytorch 2.1.0+cu121
Datasets 2.16.1
Tokenizers 0.15.1