|
--- |
|
language: |
|
- ko |
|
tags: |
|
- summarization |
|
widget: |
|
- text: '[BOS] 안녕, 나는 20대 남자 유치원 교사야. 특이하지? [SEP] 응, 보통 공대생이 많은데 나는 유아 교육에 관심이 많아. [SEP] 내가 사실 좀 여성스러운 면이 있어서 가야금 연주도 배워보고 싶어. [SEP] 고마워, 하지만 사실 조금 게을러서 배울 수 있을지 모르겠어. [SEP] 어떤 음식? 나는 신 음식을 좋아해. [SEP] 그럼 먹어본 음식 중에 가장 특이한 건 뭐야? 난 고래고기야. [SEP] 아, 나는 코가 예민해서 못할 것 같아. </s>' |
|
inference: |
|
parameters: |
|
max_length: 200 |
|
top_k: 3 |
|
--- |
|
# KoBART persona extraction |
|
|
|
- 개요 : 한 사용자의 일상 대화 채팅으로 해당 사용자의 페르소나를 추출할 수 있는 모델 |
|
- 사용 모델 : [KoBART](https://huggingface.co/gogamza/kobart-base-v2) |
|
- 데이터 : [AIHub 한국어 멀티 세션 대화](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=71630) |
|
- 깃헙 레포 : https://github.com/DonghaeSuh/persona_extraction_model |
|
- 세부 학습 방법에 대한 자세한 설명 : [블로그](https://blog.naver.com/gypsi12/223396121146) |
|
|
|
## v-1과의 차이점 |
|
- [NLPBada/kobart-chat-persona-extraction-v1](https://huggingface.co/NLPBada/kobart-chat-persona-extraction) |
|
- 기존 모델은 존댓말 데이터로 학습이 되었는데, 이를 반말로 변환하여 학습 |
|
- 변환시 다음 모델을 사용 : [squarelike/korean-style-converter-6b](https://huggingface.co/squarelike/korean-style-converter-6b) |
|
|
|
## Validation Score |
|
- BLEU : 0.4405 |
|
| | Rouge-1 | Rouge-2 | Rouge-l | |
|
| --- | --- | --- | --- | |
|
| recall | 0.5319 | 0.3170 | 0.5282 | |
|
| precision | 0.5817 | 0.3388 | 0.5778 | |
|
| f1 | 0.5501 | 0.3266 | 0.5463 | |
|
|
|
|
|
## 예시 |
|
``` |
|
## 입력 ## |
|
['안녕, 나는 20대 여자야. |
|
|
|
나는 봉사활동을 하는게 즐거워.', |
|
|
|
'응 국내 해외 가릴거 없이 봉사활동을 다녀.', |
|
|
|
'아. 나는 콜센터 상담원이야.', |
|
|
|
'응 해외 여행을 자주 가. 간 김에 봉사활동도 하고 그래.', |
|
|
|
'응. 여기 일은 별로 안해.', |
|
|
|
'여기는 야근이 따로 없더라고.', |
|
|
|
' 나도 이만 일 해야겠네.'] |
|
|
|
## 출력 ## |
|
나는 20대 여자이다 나는 봉사활동을 하는 게 즐겁다, |
|
|
|
나는 콜센터 상담원이다, |
|
|
|
나는 해외여행을 자주 간다, |
|
|
|
나는 야근이 없다. |
|
``` |