Edit model card

모델 구성

  • GPT2(Flax, Pytorch)
  • 12 Layers, 768 hidden dim, 3072 intermediate, 12 heads, 51200 vocab size
  • 1024 max_seq_len
  • 파라미터 수: 125M

성능 벤치마크

학습 환경 및 하이퍼파라미터

  • TPU V2-8
  • Learning Rate: 6e-4, Batch Size: 512(=64 accum x 8 devices), Scheduler: Linear, WarmUp: 1000 step
  • Optimizer: AdamW(adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01)
  • Training Steps: 43247 (3 epoch)
  • 학습 토큰 수: 21.11B (43247 * 512 * 1024seq / 1024^3)
  • 학습 기간: 2023/1/17 ~ 2023/1/19 (2일 6시간)
  • 학습 코드: https://github.com/HeegyuKim/language-model

학습에 사용한 데이터

  • AIHub SNS 대화(730MB)
  • AIHub 구어체(422MB)
  • AIHub 도서(1.6MB)
  • AIHub 대규모 웹데이터 기반 한국어 말뭉치(12GB)
  • 한국어 위키(867MB)
  • 나무위키(6.4GB)
  • 국립국어원 메신저 대화(21MB)
  • 국립국어원 일상대화 말뭉치(23MB)
  • 국립국어원 문어 말뭉치(3.2GB)
  • 국립국어원 구어 말뭉치(1.1GB)
  • 국립국어원 신문 말뭉치(~2022, 17GB)
  • 청와대 국민청원(525MB)

데이터셋 크기는 전처리한 jsonl파일을 기준으로 함. 총 토큰 수는 약 7B임

사용 예시

from transformers import pipeline
model_name = "heegyu/ajoublue-gpt2-base"
pipe = pipeline('text-generation', model=model_name)
print(pipe("안녕하세요", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128))
print(pipe("오늘 정부 발표에 따르면, ", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128))
print(pipe("싸늘하다. 가슴에 비수가 날아와 꽂힌다. ", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128, min_length=64))

결과

[{'generated_text': '안녕하세요 안 좋은 기억 많이 남으셨을 것 같아요.\n아니 이렇게까지 제가 말씀을 드렸었는데 또 이런 거였어요? 왜 하필이면 저는 어렸을 때 그~ 중학교 1학년 일 학기 때부터 저를 막 이렇게 쳐다보는 그런 모습이 습관이 됐고, 그러면서 점점 그때부터는 굉장히 내성적으로 변하게 됐어요. 저도 되게 내성적이고 그래서 처음에는 막 말을 하고 가만히 있어도 너무 웃다가 갑자기 그러면은 계속 얼굴이 빨개지면서 막 그런 모습이었거든요. 그래가지고 이제 그때부터 내성적인 성격이 조금 바뀌게 되면은 사실 어~ 항상 뭔가 좀 그렇게 말 할 때 안 웃는 거예요. 그러다 보니까 인제 막 어~ 화를 내서 막 다 풀어가지고 막 웃고 있는데 그냥 그게 나중에'}]
[{'generated_text': '오늘 정부 발표에 따르면, 車·조선 등 기간산업체들의 올해 1분기(1~3월) 생산자물가지수(ppi)는 전년 동기 대비 7.6% 상승했다. 4월 소비자물가는 전년 동기 대비 2.2%, 농수산물이 5.5% 올랐다.. 수입상품지수는 5월 3년 이상 장류를 제외한 채품 기준 전 품목을 대상으로 작성되며 이달 말 공표예정이다..'}]
[{'generated_text': '싸늘하다. 가슴에 비수가 날아와 꽂힌다. 改의 경우, 아군이 적군일 경우에 사용 가능한 스킬.\n초기의 경우, 리젠이 없고 공격력도 크게 떨어진다. 1:1에 특화된 캐릭터나 다른 스킬들처럼 대미지가 높지 않다. 그러나 2타 히트 시 타격판정이 있어서 2히트 후에는 평타 판정과 함께 추가타가 가능해, 공격력이 좀 더 높아진다. 3타를 맞으면 바로 4타로 이어진다. 따라서 이 기술을 맞고 도망칠 수 있으며 만약 2타에서 2번을 맞고도 반격하면 도망친다(...), 그래도 공격력 자체는 매우 높고 리치는 짧아 잡기 쉽다. 딜레이가 없는 대신 연타가 가능하기에 잡기전에서'}]```

주의사항

이 모델의 학습 데이터는 각종 차별/혐오 데이터가 포함됐을 수 있으며, 별도의 제거작업을 진행하지 않았습니다. 따라서 모델이 생성하는 문장에 특정 인물이나 인종, 성별, 장애에 따른 차별/혐오발언을 생성할 수 있습니다.

Downloads last month
2,070
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Datasets used to train heegyu/ajoublue-gpt2-base