neavo's picture
Update README.md
3370315 verified
metadata
language:
  - zh
  - en
  - ja
  - ko
pipeline_tag: fill-mask

前言

  • 一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列,在最开始是为了 KeywordGacha 而创造的
  • KeywordGacha 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等内容文本中实体词语表的翻译辅助工具
  • KeywordGacha 的开发过程中,我们发现社区中并没有满足需求的语言模型模型,所以自己动手创造了一个 :)

综述

  • 通过针对性的预训练,该模型系列对 Web小说出版小说游戏脚本漫画脚本 等故事性文本内容具有极好的理解能力
  • 特别是 剑与魔法超能力战斗异世界冒险 等常见的 ACG 题材的故事内容
  • AND NSFW IS OK
  • 支持多种语言
  • 目前已针对以下语言进行了预训练:中文英文日文韩文
  • 未来计划针对以下语言进行预训练:俄文
  • 目前我们提供以下预训练模型:
模型 版本 说明
keyword_gacha_base_multilingual 20240912 基础模型
keyword_gacha_ner_multilingual 20240912 预训练实体识别模型

基础模型 Base

  • 当前的基础模型是在 FacebookAI/xlm-roberta-base 进行继续预训练得到的
  • 使用了总计约 500M Token 的语料(日语 200M、其他语言 100M)训练了2个 EPOCH
  • 训练语料中包含 Web 小说文库本小说AVG 游戏脚本RPG 游戏脚本 等不同种类的文本
  • 训练参数如下:
    • Batch Size : 8
    • Gradient Accumulation Steps : 16
    • Total Batch Size : 128
    • Learing Rate : 1e-5
    • Maximum Sequence Length : 256
    • Optimizer : AdamW_8bit
    • Warnup Ratio : 0.1
    • Train Precision : BF16
  • 使用说明
    • 暂无,基础模型一般不直接使用,需针对具体下游任务进行微调后使用

实体识别模型 NER

  • 在 Base 模型的基础上,使用了大约 40000 条合成语料进行 NER 任务的微调
  • KeywordGacha 搭配使用时,与人工校对的实体词语表进行对比,可以达到 90%-95% 的实际准确率(并非 F1 Score 这种理论上的指标)
  • 训练参数如下:
    • Batch Size : 32
    • Gradient Accumulation Steps : 1
    • Total Batch Size : 32
    • Learing Rate : 2e-5
    • Maximum Sequence Length : 256
    • Optimizer : AdamW
    • Warnup Ratio : 0.1
    • Train Precision : BF16
    • Max Train Epochs : 20
  • 使用说明
    • 待补充

其他