metadata
language:
- zh
- en
- ja
- ko
pipeline_tag: fill-mask
前言
- 一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列,在最开始是为了 KeywordGacha 而创造的
- KeywordGacha 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等内容文本中实体词语表的翻译辅助工具
- 在 KeywordGacha 的开发过程中,我们发现社区中并没有满足需求的语言模型模型,所以自己动手创造了一个 :)
综述
- 通过针对性的预训练,该模型系列对
Web小说
、出版小说
、游戏脚本
、漫画脚本
等故事性文本内容具有极好的理解能力 - 特别是
剑与魔法
、超能力战斗
、异世界冒险
等常见的 ACG 题材的故事内容 - AND NSFW IS OK
- 支持多种语言
- 目前已针对以下语言进行了预训练:
中文
、英文
、日文
、韩文
- 未来计划针对以下语言进行预训练:
俄文
- 目前我们提供以下预训练模型:
模型 | 版本 | 说明 |
---|---|---|
keyword_gacha_base_multilingual | 20240912 | 基础模型 |
keyword_gacha_ner_multilingual | 20240912 | 预训练实体识别模型 |
基础模型 Base
- 当前的基础模型是在 FacebookAI/xlm-roberta-base 进行继续预训练得到的
- 使用了总计约 500M Token 的语料(日语 200M、其他语言 100M)训练了2个 EPOCH
- 训练语料中包含
Web 小说
、文库本小说
、AVG 游戏脚本
、RPG 游戏脚本
等不同种类的文本 - 训练参数如下:
- Batch Size : 8
- Gradient Accumulation Steps : 16
- Total Batch Size : 128
- Learing Rate : 1e-5
- Maximum Sequence Length : 256
- Optimizer : AdamW_8bit
- Warnup Ratio : 0.1
- Train Precision : BF16
- 使用说明
- 暂无,基础模型一般不直接使用,需针对具体下游任务进行微调后使用
实体识别模型 NER
- 在 Base 模型的基础上,使用了大约 40000 条合成语料进行 NER 任务的微调
- 与 KeywordGacha 搭配使用时,与人工校对的实体词语表进行对比,可以达到
90%-95%
的实际准确率(并非 F1 Score 这种理论上的指标) - 训练参数如下:
- Batch Size : 32
- Gradient Accumulation Steps : 1
- Total Batch Size : 32
- Learing Rate : 2e-5
- Maximum Sequence Length : 256
- Optimizer : AdamW
- Warnup Ratio : 0.1
- Train Precision : BF16
- Max Train Epochs : 20
- 使用说明
- 待补充
其他
- 训练脚本 Github