neavo
/

keyword_gacha_base_multilingual

Model card Files Files and versions Community

Edit model card

前言

一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列，在最开始是为了 KeywordGacha 而创造的
KeywordGacha 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等内容文本中实体词语表的翻译辅助工具
在 KeywordGacha 的开发过程中，我们发现社区中并没有满足需求的语言模型模型，所以自己动手创造了一个：）

综述

通过针对性的预训练，该模型系列对 Web小说、出版小说、游戏脚本、漫画脚本 等故事性文本内容具有极好的理解能力
特别是 剑与魔法、超能力战斗、异世界冒险 等常见的 ACG 题材的故事内容
AND NSFW IS OK
支持多种语言
目前已针对以下语言进行了预训练：中文、英文、日文、韩文
未来计划针对以下语言进行预训练：俄文
目前我们提供以下预训练模型：

模型	版本	说明
keyword_gacha_base_multilingual	20240826	基础模型
keyword_gacha_ner_multilingual	20240826	预训练实体识别模型

基础模型 Base

当前的基础模型是在 FacebookAI/xlm-roberta-base 进行继续预训练得到的
针对每种语言使用了大约 100M Token 语料进行了 2 个 epoch 继续预训练
总训练语料约 400M Tokens，总训练量约为 800M Tokens
训练语料中包含 Web 小说、文库本小说、AVG 游戏脚本、RPG 游戏脚本 等不同种类的文本
训练参数如下：
- Batch Size : 12
- Gradient Accumulation Steps : 10
- Total Batch Size : 120
- Learing Rate : 2e-5
- Maximum Sequence Length : 256
- Optimizer : AdamW_8bit
- Warnup Ratio : 0.1
- Train Precision : BF16
使用说明
- 暂无，基础模型一般不直接使用，需针对具体下游任务进行微调后使用

实体识别模型 NER

在 Base 模型的基础上，使用了大约 40000 条合成语料进行 NER 任务的微调
与 KeywordGacha 搭配使用时，与人工校对的实体词语表进行对比，可以达到 90%-95% 的实际准确率（并非 F1 Score 这种理论上的指标）
训练参数如下：
- Batch Size : 32
- Gradient Accumulation Steps : 2
- Total Batch Size : 64
- Learing Rate : 2e-5
- Maximum Sequence Length : 256
- Optimizer : AdamW_8bit
- Warnup Ratio : 0.1
- Train Precision : BF16
- Max Train Epochs : 24
使用说明
- 待补充

其他

训练脚本 Github

Downloads last month: 38

Inference Examples

Inference API (serverless) is not available, repository is disabled.