提供一些数据

#1
by woctordho - opened

我们这边的一些小伙伴也在收集galgame的数据,我们觉得它是很有价值的多模态数据集。目前的版本可以在这里下载,或者用其他IPFS网关:
https://ipfs.io/ipfs/QmSaAze31hxTnLKxcmxHKD4B2VKKYauB8LA7LVMxkEfz54

这是一个7z压缩包,里面是tsv文件。我们主要在收集中文和日文文本,但是还没有进行对齐。如果你觉得翻译需要对齐的语料,欢迎来帮忙OvO

我们打算在一个合适的时机把数据集发布成git repo。目前要联系我们的话,可以看我们的主页:
https://huggingface.co/Synthia/ChatGalRWKV

另外如果有人需要的话,这位老哥整理了很多英文数据:
https://huggingface.co/datasets/alpindale/visual-novels

Sign up or log in to comment