学習に用いたデータセットの形式について
#2
by
hermit01134
- opened
学習データのフォーマットに関するセクションで,下記リンクが埋め込まれておりましたが,
リンク先で404となっておりました.
https://huggingface.co/inu-ai/dolly-japanese-gpt-1b/blob/main/train_data/databricks-dolly-15k-ja.txt
学習のデータ形式について参考にしたく,再度正しいパスを設定いただくことは可能でしょうか.
宜しくお願い致します.
ご連絡ありがとうございます。
アップロードし忘れておりました。
最終的な学習データはdolly-oasst1-ja.txtになります。
ですが、学習データを更新してしまいましたので、前回のdatabricks-dolly-15k-ja.jsonのみの学習データではなくなってしまいました。
なので作成時のスクリプトと作成手順を記載します。
- make_json_from_oasst1_ja.pyスクリプトでoasst1_ja.jsonファイルを作成
- oasst1_ja.jsonファイル、databricks-dolly-15k-ja.jsonファイル、ojousamatalkscript200.jsonファイル、zundamon.jsonファイルからmerge_json.pyスクリプトで一つのjsonファイルにマージ
- マージしたjsonファイルからmake_train_data_from_merged_json.pyスクリプトでdolly-oasst1-ja.txtを作成
になります。
お手数ですがよろしくお願いします。
inu-ai
changed discussion status to
closed