学習に用いたデータセットの形式について

#2
by hermit01134 - opened

学習データのフォーマットに関するセクションで,下記リンクが埋め込まれておりましたが,
リンク先で404となっておりました.
https://huggingface.co/inu-ai/dolly-japanese-gpt-1b/blob/main/train_data/databricks-dolly-15k-ja.txt

学習のデータ形式について参考にしたく,再度正しいパスを設定いただくことは可能でしょうか.
宜しくお願い致します.

ご連絡ありがとうございます。
アップロードし忘れておりました。

最終的な学習データはdolly-oasst1-ja.txtになります。
ですが、学習データを更新してしまいましたので、前回のdatabricks-dolly-15k-ja.jsonのみの学習データではなくなってしまいました。

なので作成時のスクリプトと作成手順を記載します。

  1. make_json_from_oasst1_ja.pyスクリプトでoasst1_ja.jsonファイルを作成
  2. oasst1_ja.jsonファイル、databricks-dolly-15k-ja.jsonファイル、ojousamatalkscript200.jsonファイル、zundamon.jsonファイルからmerge_json.pyスクリプトで一つのjsonファイルにマージ
  3. マージしたjsonファイルからmake_train_data_from_merged_json.pyスクリプトでdolly-oasst1-ja.txtを作成

になります。

お手数ですがよろしくお願いします。

inu-ai changed discussion status to closed

Sign up or log in to comment