|
AI-Large.pyがトレーニングコードです。 |
|
ファインチューニング済みデータがないので、 |
|
ファインチューニング関数を用意しています。 |
|
|
|
警告:FT含め学習はメインメモリを128GB積んでいないマシンを推奨。ブルスク出すかもしれません。 |
|
注意:GPUを7台使用する設定になっています。もし変更したい場合は"cuda:n"となっている所を探し、希望のGPU番号、またはcpuを選択してください。 |
|
|
|
使用ライブラリ |
|
|
|
|
|
import MeCab |
|
import unidic |
|
import torch |
|
import copy |
|
import time |
|
import matplotlib.pyplot as plt |
|
import re |
|
import math |
|
import numpy as np |
|
from gensim.models import Word2Vec |
|
import pickle |
|
import threading |
|
import sentencepiece |
|
|
|
# ファインチューニングの方法 |
|
まず、「train_data.txt」と言うファイルを用意します。 |
|
その中に、ファインチューニング用のデータを用意してください。 |
|
train_data.txtは、改行ごとに別の時系列として扱われます。 |
|
train_data.txtを用意したら、AI-Large.pyを実行してください。 |
|
実行すると、DataMake()関数により、学習データがベクトル化されます。 |
|
次ににFineturning()を実行されます。 |
|
これで学習が行われます。 |
|
学習が始まると出力サンプルが表示されるので、ある程度の日本語になったらctrl+cを使い止めましょう。 |
|
最初は、50epochと表示される位でctrl+cを実行することをお勧めします。 |
|
これでfineturning.pthが生成されます。 |
|
最後に、Fineturning()とDataMake()をコメントアウトし、Predict()を実行すると、使用できます。 |
|
「Q>」と表示されるので、そこに入力を入れましょう。 |
|
そうすると「A>」の横に出力が出るはずです。(FT不足だと、何も出力されない場合があります。) |
|
|