RWKV-x060-14B-CoT
モデル概要
このモデルは、RWKV-x060-14B-JPNをベースに、Chain-of-Thought推論能力の強化を目指してファインチューニングを行ったモデルです。
スペック
- アーキテクチャ: RWKV x060 Finch
- モデル構造: 61層 4096次元
- パラメータ数: 14B(140億パラメータ)
- 最大コンテキスト長: 32k
- ベースモデル: RWKV-x060-14B-JPN
トレーニング詳細
- 手法: Bone法(Block Affine Transformation)によるPEFTトレーニング
- Block Size: 256
- モデル形態: アダプターのみ
- トレーニング特徴:
- RWKV-LM-RLHFのLoss SmoothingとSFT、BPTTを組み合わせた32kコンテキストトレーニング
- Chain-of-Thought推論強化のための特殊データセット使用
データセット
- サイズ: 100kペア
- 内容:
- 日本語・英語の混合データ
- 会話
- プログラミングコード
- 翻訳タスク
- Chain-of-Thought推論タスク
使用方法
以下のいずれかの方法で利用可能です:
- RWKV-LM-RLHFレポジトリを使用してBoneマージを実行
- 最新のRWKV-Inferを使用して動的マージ推論を実行
- エンドトークンを'\n\n\x17'としてください。デフォルトの'\n\n'では生成が不安定になります
制限事項・注意点
- 実験的なモデルのため、推論の安定性が完全には保証されていません
- 予期せぬ挙動が発生する可能性があります
- 継続的な改善を行っているため、フィードバックを歓迎します
ライセンス
Apache License 2.0
謝辞
このモデルの開発にあたり、RWKV-x060-14B-JPNベースモデル、RWKVコミュニティの支援に感謝いたします。
このモデルに関する質問やフィードバックは、Issues機能をご利用ください。 この文章はRWKV-x060-14B-CoTで生成しました。