Vikhrmodels
/

Vikhr-Nemo-12B-Instruct-R-21-09-24

Text Generation

Transformers

Safetensors

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

AlexWortega

chameleon-lizard commited on Sep 24

Commit

8f4d38d

•

1 Parent(s): a9364e8

Update README.md (#2)

Browse files

- Update README.md (93686b5fb42eb25602440fa4f3d72dd7a261ed4f)

Co-authored-by: Nikita Sushko <chameleon-lizard@users.noreply.huggingface.co>

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -189,7 +189,7 @@ out_of_domain - вопросы которые специально никак н
 1) Обучили кастомную Reward модель (она пока не будет выкладываться в открытый доступ)
 2) Дедуплицировали и отфилтровали используя RM модель оригинальный датасет Vikhrmodels/GrandMaster-PRO-MAX, получив порядка 10к самых высококачественных и разнообразных диалогов.
 3) Сделали Rejection Sampling с SFT чекпоинтом используя полученный датасет и Reward модель. (Генерировали 7 гипотез и брали только 2 самые худшие как rejected)
-4) Дообучили SFT чекпоинт с помощью нашего метода SMPO используя полученный датасет из этапа 3. SMPO был спроектирован и выбран как метод для повышения стабильности тренировки преференсов в условиях Rejection Samping и достижения нужного margin.
 Реализацию SMPO, rejection sampling и тд можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
@@ -276,4 +276,4 @@ print(final_answer)
 ### Авторы
 - Sergei Bratchikov, [NLP Wanderer](https://t.me/nlpwanderer), Vikhr Team
 - Konstantin Korolev, Vikhr Team
-- Aleksandr Nikolich, Vikhr Team

 1) Обучили кастомную Reward модель (она пока не будет выкладываться в открытый доступ)
 2) Дедуплицировали и отфилтровали используя RM модель оригинальный датасет Vikhrmodels/GrandMaster-PRO-MAX, получив порядка 10к самых высококачественных и разнообразных диалогов.
 3) Сделали Rejection Sampling с SFT чекпоинтом используя полученный датасет и Reward модель. (Генерировали 7 гипотез и брали только 2 самые худшие как rejected)
+4) Дообучили SFT чекпоинт с помощью нашего метода SMPO используя полученный датасет из этапа 3. SMPO был спроектирован и выбран как метод для повышения стабильности тренировки преференсов в условиях Rejection Sampling и достижения нужного margin.
 Реализацию SMPO, rejection sampling и тд можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
 ### Авторы
 - Sergei Bratchikov, [NLP Wanderer](https://t.me/nlpwanderer), Vikhr Team
 - Konstantin Korolev, Vikhr Team
+- Aleksandr Nikolich, Vikhr Team