Text Generation
Transformers
Safetensors
English
Russian
mistral
conversational
text-generation-inference
Inference Endpoints
AlexWortega chameleon-lizard commited on
Commit
8f4d38d
1 Parent(s): a9364e8

Update README.md (#2)

Browse files

- Update README.md (93686b5fb42eb25602440fa4f3d72dd7a261ed4f)


Co-authored-by: Nikita Sushko <chameleon-lizard@users.noreply.huggingface.co>

Files changed (1) hide show
  1. README.md +2 -2
README.md CHANGED
@@ -189,7 +189,7 @@ out_of_domain - вопросы которые специально никак н
189
  1) Обучили кастомную Reward модель (она пока не будет выкладываться в открытый доступ)
190
  2) Дедуплицировали и отфилтровали используя RM модель оригинальный датасет Vikhrmodels/GrandMaster-PRO-MAX, получив порядка 10к самых высококачественных и разнообразных диалогов.
191
  3) Сделали Rejection Sampling с SFT чекпоинтом используя полученный датасет и Reward модель. (Генерировали 7 гипотез и брали только 2 самые худшие как rejected)
192
- 4) Дообучили SFT чекпоинт с помощью нашего метода SMPO используя полученный датасет из этапа 3. SMPO был спроектирован и выбран как метод для повышения стабильности тренировки преференсов в условиях Rejection Samping и достижения нужного margin.
193
 
194
  Реализацию SMPO, rejection sampling и тд можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
195
 
@@ -276,4 +276,4 @@ print(final_answer)
276
  ### Авторы
277
  - Sergei Bratchikov, [NLP Wanderer](https://t.me/nlpwanderer), Vikhr Team
278
  - Konstantin Korolev, Vikhr Team
279
- - Aleksandr Nikolich, Vikhr Team
 
189
  1) Обучили кастомную Reward модель (она пока не будет выкладываться в открытый доступ)
190
  2) Дедуплицировали и отфилтровали используя RM модель оригинальный датасет Vikhrmodels/GrandMaster-PRO-MAX, получив порядка 10к самых высококачественных и разнообразных диалогов.
191
  3) Сделали Rejection Sampling с SFT чекпоинтом используя полученный датасет и Reward модель. (Генерировали 7 гипотез и брали только 2 самые худшие как rejected)
192
+ 4) Дообучили SFT чекпоинт с помощью нашего метода SMPO используя полученный датасет из этапа 3. SMPO был спроектирован и выбран как метод для повышения стабильности тренировки преференсов в условиях Rejection Sampling и достижения нужного margin.
193
 
194
  Реализацию SMPO, rejection sampling и тд можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
195
 
 
276
  ### Авторы
277
  - Sergei Bratchikov, [NLP Wanderer](https://t.me/nlpwanderer), Vikhr Team
278
  - Konstantin Korolev, Vikhr Team
279
+ - Aleksandr Nikolich, Vikhr Team