RLHFlow

university

RLHFlow

AI & ML interests

Workflow of Reinforcement Learning from Human Feedback (RLHF). Blog: https://rlhflow.github.io/

Collections 8

models 19

datasets 64

RLHFlow/DS-and-Mistral-PRM-Data

Viewer • Updated 19 days ago • 526k • 32

RLHFlow/Deepseek-MATH500-Test

Viewer • Updated 19 days ago • 500 • 111

RLHFlow/Mistral-MATH500-Test

Viewer • Updated 19 days ago • 500 • 154

RLHFlow/Deepseek-ORM-Data

Viewer • Updated 19 days ago • 253k • 40

RLHFlow/Deepseek-PRM-Data

Viewer • Updated 19 days ago • 253k • 37

RLHFlow/Mistral-ORM-Data

Viewer • Updated 19 days ago • 273k • 39

RLHFlow/Mistral-PRM-Data

Viewer • Updated 19 days ago • 273k • 123 • 5

RLHFlow/Mistral-MATH500-Test-Result-of-Mistral-PRM

Viewer • Updated 20 days ago • 500 • 13

RLHFlow/Mistral-MATH500-Test-Result-of-Mistral-ORM

Viewer • Updated 20 days ago • 500 • 23

RLHFlow/Mistral-GSM8K-Test-Result-of-Mistral-ORM

Viewer • Updated 20 days ago • 1.32k • 22

RLHFlow

AI & ML interests

Collections 8

RLHFlow/Mistral-PRM-Data

RLHFlow/Mistral-GSM8K-Test

RLHFlow/Mistral-MATH500-Test

RLHFlow/Llama3.1-8B-PRM-Mistral-Data

RLHFlow/UltraFeedback-preference-standard

RLHFlow/Helpsteer-preference-standard

RLHFlow/HH-RLHF-Helpful-standard

RLHFlow/Orca-distibalel-standard

models 19

RLHFlow/Llama3.1-8B-PRM-Mistral-Data

RLHFlow/Llama3.1-8B-PRM-Deepseek-Data

RLHFlow/Llama3.1-8B-ORM-Deepseek-Data

RLHFlow/Llama3.1-8B-ORM-Mistral-Data

RLHFlow/Llama3-v2-iterative-DPO-iter3

RLHFlow/Llama3-v2-iterative-DPO-iter2

RLHFlow/Llama3-v2-iterative-DPO-iter1

RLHFlow/LLaMA3-SFT-v2

RLHFlow/Llama3-SFT-v2.0-epoch1

RLHFlow/Llama3-SFT-v2.0-epoch2

datasets 64

RLHFlow/DS-and-Mistral-PRM-Data

RLHFlow/Deepseek-MATH500-Test

RLHFlow/Mistral-MATH500-Test

RLHFlow/Deepseek-ORM-Data

RLHFlow/Deepseek-PRM-Data

RLHFlow/Mistral-ORM-Data

RLHFlow/Mistral-PRM-Data

RLHFlow/Mistral-MATH500-Test-Result-of-Mistral-PRM

RLHFlow/Mistral-MATH500-Test-Result-of-Mistral-ORM

RLHFlow/Mistral-GSM8K-Test-Result-of-Mistral-ORM

AI & ML interests

Team members 6

Collections 8

models 19 Sort: Recently updated

datasets 64 Sort: Recently updated

models 19

datasets 64