Cornell-AGI

university

AI & ML interests

Reinforcement Learning from Human Feedback

Organization Card

Community About org cards

Collections 2

models 8

datasets 9

Cornell-AGI/amazon_movie_tv_item_mxbai

Viewer • Updated 9 days ago • 10.5k • 198

Cornell-AGI/amazon_movie_tv_llama_mxbai

Viewer • Updated Oct 23 • 17.1k • 61

Cornell-AGI/REFUEL-Ultrainteract-Llama-3-Armo-iter_2

Viewer • Updated Oct 8 • 116k • 73 • 1

Cornell-AGI/REFUEL-Ultrainteract-Llama-3-Armo-iter_1

Viewer • Updated Oct 8 • 64.6k • 59

Cornell-AGI/REFUEL-UltraInteract-setting-two

Viewer • Updated Oct 5 • 106k • 135

Cornell-AGI/REFUEL-hh-setting-two

Viewer • Updated Oct 5 • 165k • 60

Cornell-AGI/Ultrafeedback-Llama-3-Armo-iter_1

Viewer • Updated Sep 2 • 56.1k • 44

Cornell-AGI/Ultrafeedback-Llama-3-Armo-iter_3

Viewer • Updated Sep 2 • 44.6k • 52 • 1

Cornell-AGI/Ultrafeedback-Llama-3-Armo-iter_2

Viewer • Updated Sep 2 • 55.1k • 43

Cornell-AGI

AI & ML interests

Collections 2

Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF

Cornell-AGI/REFUEL-Llama-3-Armo-iter_1

Cornell-AGI/REFUEL-Llama-3-Armo-iter_2

Cornell-AGI/REFUEL-Ultrainteract-Llama-3-Armo-iter_1

REBEL: Reinforcement Learning via Regressing Relative Rewards

Cornell-AGI/REBEL-Llama-3-Armo-iter_1

Cornell-AGI/REBEL-Llama-3-Armo-iter_2

Cornell-AGI/REBEL-Llama-3-Armo-iter_3

models 8

Cornell-AGI/REFUEL-Llama-3-Armo-iter_2

Cornell-AGI/REFUEL-Llama-3-Armo-iter_1

Cornell-AGI/REBEL-Llama-3-Armo-iter_3

Cornell-AGI/REBEL-Llama-3-Armo-iter_2

Cornell-AGI/REBEL-Llama-3-Armo-iter_1

Cornell-AGI/REBEL-Llama-3-epoch_2

Cornell-AGI/REBEL-Llama-3

Cornell-AGI/REBEL-OpenChat-3.5

datasets 9

Cornell-AGI/amazon_movie_tv_item_mxbai

Cornell-AGI/amazon_movie_tv_llama_mxbai

Cornell-AGI/REFUEL-Ultrainteract-Llama-3-Armo-iter_2

Cornell-AGI/REFUEL-Ultrainteract-Llama-3-Armo-iter_1

Cornell-AGI/REFUEL-UltraInteract-setting-two

Cornell-AGI/REFUEL-hh-setting-two

Cornell-AGI/Ultrafeedback-Llama-3-Armo-iter_1

Cornell-AGI/Ultrafeedback-Llama-3-Armo-iter_3

Cornell-AGI/Ultrafeedback-Llama-3-Armo-iter_2

AI & ML interests

Team members 1

Collections 2

models 8 Sort: Recently updated

datasets 9 Sort: Recently updated

models 8

datasets 9