Zhaolin Gao's picture

2 1 6

Zhaolin Gao

GitBag

·

https://zhaolingao.github.io/

AI & ML interests

Reinforcement Learning from Human Feedback

Organizations

Collections 1

Papers 3

arxiv:2410.04612

arxiv:2404.16767

arxiv:2402.10886

models 226

GitBag/reasoning_rebel_eta_1e2_lr_3e-7_1731036923

Text Generation • Updated 1 day ago • 5

GitBag/reasoning_rebel_eta_1e4_lr_3e-7_1731046941

Text Generation • Updated 1 day ago • 3

GitBag/reasoning_rebel_eta_1e3_lr_3e-7_1731041913

Text Generation • Updated 1 day ago • 4

GitBag/rloo_ultrainteract_pair_lr_3e-8_555134_1729995637

Text Generation • Updated 13 days ago • 10

GitBag/rloo_ultrainteract_pair_lr_1e-8_555134_1729977727

Text Generation • Updated 13 days ago • 12

GitBag/rloo_6_lr_2e-7_555134_1730042202

Text Generation • Updated 13 days ago • 8

GitBag/rloo_5_lr_2e-7_555134_1730031306

Text Generation • Updated 13 days ago • 10

GitBag/rloo_1_2_h_lr_2e-7_555134_1730036742

Text Generation • Updated 13 days ago • 9

GitBag/rloo_ultrainteract_pair_lr_3e-7_555134_1729824395

Text Generation • Updated 14 days ago • 6

GitBag/rloo_ultrainteract_pair_lr_3e-6_555134_1729859614

Text Generation • Updated 14 days ago • 6

datasets 233

GitBag/llama3-ultrafeedback-reasoning-iter_2-1731046941-ckp_1

Updated about 1 hour ago

GitBag/llama3-ultrafeedback-reasoning-iter_2-1731046941-ckp_0

Updated about 5 hours ago

GitBag/llama3-ultrafeedback-reasoning-iter_2-1731041913

Updated about 9 hours ago

GitBag/llama3-ultrafeedback-reasoning-armo-tokenized_harvard

Viewer • Updated 2 days ago • 53.9k • 11

GitBag/llama3-ultrafeedback-reasoning-armo-tokenized

Viewer • Updated 2 days ago • 53.9k • 9

GitBag/llama-3_1-8b-it-gsm8k

Viewer • Updated 4 days ago • 7.47k • 1

GitBag/llama-3-70b-it-gsm8k

Viewer • Updated 4 days ago • 7.47k • 1

GitBag/gemma-2-27b-it-gsm8k

Viewer • Updated 4 days ago • 7.47k • 1

GitBag/llama-3_1-70b-it-gsm8k

Viewer • Updated 4 days ago • 7.47k • 2

GitBag/gemma-2-9b-it-gsm8k

Viewer • Updated 4 days ago • 7.47k • 1