Jingcheng Hu's picture

Jingcheng Hu

reign12

·

AI & ML interests

Foundation models and alignment

Recent Activity

liked a Space 3 days ago

Qwen/QwQ-32B-preview

upvoted a paper 13 days ago

Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding

View all activity

Organizations

reign12's activity

New activity in Xwin-LM/Xwin-Math-70B-V1.0 6 months ago

Add paper link

#3 opened 6 months ago by

New activity in Xwin-LM/Xwin-LM-70B-V0.1 about 1 year ago

33B when?

#8 opened about 1 year ago by

New activity in OpenAssistant/reward-model-deberta-v3-large-v2 about 1 year ago

Question about evaluating this reward model on Anthropic/hh-rlhf

#4 opened over 1 year ago by

New activity in OpenAssistant/oasst-rm-2-pythia-6.9b-epoch-1 about 1 year ago

More details on training data for reward model

#2 opened about 1 year ago by

New activity in Dahoas/filtered-SHP over 1 year ago

How is this dataset filtered?

#1 opened over 1 year ago by

New activity in YeungNLP/firefly-train-1.1M over 1 year ago

大神是怎么收集这么多高质量的数据的啊

#1 opened over 1 year ago by