3 13

Qiyuan Zhang

DonJoey

AI & ML interests

None yet

Recent Activity

upvoted a paper about 2 hours ago

MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions

upvoted a paper 2 days ago

RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

upvoted a paper 3 days ago

NILE: Internal Consistency Alignment in Large Language Models

View all activity

Organizations

None yet

DonJoey's activity

upvoted a paper about 2 hours ago

MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions

Paper • 2410.02743 • Published Oct 3 • 6

upvoted a paper 2 days ago

RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

Paper • 2412.14922 • Published 8 days ago • 78

upvoted a paper 3 days ago

NILE: Internal Consistency Alignment in Large Language Models

Paper • 2412.16686 • Published 6 days ago • 6

commented a paper 3 days ago

NILE: Internal Consistency Alignment in Large Language Models

Paper • 2412.16686 • Published 6 days ago • 6 •

upvoted a paper 6 days ago

Qwen2.5 Technical Report

Paper • 2412.15115 • Published 8 days ago • 328

upvoted a paper 9 days ago

Reliable, Reproducible, and Really Fast Leaderboards with Evalica

Paper • 2412.11314 • Published 12 days ago • 2

upvoted 2 papers 24 days ago

O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

Paper • 2411.16489 • Published Nov 25 • 40

From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

Paper • 2411.16594 • Published Nov 25 • 36

upvoted a paper about 1 month ago

TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

Paper • 2411.15124 • Published Nov 22 • 56

upvoted 4 papers 3 months ago

commented 2 papers 3 months ago

RevisEval: Improving LLM-as-a-Judge via Response-Adapted References

Paper • 2410.05193 • Published Oct 7 • 12 •

RevisEval: Improving LLM-as-a-Judge via Response-Adapted References

Paper • 2410.05193 • Published Oct 7 • 12 •

authored 2 papers 3 months ago

Collaborative Performance Prediction for Large Language Models

Paper • 2407.01300 • Published Jul 1 • 2

RevisEval: Improving LLM-as-a-Judge via Response-Adapted References

Paper • 2410.05193 • Published Oct 7 • 12

upvoted a paper 3 months ago

Collaborative Performance Prediction for Large Language Models

Paper • 2407.01300 • Published Jul 1 • 2

New activity in huggingface/HuggingDiscussions 3 months ago

[FEEDBACK] Daily Papers

102

#32 opened 7 months ago by

kramp

updated a model 4 months ago

DonJoey/orca-gpt4-wik-revise

Updated Sep 12 • 4