Runze Liu's picture

5 21 4

Runze Liu

RyanLiu112

·

https://ryanliu112.github.io

AI & ML interests

LLM, RL

Recent Activity

upvoted a paper 20 days ago

GARDO: Reinforcing Diffusion Models without Reward Hacking

upvoted an article 29 days ago

Deriving the PPO Loss from First Principles

upvoted a paper about 1 month ago

Step-DeepResearch Technical Report

View all activity

Organizations

upvoted a paper 20 days ago

GARDO: Reinforcing Diffusion Models without Reward Hacking

Paper • 2512.24138 • Published 27 days ago • 29

upvoted an article 29 days ago

Article

Deriving the PPO Loss from First Principles

Dec 25, 2025

•

35

upvoted a paper about 1 month ago

Step-DeepResearch Technical Report

Paper • 2512.20491 • Published Dec 23, 2025 • 85

upvoted a collection about 1 month ago

Physics of Language Models: Part 4.2

17 items • Updated Dec 22, 2025 • 2

upvoted a paper about 1 month ago

Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

Paper • 2512.19673 • Published Dec 22, 2025 • 63

upvoted a collection about 1 month ago

"Physics of Language Models" series

7 items • Updated Dec 22, 2025 • 52

upvoted a paper about 1 month ago

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

Paper • 2512.07783 • Published Dec 8, 2025 • 38

updated a model about 2 months ago

RyanLiu112/1.5a_first2

2B • Updated Dec 8, 2025 • 1

published a model about 2 months ago

RyanLiu112/1.5a_first2

2B • Updated Dec 8, 2025 • 1

updated a model about 2 months ago

RyanLiu112/1.5a_woabf_480

2B • Updated Dec 8, 2025

published a model about 2 months ago

RyanLiu112/1.5a_woabf_480

2B • Updated Dec 8, 2025

updated a model about 2 months ago

RyanLiu112/1.5a_wodiff_420

2B • Updated Dec 8, 2025

published a model about 2 months ago

RyanLiu112/1.5a_wodiff_420

2B • Updated Dec 8, 2025

updated a model about 2 months ago

RyanLiu112/1.5a_atb_740

2B • Updated Dec 7, 2025

published a model about 2 months ago

RyanLiu112/1.5a_atb_740

2B • Updated Dec 7, 2025

updated a model about 2 months ago

RyanLiu112/1.5t_700

2B • Updated Dec 7, 2025

published a model about 2 months ago

RyanLiu112/1.5t_700

2B • Updated Dec 7, 2025

updated a model about 2 months ago

RyanLiu112/1.5g_740

2B • Updated Dec 7, 2025

published a model about 2 months ago

RyanLiu112/1.5g_740

2B • Updated Dec 7, 2025

updated a dataset 3 months ago

RyanLiu112/a_data

Viewer • Updated Oct 24, 2025 • 184k • 184