ICML 2026 Schedule

Oral

Tue Jul 07 06:00 PM -- 06:15 PM (PDT) @ HALL B2 None

Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling

In Oral 3B Reinforcement Learning: RLHF and Post-training

Zhibin Duan ⋅ Guowei Rong ⋅ Zhuo Li ⋅ Bo Chen ⋅ Mingyuan Zhou ⋅ Dandan Guo

[ OpenReview]

Oral

Tue Jul 07 06:15 PM -- 06:30 PM (PDT) @ HALL B2 None

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

In Oral 3B Reinforcement Learning: RLHF and Post-training

Rulin Shao ⋅ Akari Asai ⋅ Shannon Shen ⋅ Hamish Ivison ⋅ Varsha Kishore ⋅ Jingming Zhuo ⋅ Xinran Zhao ⋅ Molly Park ⋅ Samuel Finlayson ⋅ David Sontag ⋅ Tyler Murray ⋅ Sewon Min ⋅ Pradeep Dasigi ⋅ Luca Soldaini ⋅ Faeze Brahman ⋅ Scott Yih ⋅ Sherry Wu ⋅ Luke Zettlemoyer ⋅ Yoon Kim ⋅ Hannaneh Hajishirzi ⋅ Pang Wei Koh

[ OpenReview]

Oral

Tue Jul 07 06:30 PM -- 06:45 PM (PDT) @ HALL B2 None

Simultaneous Speech-to-Speech Translation Without Aligned Data

In Oral 3B Reinforcement Learning: RLHF and Post-training

Tom Labiausse ⋅ Romain Fabre ⋅ Yannick Estève ⋅ Alexandre Défossez ⋅ Neil Zeghidour

[ OpenReview]

Oral

Tue Jul 07 06:45 PM -- 07:00 PM (PDT) @ HALL B2 None

Video-Based Optimal Transport for Feedback-Efficient Offline Preference-Based Reinforcement Learning

In Oral 3B Reinforcement Learning: RLHF and Post-training

Minh-Tung Luu ⋅ Hwanhee Kim ⋅ Younghwan Lee ⋅ Chang D. Yoo

[ OpenReview]