ICML 2024 Schedule

Oral

Tue Jul 23 05:30 PM -- 05:45 PM (KST) @ Hall C 1-3 None

Debating with More Persuasive LLMs Leads to More Truthful Answers

Akbir Khan · John Hughes · Dan Valentine · Laura Ruis · Kshitij Sachan · Ansh Radhakrishnan · Edward Grefenstette · Samuel Bowman · Tim Rocktäschel · Ethan Perez

[ Slides]

Oral

Tue Jul 23 05:45 PM -- 06:00 PM (KST) @ Hall C 1-3 None

Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision

In Oral 1A Alignment

Collin Burns · Pavel Izmailov · Jan Kirchner · Bowen Baker · Leo Gao · Leopold Aschenbrenner · Yining Chen · Adrien Ecoffet · Manas Joglekar · Jan Leike · Ilya Sutskever · Jeffrey K Wu

Oral

Tue Jul 23 06:00 PM -- 06:15 PM (KST) @ Hall C 1-3 None

A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity

In Oral 1A Alignment

Andrew Lee · Xiaoyan Bai · Itamar Pres · Martin Wattenberg · Jonathan K. Kummerfeld · Rada Mihalcea

Oral

Tue Jul 23 06:15 PM -- 06:30 PM (KST) @ Hall C 1-3 None

Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

In Oral 1A Alignment

Shusheng Xu · Wei Fu · Jiaxuan Gao · Wenjie Ye · Weilin Liu · Zhiyu Mei · Guangju Wang · Chao Yu · Yi Wu