Workshop

Workshop on Reinforcement Learning Theory

Shipra Agrawal ⋅ Simon Du ⋅ Niao He ⋅ Csaba Szepesvari ⋅ Lin Yang

Project Page

Abstract

While over many years we have witnessed numerous impressive demonstrations of the power of various reinforcement learning (RL) algorithms, and while much progress was made on the theoretical side as well, the theoretical understanding of the challenges that underlie RL is still rather limited. The best-studied problem settings, such as learning and acting in finite state-action Markov decision processes, or simple linear control systems fail to capture the essential characteristics of seemingly more practically relevant problem classes, where the size of the state-action space is often astronomical, the planning horizon is huge, the dynamics is complex, interaction with the controlled system is not permitted, or learning has to happen based on heterogeneous offline data, etc. To tackle these diverse issues, more and more theoreticians with a wide range of backgrounds came to study RL and have proposed numerous new models along with exciting novel developments on both algorithm design and analysis. The workshop's goal is to highlight advances in theoretical RL and bring together researchers from different backgrounds to discuss RL theory from different perspectives: modeling, algorithm, analysis, etc.

Video

Chat is not available.

Schedule

Timezone: America/Los_Angeles

9:00 AM

Invited Speaker: Emilie Kaufmann: On pure-exploration in Markov Decision Processes

Emilie Kaufmann

Video

9:30 AM

Invited Speaker: Christian Kroer: Recent Advances in Iterative Methods for Large-Scale Game Solving

Christian Kroer

Video

Link

10:00 AM

Sparsity in the Partially Controllable LQR

Yonathan Efroni ⋅ Sham Kakade ⋅ Akshay Krishnamurthy ⋅ Cyril Zhang

Video

10:15 AM

On the Theory of Reinforcement Learning with Once-per-Episode Feedback

Niladri Chatterji ⋅ Aldo Pacchiano ⋅ Peter Bartlett ⋅ Michael Jordan

Video

10:30 AM

Implicit Finite-Horizon Approximation for Stochastic Shortest Path

Liyu Chen ⋅ Mehdi Jafarnia ⋅ Rahul Jain ⋅ Haipeng Luo

Video

10:45 AM

Provable Benefits of Actor-Critic Methods for Offline Reinforcement Learning

Andrea Zanette ⋅ Martin Wainwright ⋅ Emma Brunskill

Video

11:00 AM

Invited Speaker: Animashree Anandkumar: Stability-aware reinforcement learning in dynamical systems

Animashree Anandkumar

Video

11:30 AM

Invited Speaker: Shie Mannor: Lenient Regret

Shie Mannor

Video

12:00 PM

Social Session

12:30 PM

Poster Session - I

2:00 PM

Invited Speaker: Bo Dai: Leveraging Non-uniformity in Policy Gradient

Bo Dai

Video

2:30 PM

Invited Speaker: Qiaomin Xie: Reinforcement Learning for Zero-Sum Markov Games Using Function Approximation and Correlated Equilibrium

Qiaomin Xie

Video

3:00 PM

Bad-Policy Density: A Measure of Reinforcement-Learning Hardness

David Abel ⋅ Cameron Allen ⋅ Dilip Arumugam ⋅ D Ellis Hershkowitz ⋅ Michael L. Littman ⋅ Lawson Wong

Video

3:15 PM

Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games

Yu Bai ⋅ Chi Jin ⋅ Huan Wang ⋅ Caiming Xiong

Video

3:30 PM

Solving Multi-Arm Bandit Using a Few Bits of Communication

Osama Hanna ⋅ Lin Yang ⋅ Christina Fragouli

Video

3:45 PM

CRPO: A New Approach for Safe Reinforcement Learning with Convergence Guarantee

Tengyu Xu ⋅ Yingbin LIANG ⋅ Guanghui Lan

Video

4:00 PM

Invited Speaker: Art Owen: Empirical likelihood for reinforcement learning

Video

Link

4:30 PM

Panel Session: Animashree Anandkumar, Christian Kroer, Art Owen, Qiaomin Xie

Video

5:00 PM

Social Session

5:30 PM

Poster Session - II

Finding the Near Optimal Policy via Reductive Regularization in MDPs

Wenhao Yang ⋅ Xiang Li ⋅ Guangzeng Xie ⋅ Zhihua Zhang

Finite Sample Analysis of Average-Reward TD Learning and $Q$-Learning

Sheng Zhang ⋅ Zhe Zhang ⋅ Siva Maguluri

Sample Complexity of Offline Reinforcement Learning with Deep ReLU Networks

Tang Thanh Nguyen ⋅ Sunil Gupta ⋅ Hung Tran-The ⋅ Svetha Venkatesh

Triple-Q: A Model-Free Algorithm for Constrained Reinforcement Learning with Sublinear Regret and Zero Constraint Violation

Honghao Wei ⋅ Xin Liu ⋅ Lei Ying

Subgaussian Importance Sampling for Off-Policy Evaluation and Learning

Alberto Maria Metelli ⋅ Alessio Russo ⋅ Marcello Restelli

Minimax Regret for Stochastic Shortest Path

Alon Cohen ⋅ Yonathan Efroni ⋅ Yishay Mansour ⋅ Aviv Rosenberg

Collision Resolution in Multi-player Bandits Without Observing Collision Information

Eleni Nisioti ⋅ Nikolaos Thomos ⋅ Boris Bellalta ⋅ Anders Jonsson

Marginalized Operators for Off-Policy Reinforcement Learning

Yunhao Tang ⋅ Mark Rowland ⋅ Remi Munos ⋅ Michal Valko

On Overconservatism in Offline Reinforcement Learning

Karush Suri ⋅ Florian Shkurti

Nonstationary Reinforcement Learning with Linear Function Approximation

Huozhi Zhou ⋅ Jinglin Chen ⋅ Lav Varshney ⋅ Ashish Jagmohan

Finite-Sample Analysis of Off-Policy TD-Learning via Generalized Bellman Operators

Zaiwei Chen ⋅ Siva Maguluri ⋅ Sanjay Shakkottai ⋅ Karthikeyan Shanmugam

Derivative-Free Policy Optimization for Linear Risk-Sensitive and Robust Control Design: Implicit Regularization and Sample Complexity

Kaiqing Zhang ⋅ Xiangyuan Zhang ⋅ Bin Hu ⋅ Tamer Basar

When Is Generalizable Reinforcement Learning Tractable?

Dhruv Malik ⋅ Yuanzhi Li ⋅ Pradeep Ravikumar

Finite-Sample Analysis of Off-Policy Natural Actor-Critic With Linear Function Approximation

Zaiwei Chen ⋅ sajad khodadadian ⋅ Siva Maguluri

The Importance of Non-Markovianity in Maximum State Entropy Exploration

Mirco Mutti ⋅ Riccardo De Santi ⋅ Marcello Restelli

Global Convergence of Multi-Agent Policy Gradient in Markov Potential Games

Stefanos Leonardos ⋅ Will Overman ⋅ Ioannis Panageas ⋅ Georgios Piliouras

Efficient Inverse Reinforcement Learning of Transferable Rewards

Giorgia Ramponi ⋅ Alberto Maria Metelli ⋅ Marcello Restelli

Learning to Observe with Reinforcement Learning

Mehmet Koseoglu ⋅ Ece Kunduracioglu ⋅ Ayca Ozcelikkale

Sample Efficient Reinforcement Learning In Continuous State Spaces: A Perspective Beyond Linearity

Dhruv Malik ⋅ Aldo Pacchiano ⋅ Vishwak Srinivasan ⋅ Yuanzhi Li

Bagged Critic for Continuous Control

Payal Bawa

Reinforcement Learning in Linear MDPs: Constant Regret and Representation Selection

Matteo Papini ⋅ Andrea Tirinzoni ⋅ Aldo Pacchiano ⋅ Marcello Restelli ⋅ Alessandro Lazaric ⋅ Matteo Pirotta

A Fully Problem-Dependent Regret Lower Bound for Finite-Horizon MDPs

Andrea Tirinzoni ⋅ Matteo Pirotta ⋅ Alessandro Lazaric

Optimal and instance-dependent oracle inequalities for policy evaluation

Wenlong Mou ⋅ Ashwin Pananjady ⋅ Martin Wainwright

Optimistic Exploration with Backward Bootstrapped Bonus for Deep Reinforcement Learning

Chenjia Bai ⋅ Lingxiao Wang ⋅ Lei Han ⋅ Jianye Hao ⋅ Animesh Garg ⋅ Peng Liu ⋅ Zhaoran Wang

Reward-Weighted Regression Converges to a Global Optimum

Francesco Faccio ⋅ Rupesh Kumar Srivastava ⋅ Jürgen Schmidhuber

Comparison and Unification of Three Regularization Methods in Batch Reinforcement Learning

Sarah Rathnam

Oracle-Efficient Regret Minimization in Factored MDPs with Unknown Structure

Aviv Rosenberg ⋅ Yishay Mansour

Learning Adversarial Markov Decision Processes with Delayed Feedback

Tal Lancewicki ⋅ Aviv Rosenberg ⋅ Yishay Mansour

Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability

Dibya Ghosh ⋅ Jad Rahme ⋅ Aviral Kumar ⋅ Amy Zhang ⋅ Ryan P. Adams ⋅ Sergey Levine

Statistical Inference with M-Estimators on Adaptively Collected Data

Kelly Zhang ⋅ Lucas Janson ⋅ Susan Murphy

Randomized Least Squares Policy Optimization

Haque Ishfaq ⋅ Zhuoran Yang ⋅ Andrei Lupu ⋅ Viet Nguyen ⋅ Lewis Liu ⋅ Riashat Islam ⋅ Zhaoran Wang ⋅ Doina Precup

Gap-Dependent Unsupervised Exploration for Reinforcement Learning

Jingfeng Wu ⋅ Vladimir Braverman ⋅ Lin Yang

Online Learning for Stochastic Shortest Path Model via Posterior Sampling

Mehdi Jafarnia ⋅ Liyu Chen ⋅ Rahul Jain ⋅ Haipeng Luo

Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve Optimism, Embrace Virtual Curvature

Kefan Dong ⋅ Jiaqi Yang ⋅ Tengyu Ma

Linear Convergence of Entropy-Regularized Natural Policy Gradient with Linear Function Approximation

Semih Cayci ⋅ Niao He ⋅ R Srikant

Decentralized Q-Learning in Zero-sum Markov Games

Kaiqing Zhang ⋅ David Leslie ⋅ Tamer Basar ⋅ Asuman Ozdaglar

Model-based Offline Reinforcement Learning with Local Misspecification

Kefan Dong ⋅ Ramtin Keramati ⋅ Emma Brunskill

Nearly Minimax Optimal Regret for Learning Infinite-horizon Average-reward MDPs with Linear Function Approximation

Yue Wu ⋅ Dongruo Zhou ⋅ Quanquan Gu

Learning from an Exploring Demonstrator: Optimal Reward Estimation for Bandits

Wenshuo Guo ⋅ Kumar Agrawal ⋅ Aditya Grover ⋅ Vidya Muthukumar ⋅ Ashwin Pananjady

Model-Free Approach to Evaluate Reinforcement Learning Algorithms

Denis Belomestny ⋅ Ilya Levin ⋅ Eric Moulines ⋅ Alexey Naumov ⋅ Sergey Samsonov ⋅ Veronika Zorina

Provable RL with Exogenous Distractors via Multistep Inverse Dynamics

Yonathan Efroni ⋅ Dipendra Misra ⋅ Akshay Krishnamurthy ⋅ Alekh Agarwal ⋅ John Langford

Learning Pareto-Optimal Policies in Low-Rank Cooperative Markov Games

Abhimanyu Dubey ⋅ Alex `Sandy' Pentland

Optimal Uniform OPE and Model-based Offline Reinforcement Learning in Time-Homogeneous, Reward-Free and Task-Agnostic Settings

Ming Yin ⋅ Yu-Xiang Wang

Bridging The Gap between Local and Joint Differential Privacy in RL

Evrard Garcelon ⋅ Vianney Perchet ⋅ Ciara Pike-Burke ⋅ Matteo Pirotta

Near-Optimal Offline Reinforcement Learning via Double Variance Reduction

Ming Yin ⋅ Yu Bai ⋅ Yu-Xiang Wang

Mixture of Step Returns in Bootstrapped DQN

PoHan Chiang ⋅ Hsuan-Kung Yang ⋅ Zhang-Wei Hong ⋅ Chun-Yi Lee

Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function Approximation

Jiafan He ⋅ Dongruo Zhou ⋅ Quanquan Gu

Provably efficient exploration-free transfer RL for near-deterministic latent dynamics

Yao Liu ⋅ Dipendra Misra ⋅ Miroslav Dudik ⋅ Robert Schapire

Stochastic Shortest Path: Minimax, Parameter-Free and Towards Horizon-Free Regret

Jean Tarbouriech ⋅ Jean Tarbouriech ⋅ Simon Du ⋅ Matteo Pirotta ⋅ Michal Valko ⋅ Alessandro Lazaric

A Spectral Approach to Off-Policy Evaluation for POMDPs

Yash Nair ⋅ Nan Jiang

Mind the Gap: Safely Bridging Offline and Online Reinforcement Learning

Wanqiao Xu ⋅ Kan Xu ⋅ Hamsa Bastani ⋅ Osbert Bastani

Learning Nash Equilibria in Zero-Sum Stochastic Games via Entropy-Regularized Policy Approximation

Yue Guan ⋅ Qifan Zhang ⋅ Panagiotis Tsiotras

Invariant Policy Learning: A Causal Perspective

Sorawit Saengkyongam ⋅ Nikolaj Thams ⋅ Jonas Peters ⋅ Niklas Pfister

A functional mirror ascent view of policy gradient methods with function approximation

Sharan Vaswani ⋅ Olivier Bachem ⋅ Simone Totaro ⋅ Matthieu Geist ⋅ Marlos C. Machado ⋅ Pablo Samuel Castro ⋅ Nicolas Le Roux

Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning

Tengyang Xie ⋅ Nan Jiang ⋅ Huan Wang ⋅ Caiming Xiong ⋅ Yu Bai

Robust online control with model misspecification

Xinyi Chen ⋅ Udaya Ghai ⋅ Elad Hazan ⋅ Alexandre Megretsky

Online Sub-Sampling for Reinforcement Learning with General Function Approximation

Dingwen Kong ⋅ Ruslan Salakhutdinov ⋅ Ruosong Wang ⋅ Lin Yang

Is Pessimism Provably Efficient for Offline RL?

Ying Jin ⋅ Zhuoran Yang ⋅ Zhaoran Wang

Topological Experience Replay for Fast Q-Learning

Zhang-Wei Hong ⋅ Tao Chen ⋅ Yen-Chen Lin ⋅ Joni Pajarinen ⋅ Pulkit Agrawal

Nearly Minimax Optimal Reinforcement Learning for Discounted MDPs

Jiafan He ⋅ Dongruo Zhou ⋅ Quanquan Gu

A general sample complexity analysis of vanilla policy gradient

Rui Yuan ⋅ Robert Gower ⋅ Alessandro Lazaric

The Power of Exploiter: Provable Multi-Agent RL in Large State Spaces

Chi Jin ⋅ Qinghua Liu ⋅ Tiancheng Yu

Bellman Eluder Dimension: New Rich Classes of RL Problems, and Sample-Efficient Algorithms

Chi Jin ⋅ Qinghua Liu ⋅ Sobhan Miryoosefi

Estimating Optimal Policy Value in Linear Contextual Bandits beyond Gaussianity

Jonathan Lee ⋅ Weihao Kong ⋅ Aldo Pacchiano ⋅ Vidya Muthukumar ⋅ Emma Brunskill

A Short Note on the Relationship of Information Gain and Eluder Dimension

Kaixuan Huang ⋅ Sham Kakade ⋅ Jason Lee ⋅ Qi Lei

Convergence and Optimality of Policy Gradient Methods in Weakly Smooth Settings

Shunshi Zhang ⋅ Murat Erdogdu ⋅ Animesh Garg

Almost Optimal Algorithms for Two-player Markov Games with Linear Function Approximation

Zixiang Chen ⋅ Dongruo Zhou ⋅ Quanquan Gu

Improved Estimator Selection for Off-Policy Evaluation

George Tucker

A Boosting Approach to Reinforcement Learning

Nataly Brukhim ⋅ Elad Hazan ⋅ Karan Singh

Learning Stackelberg Equilibria in Sequential Price Mechanisms

Gianluca Brero

Refined Policy Improvement Bounds for MDPs

Mark Gluzman

Meta Learning MDPs with linear transition models

Robert Müller ⋅ Aldo Pacchiano ⋅ Jack Parker-Holder

The best of both worlds: stochastic and adversarial episodic MDPs with unknown transition

Tiancheng Jin ⋅ Longbo Huang ⋅ Haipeng Luo

Identification and Adaptive Control of Markov Jump Systems: Sample Complexity and Regret Bounds

Yahya Sattar ⋅ Zhe Du ⋅ Davoud Ataee Tarzanagh ⋅ Necmiye Ozay ⋅ Laura Balzano ⋅ Samet Oymak

Non-Stationary Representation Learning in Sequential Multi-Armed Bandits

Qin Yuzhen ⋅ Tommaso Menara ⋅ Samet Oymak ⋅ ShiNung Ching ⋅ Fabio Pasqualetti

Value-Based Deep Reinforcement Learning Requires Explicit Regularization

Aviral Kumar ⋅ Rishabh Agarwal ⋅ Aaron Courville ⋅ Tengyu Ma ⋅ George Tucker ⋅ Sergey Levine

Policy Optimization in Adversarial MDPs: Improved Exploration via Dilated Bonuses

Haipeng Luo ⋅ Chen-Yu Wei ⋅ Chung-Wei Lee

On the Sample Complexity of Average-reward MDPs

Yujia Jin

Finite time analysis of temporal difference learning with linear function approximation: the tail averaged case

Gandharv Patil ⋅ Prashanth L.A. ⋅ Doina Precup

Multi-Task Offline Reinforcement Learning with Conservative Data Sharing

Tianhe (Kevin) Yu ⋅ Aviral Kumar ⋅ Yevgen Chebotar ⋅ Karol Hausman ⋅ Sergey Levine ⋅ Chelsea Finn

Provably Efficient Multi-Task Reinforcement Learning with Model Transfer

Chicheng Zhang ⋅ Zhi Wang

Bad-Policy Density: A Measure of Reinforcement-Learning Hardness

David Abel ⋅ Cameron Allen ⋅ Dilip Arumugam ⋅ D Ellis Hershkowitz ⋅ Michael L. Littman ⋅ Lawson Wong

CRPO: A New Approach for Safe Reinforcement Learning with Convergence Guarantee

Tengyu Xu ⋅ Yingbin LIANG ⋅ Guanghui Lan

Sparsity in the Partially Controllable LQR

Yonathan Efroni ⋅ Sham Kakade ⋅ Akshay Krishnamurthy ⋅ Cyril Zhang

Provable Benefits of Actor-Critic Methods for Offline Reinforcement Learning

Andrea Zanette ⋅ Martin Wainwright ⋅ Emma Brunskill

Solving Multi-Arm Bandit Using a Few Bits of Communication

Osama Hanna ⋅ Lin Yang ⋅ Christina Fragouli

Implicit Finite-Horizon Approximation for Stochastic Shortest Path

Liyu Chen ⋅ Mehdi Jafarnia ⋅ Rahul Jain ⋅ Haipeng Luo

On the Theory of Reinforcement Learning with Once-per-Episode Feedback

Niladri Chatterji ⋅ Aldo Pacchiano ⋅ Peter Bartlett ⋅ Michael Jordan

Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games

Yu Bai ⋅ Chi Jin ⋅ Huan Wang ⋅ Caiming Xiong