ICML 2024 Schedule

Filter Events

SUN 21 JUL

10 a.m.

Registration

(ends 5:00 PM)

11 a.m.

Vienna Info Desk

(duration 6.0 hr)

1 p.m.

Expo Talk Demo:

AudioSeal: Proactive Detection of Voice Cloning with Localized Watermarking

(ends 2:00 PM)

Expo Talk Panel:

The Impact of Document Vectorisation, RAG, and Large Language Models in Financial Services: An insider view of how AI is set to change the way banks work

(ends 2:00 PM)

Expo Talk Panel:

Giving your Graph a Voice: Graph Representations and Large Language Models

(ends 2:00 PM)

Expo Talk Panel:

AutoGluon: AutoML at Your Fingertips

(ends 2:00 PM)

2 p.m.

Break:

Coffee Break

(ends 2:30 PM)

2:30 p.m.

Expo Workshop:

Run PyTorch Models On Device

(ends 4:30 PM)

Expo Talk Panel:

Accelerating research in Private Federated Learning with the pfl-research simulation framework

(ends 3:30 PM)

Expo Talk Panel:

Automated Evaluation of LLM responses

(ends 3:30 PM)

3:30 p.m.

Break:

Coffee Break

(ends 4:00 PM)

4 p.m.

Expo Talk Panel:

AI for software development at Google

(ends 5:00 PM)

Expo Talk Panel:

Merging Statistical, Causal, and Generative AI Techniques for Application Performance Monitoring

(ends 5:00 PM)

MON 22 JUL

8:30 a.m.

Registration

(ends 6:00 PM)

9 a.m.

Vienna Info Desk

(duration 6.0 hr)

Workshop:

{Dis}Ability and Queer in AI Workshop at ICML 2024

(ends 4:00 PM)

Workshop:

LatinX in AI (LXAI) Research Workshop

(ends 4:00 PM)

Break:

Coffee Break

(ends 9:30 AM)

9:30 a.m.

Tutorial:

Data Attribution at Scale

(ends 11:30 AM)

Tutorial:

Towards Efficient Generative Large Language Model Serving: A Tutorial from Algorithms to Systems

(ends 11:30 AM)

Tutorial:

Strategic ML: How to Learn With Data That ‘Behaves’

(ends 11:30 AM)

Tutorial:

Neural Operator Learning

(ends 11:30 AM)

11:30 a.m.

Break:

Hosted Lunch

(ends 1:00 PM)

1 p.m.

Tutorial:

Understanding the Role of Large Language Models in Planning

(ends 3:00 PM)

Tutorial:

Distribution-Free Predictive Uncertainty Quantification: Strengths and Limits of Conformal Prediction

(ends 3:00 PM)

Tutorial:

Foundations of Data-efficient Machine Learning

(ends 3:00 PM)

3 p.m.

Break:

Coffee Break

(ends 3:30 PM)

3:30 p.m.

Tutorial:

Physics of Language Models

(ends 5:30 PM)

Tutorial:

Challenges in Language Model Evaluations

(ends 5:30 PM)

Tutorial:

Convex Analysis at Infinity: An Introduction to Astral Space

(ends 5:30 PM)

Tutorial:

Graph Learning: Principles, Challenges, and Open Directions

(ends 5:30 PM)

4 p.m.

Affinity Joint Poster Session [4:00-5:30]

(ends 5:30 PM)

5:30 p.m.

Reception:

Welcome Reception

(ends 6:45 PM)

TUE 23 JUL

8 a.m.

Registration

(ends 6:00 PM)

8:45 a.m.

Remarks:

Opening Remarks

(ends 9:00 AM)

9 a.m.

Invited Talk:

Unapologetically Open Science -- the complexity and challenges of making openness win!

Soumith Chintala

(ends 10:00 AM)

10 a.m.

Break:

Coffee Break

(ends 10:30 AM)

10:30 a.m.

Oral 1A Alignment [10:30-11:30]

Orals 10:30-11:30

[10:30] Debating with More Persuasive LLMs Leads to More Truthful Answers

[10:45] Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision

[11:00] A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity

[11:15] Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

(ends 11:30 AM)

Oral 1B Positions on How We Do Machine Learning Research [10:30-11:30]

Orals 10:30-11:30

[10:30] Position: Embracing Negative Results in Machine Learning

[10:45] Position: A Safe Harbor for AI Evaluation and Red Teaming

[11:00] Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining

[11:15] Position: Beyond Personhood: Agency, Accountability, and the Limits of Anthropomorphic Ethical Analysis

(ends 11:30 AM)

Oral 1C Clustering [10:30-11:30]

Orals 10:30-11:30

[10:30] LSEnet: Lorentz Structural Entropy Neural Network for Deep Graph Clustering

[10:45] Image Clustering with External Guidance

[11:00] Making Old Things New: A Unified Algorithm for Differentially Private Clustering

[11:15] Pruned Pivot: Correlation Clustering Algorithm for Dynamic, Parallel, and Local Computation Models

(ends 11:30 AM)

Oral 1D Video [10:30-11:30]

Orals 10:30-11:30

[10:30] Genie: Generative Interactive Environments

[10:45] Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization

[11:00] Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition

[11:15] VideoPoet: A Large Language Model for Zero-Shot Video Generation

(ends 11:30 AM)

Oral 1E Time Series [10:30-11:30]

Orals 10:30-11:30

[10:30] SparseTSF: Modeling Long-term Time Series Forecasting with *1k* Parameters

[10:45] Arrows of Time for Large Language Models

[11:00] Unified Training of Universal Time Series Forecasting Transformers

[11:15] SAMformer: Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware Minimization and Channel-Wise Attention

(ends 11:30 AM)

Oral 1F Applications in Biology and Chemistry [10:30-11:30]

Orals 10:30-11:30

[10:30] MorphGrower: A Synchronized Layer-by-layer Growing Approach for Plausible Neuronal Morphology Generation

[10:45] EquiPocket: an E(3)-Equivariant Geometric Graph Neural Network for Ligand Binding Site Prediction

[11:00] Expressivity and Generalization: Fragment-Biases for Molecular GNNs

[11:15] Preference Optimization for Molecule Synthesis with Conditional Residual Energy-based Models

(ends 11:30 AM)

11:30 a.m.

Poster Session 1 [11:30-1:00]

IOI: Invisible One-Iteration Adversarial Attack on No-Reference Image- and Video-Quality Metrics

In-Context Sharpness as Alerts: An Inner Representation Perspective for Hallucination Mitigation

A Circuit Domain Generalization Framework for Efficient Logic Synthesis in Chip Design

Discovering Symmetry Breaking in Physical Systems with Relaxed Group Convolution

Deep Regression Representation Learning with Topology

Weakly-Supervised Residual Evidential Learning for Multi-Instance Uncertainty Estimation

Denoising Autoregressive Representation Learning

LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views

Fine-grained Local Sensitivity Analysis of Standard Dot-Product Self-Attention

Out of the Ordinary: Spectrally Adapting Regression for Covariate Shift

Adversarially Robust Hypothesis Transfer Learning

Synergistic Integration of Coordinate Network and Tensorial Feature for Improving Neural Radiance Fields from Sparse Inputs

Fault Tolerant ML: Efficient Meta-Aggregation and Synchronous Training

Feature Contamination: Neural Networks Learn Uncorrelated Features and Fail to Generalize

Connect Later: Improving Fine-tuning for Robustness with Targeted Augmentations

The Perception-Robustness Tradeoff in Deterministic Image Restoration

Robust Stable Spiking Neural Networks

BadPart: Unified Black-box Adversarial Patch Attacks against Pixel-wise Regression Tasks

Two Heads are Actually Better than One: Towards Better Adversarial Robustness via Transduction and Rejection

FedSC: Provable Federated Self-supervised Learning with Spectral Contrastive Objective over Non-i.i.d. Data

Quantum Implicit Neural Representations

Size-invariance Matters: Rethinking Metrics and Losses for Imbalanced Multi-object Salient Object Detection

AlphaFold Meets Flow Matching for Generating Protein Ensembles

Expressivity and Generalization: Fragment-Biases for Molecular GNNs

Preference Optimization for Molecule Synthesis with Conditional Residual Energy-based Models

GeoMFormer: A General Architecture for Geometric Molecular Representation Learning

Harmonic Self-Conditioned Flow Matching for joint Multi-Ligand Docking and Binding Site Design

Self-Consistency Training for Density-Functional-Theory Hamiltonian Prediction

Diffusion Language Models Are Versatile Protein Learners

A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts

DNCs Require More Planning Steps

Unified Training of Universal Time Series Forecasting Transformers

From Generalization Analysis to Optimization Designs for State Space Models

TabLog: Test-Time Adaptation for Tabular Data Using Logic Rules

Provable Benefits of Local Steps in Heterogeneous Federated Learning for Neural Networks: A Feature Learning Perspective

Graph Automorphism Group Equivariant Neural Networks

In-context Learning on Function Classes Unveiled for Transformers

On the Emergence of Cross-Task Linearity in Pretraining-Finetuning Paradigm

An Information-Theoretic Analysis of In-Context Learning

Structure-based drug design by denoising voxel grids

Position: Categorical Deep Learning is an Algebraic Theory of All Architectures

Deconstructing the Goldilocks Zone of Neural Network Initialization

A Statistical Framework for Data-dependent Retrieval-Augmented Models

Understanding MLP-Mixer as a wide and sparse MLP

Matrix Information Theory for Self-Supervised Learning

Modeling Caption Diversity in Contrastive Vision-Language Pretraining

High-Order Contrastive Learning with Fine-grained Comparative Levels for Sparse Ordinal Tensor Completion

Binning as a Pretext Task: Improving Self-Supervised Learning in Tabular Domains

CarbonNovo: Joint Design of Protein Structure and Sequence Using a Unified Energy-based Model

Generative Enzyme Design Guided by Functionally Important Sites and Small-Molecule Substrates

Data-Efficient Molecular Generation with Hierarchical Textual Inversion

GeoAB: Towards Realistic Antibody Design and Reliable Affinity Maturation

Pluvial Flood Emulation with Hydraulics-informed Message Passing

GeoReasoner: Geo-localization with Reasoning in Street Views using a Large Vision-Language Model

Bayesian Uncertainty for Gradient Aggregation in Multi-Task Learning

Interpretable Deep Clustering for Tabular Data

FedLMT: Tackling System Heterogeneity of Federated Learning via Low-Rank Model Training with Theoretical Guarantees

Positive Concave Deep Equilibrium Models

Model Alignment as Prospect Theoretic Optimization

Scaling Down Deep Learning with MNIST-1D

Learning to Compile Programs to Neural Networks

Generalized Smooth Variational Inequalities: Methods with Adaptive Stepsizes

Delving into the Convergence of Generalized Smooth Minimax Optimization

Finite Smoothing Algorithm for High-Dimensional Support Vector Machines and Quantile Regression

On the Convergence of Projected Bures-Wasserstein Gradient Descent under Euclidean Strong Convexity

MoMo: Momentum Models for Adaptive Learning Rates

Lookbehind-SAM: k steps back, 1 step forward

Double Momentum Method for Lower-Level Constrained Bilevel Optimization

Moreau Envelope for Nonconvex Bi-Level Optimization: A Single-Loop and Hessian-Free Solution Strategy

Differentiable Combinatorial Scheduling at Scale

Box Facets and Cut Facets of Lifted Multicut Polytopes

Submodular framework for structured-sparse optimal transport

Risk-Sensitive Reward-Free Reinforcement Learning with CVaR

Reinforcement Learning and Regret Bounds for Admission Control

Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input

Q-Star Meets Scalable Posterior Sampling: Bridging Theory and Practice via HyperAgent

Feasibility Consistent Representation Learning for Safe Reinforcement Learning

Bayesian Design Principles for Offline-to-Online Reinforcement Learning

Failures Are Fated, But Can Be Faded: Characterizing and Mitigating Unwanted Behaviors in Large-Scale Vision and Language Models

Scalable Online Exploration via Coverability

Towards Resource-friendly, Extensible and Stable Incomplete Multi-view Clustering

Accelerating Look-ahead in Bayesian Optimization: Multilevel Monte Carlo is All you Need

New Sample Complexity Bounds for Sample Average Approximation in Heavy-Tailed Stochastic Programming

Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization

CF-OPT: Counterfactual Explanations for Structured Prediction

Diffusion Tempering Improves Parameter Estimation with Probabilistic Integrators for Ordinary Differential Equations

Barrier Algorithms for Constrained Non-Convex Optimization

OptiMUS: Scalable Optimization Modeling with (MI)LP Solvers and Large Language Models

From Inverse Optimization to Feasibility to ERM

Double-Step Alternating Extragradient with Increasing Timescale Separation for Finding Local Minimax Points: Provable Improvements

Probabilistic Subgoal Representations for Hierarchical Reinforcement Learning

ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints

Learning the Target Network in Function Space

Learning to Play Atari in a World of Tokens

Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning

ReDiffuser: Reliable Decision-Making Using a Diffuser with Confidence Estimation

Think Before You Act: Decision Transformers with Working Memory

Scalable Multiple Kernel Clustering: Learning Clustering Structure from Expectation

Rethinking Decision Transformer via Hierarchical Reinforcement Learning

SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets

Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem

Unlock the Cognitive Generalization of Deep Reinforcement Learning via Granular Ball Representation

Quality-Diversity Actor-Critic: Learning High-Performing and Diverse Behaviors via Value and Successor Features Critics

Random Latent Exploration for Deep Reinforcement Learning

Learning Coverage Paths in Unknown Environments with Deep Reinforcement Learning

Learning to Explore in POMDPs with Informational Rewards

Exploration and Anti-Exploration with Distributional Random Network Distillation

Value-Evolutionary-Based Reinforcement Learning

Iterative Regularized Policy Optimization with Imperfect Demonstrations

Decouple then Classify: A Dynamic Multi-view Labeling Strategy with Shared and Specific Information

EvoRainbow: Combining Improvements in Evolutionary Reinforcement Learning for Policy Search

Risk-Sensitive Policy Optimization via Predictive CVaR Policy Gradient

Adaptively Learning to Select-Rank in Online Platforms

Major-Minor Mean Field Multi-Agent Reinforcement Learning

Open Ad Hoc Teamwork with Cooperative Game Theory

Hybrid Inverse Reinforcement Learning

Non-Asymptotic Analysis for Single-Loop (Natural) Actor-Critic with Compatible Function Approximation

Probabilistic Modeling of Interpersonal Coordination Processes

An Iterative Min-Min Optimization Method for Sparse Bayesian Learning

Outlier-robust Kalman Filtering through Generalised Bayes

Naive Bayes Classifiers over Missing Data: Decision and Poisoning

A Unified View of FANOVA: A Comprehensive Bayesian Framework for Component Selection and Estimation

Adaptive Observation Cost Control for Variational Quantum Eigensolvers

Learning in Deep Factor Graphs with Gaussian Belief Propagation

Scaling Tractable Probabilistic Circuits: A Systems Perspective

Constrained Exploration via Reflected Replica Exchange Stochastic Gradient Langevin Dynamics

IW-GAE: Importance weighted group accuracy estimation for improved calibration and model selection in unsupervised domain adaptation

Nesting Particle Filters for Experimental Design in Dynamical Systems

Nonparametric Teaching of Implicit Neural Representations

Bipartite Matching in Massive Graphs: A Tight Analysis of EDCS

Translation Equivariant Transformer Neural Processes

Sampling-based Multi-dimensional Recalibration

Logistic Variational Bayes Revisited

Provably Scalable Black-Box Variational Inference with Structured Variational Families

Ai-sampler: Adversarial Learning of Markov kernels with involutive maps

Evaluation of Test-Time Adaptation Under Computational Time Constraints

Minimum-Norm Interpolation Under Covariate Shift

Pairwise Alignment Improves Graph Domain Adaptation

Can a Few Decide for Many? The Metric Distortion of Sortition

Compression of Structured Data with Autoencoders: Provable Benefit of Nonlinearities and Depth

In-context Convergence of Transformers

Robustly Learning Single-Index Models via Alignment Sharpness

On Least Square Estimation in Softmax Gating Mixture of Experts

Replicable Learning of Large-Margin Halfspaces

No Dimensional Sampling Coresets for Classification

Stochastic Gradient Flow Dynamics of Test Risk and its Exact Solution for Weak Features

Towards Theoretical Understanding of Learning Large-scale Dependent Data via Random Features

Generalization Bounds for Heavy-Tailed SDEs through the Fractional Fokker-Planck Equation

On the Minimal Degree Bias in Generalization on the Unseen for non-Boolean Functions

Provable Contrastive Continual Learning

Convergence of Online Learning Algorithm for a Mixture of Multiple Linear Regressions

A Theory of Non-Linear Feature Learning with One Gradient Step in Two-Layer Neural Networks

Improved Stability and Generalization Guarantees of the Decentralized SGD Algorithm

Coarse-to-Fine Highlighting: Reducing Knowledge Hallucination in Large Language Models

On the Feasibility of Single-Pass Full-Capacity Learning in Linear Threshold Neurons with Binary Input Vectors

Uniformly Stable Algorithms for Adversarial Training and Beyond

Optimal bounds for $\ell_p$ sensitivity sampling via $\ell_2$ augmentation

Learning Low-dimensional Latent Dynamics from High-dimensional Observations: Non-asymptotics and Lower Bounds

Online Non-stochastic Control with Partial Feedback

Efficient Contextual Bandits with Uninformed Feedback Graphs

Online Linear Regression in Dynamic Environments via Discounting

Online Learning in Betting Markets: Profit versus Prediction

Causal Bandits: The Pareto Optimal Frontier of Adaptivity, a Reduction to Linear Bandits, and Limitations around Unknown Marginals

Hierarchical Neural Operator Transformer with Learnable Frequency-aware Loss Prior for Arbitrary-scale Super-resolution

Scribble-Supervised Semantic Segmentation with Prototype-based Feature Augmentation

GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer

Taylor Videos for Action Recognition

Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty

Residual-Conditioned Optimal Transport: Towards Structure-Preserving Unpaired and Paired Image Restoration

EvGGS: A Collaborative Learning Framework for Event-based Generalizable Gaussian Splatting

Scene Graph Generation Strategy with Co-occurrence Knowledge and Learnable Term Frequency

ProtoGate: Prototype-based Neural Networks with Global-to-local Feature Selection for Tabular Biomedical Data

Exploiting Negative Samples: A Catalyst for Cohort Discovery in Healthcare Analytics

Learning Multiple Secrets in Mastermind

Online bipartite matching with imperfect advice

From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems

Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilization

Reward Model Learning vs. Direct Policy Optimization: A Comparative Analysis of Learning from Human Preferences

Provably Efficient Partially Observable Risk-sensitive Reinforcement Learning with Hindsight Observation

When Do Skills Help Reinforcement Learning? A Theoretical Analysis of Temporal Abstractions

Theoretical insights for diffusion guidance: A case study for Gaussian mixture models

Incremental Topological Ordering and Cycle Detection with Predictions

Fundamental Benefit of Alternating Updates in Minimax Optimization

SSL4Q: Semi-Supervised Learning of Quantum Data with Application to Quantum State Classification

Hyperbolic Optimizer as a Dynamical System

Chasing Convex Functions with Long-term Constraints

Improved Dimensionality Dependence for Zeroth-Order Optimisation over Cross-Polytopes

Parsimonious Learning-Augmented Approximations for Dense Instances of $\mathcal{NP}$-hard Problems

Incentivized Learning in Principal-Agent Bandit Games

Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond

Small-loss Adaptive Regret for Online Convex Optimization

Pursuing Overall Welfare in Federated Learning through Sequential Decision Making

Deep Stochastic Mechanics

PARCv2: Physics-aware Recurrent Convolutional Neural Networks for Spatiotemporal Dynamics Modeling

Positional Knowledge is All You Need: Position-induced Transformer (PiT) for Operator Learning

CoLoRA: Continuous low-rank adaptation for reduced implicit neural modeling of parameterized partial differential equations

A fast algorithm to simulate nonlinear resistive networks

HAMLET: Graph Transformer Neural Operator for Partial Differential Equations

Learning Causal Relations from Subsampled Time Series with Two Time-Slices

A Sparsity Principle for Partially Observable Causal Representation Learning

Counterfactual Image Editing

PGODE: Towards High-quality System Dynamics Modeling

Tight Partial Identification of Causal Effects with Marginal Distribution of Unmeasured Confounders

On Online Experimentation without Device Identifiers

Invariant Risk Minimization Is A Total Variation Model

First-Order Manifold Data Augmentation for Regression Learning

Generalizing Orthogonalization for Models with Non-Linearities

TIC-TAC: A Framework For Improved Covariance Estimation In Deep Heteroscedastic Regression

Overcoming Saturation in Density Ratio Estimation by Iterated Regularization

Layerwise Change of Knowledge in Neural Networks

Memory Consolidation Enables Long-Context Video Understanding

RankSEG: A Consistent Ranking-based Framework for Segmentation

Unveiling the Dynamics of Information Interplay in Supervised Learning

Transferable Facial Privacy Protection against Blind Face Restoration via Domain-Consistent Adversarial Obfuscation

Analyzing $D^\alpha$ seeding for $k$-means

Dynamic Spectral Clustering with Provable Approximation Guarantee

MaSS: Multi-attribute Selective Suppression for Utility-preserving Data Transformation from an Information-theoretic Perspective

Perturb-and-Project: Differentially Private Similarities and Marginals

Making Old Things New: A Unified Algorithm for Differentially Private Clustering

Tuning-free Estimation and Inference of Cumulative Distribution Function under Local Differential Privacy

Position: Near to Mid-term Risks and Opportunities of Open-Source Generative AI

Position: Beyond Personhood: Agency, Accountability, and the Limits of Anthropomorphic Ethical Analysis

Position: Levels of AGI for Operationalizing Progress on the Path to AGI

Position: A Safe Harbor for AI Evaluation and Red Teaming

Allocation Requires Prediction Only if Inequality Is Low

Position: Embracing Negative Results in Machine Learning

Merging Multi-Task Models via Weight-Ensembling Mixture of Experts

MOKD: Cross-domain Finetuning for Few-shot Classification via Maximizing Optimized Kernel Dependence

Meta Evidential Transformer for Few-Shot Open-Set Recognition

Regularizing with Pseudo-Negatives for Continual Self-Supervised Learning

UGrid: An Efficient-And-Rigorous Neural Multigrid Solver for Linear PDEs

Optimal Eye Surgeon: Finding image priors through sparse generators at initialization

Differentially Private Synthetic Data via Foundation Model APIs 2: Text

Privately Learning Smooth Distributions on the Hypercube by Projections

Rethinking DP-SGD in Discrete Domain: Exploring Logistic Distribution in the Realm of signSGD

Rényi Pufferfish Privacy: General Additive Noise Mechanisms and Privacy Amplification by Iteration via Shift Reduction Lemmas

Split-and-Denoise: Protect large language model inference with local differential privacy

Privacy-Preserving Instructions for Aligning Large Language Models

Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining

Private Heterogeneous Federated Learning Without a Trusted Server Revisited: Error-Optimal and Communication-Efficient Algorithms for Convex Losses

Membership Inference Attacks on Diffusion Models via Quantile Regression

Purify Unlearnable Examples via Rate-Constrained Variational Autoencoders

TVE: Learning Meta-attribution for Transferable Vision Explainer

On the Duality Between Sharpness-Aware Minimization and Adversarial Training

Position: Do Not Explain Vision Models Without Context

Defense against Model Extraction Attack by Bayesian Active Watermarking

ByMI: Byzantine Machine Identification with False Discovery Rate Control

Relational DNN Verification With Cross Executional Bound Refinement

Adversarial Robustness Limits via Scaling-Law and Human-Alignment Studies

Understanding the Learning Dynamics of Alignment with Human Feedback

Representation Surgery: Theory and Practice of Affine Steering

Observable Propagation: Uncovering Feature Vectors in Transformers

Evaluating and Analyzing Relationship Hallucinations in Large Vision-Language Models

Fast Adversarial Attacks on Language Models In One GPU Minute

One for All: A Universal Generator for Concept Unlearnability via Multi-Modal Alignment

Position: Is machine learning good or bad for the natural sciences?

Byzantine Resilient and Fast Federated Few-Shot Learning

RAUCA: A Novel Physical Adversarial Attack on Vehicle Detectors via Robust and Accurate Camouflage Generation

OODRobustBench: a Benchmark and Large-Scale Analysis of Adversarial Robustness under Distribution Shift

Data Poisoning Attacks against Conformal Prediction

Unbiased Multi-Label Learning from Crowdsourced Annotations

On Gradient-like Explanation under a Black-box Setting: When Black-box Explanations Become as Good as White-box

DFD: Distilling the Feature Disparity Differently for Detectors

Energy-based Backdoor Defense without Task-Specific Samples and Model Retraining

Classification under Nuisance Parameters and Generalized Label Shift in Likelihood-Free Inference

Neighboring Perturbations of Knowledge Editing on Large Language Models

The Linear Representation Hypothesis and the Geometry of Large Language Models

Linear Explanations for Individual Neurons

Sparse Model Inversion: Efficient Inversion of Vision Transformers for Data-Free Applications

Using AI Uncertainty Quantification to Improve Human Decision-Making

Learning to Intervene on Concept Bottlenecks

Fair Classification with Partial Feedback: An Exploration-Based Data Collection Approach

Classification Under Strategic Self-Selection

KernelWarehouse: Rethinking the Design of Dynamic Convolution

Pruner-Zero: Evolving Symbolic Pruning Metric From Scratch for Large Language Models

Not all distributional shifts are equal: Fine-grained robust conformal inference

EquiPocket: an E(3)-Equivariant Geometric Graph Neural Network for Ligand Binding Site Prediction

Implicit Representations via Operator Learning

Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation

Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

DiffFPR: Diffusion Prior for Oversampled Fourier Phase Retrieval

Optimal Exact Recovery in Semi-Supervised Learning: A Study of Spectral Methods and Graph Convolutional Networks

Principled Gradient-Based MCMC for Conditional Sampling of Text

Prompt-based Visual Alignment for Zero-shot Policy Transfer

In-Context Principle Learning from Mistakes

Triadic-OCD: Asynchronous Online Change Detection with Provable Robustness, Optimality, and Convergence

$\texttt{MoE-RBench}$: Towards Building Reliable Language Models with Sparse Mixture-of-Experts

On the Diminishing Returns of Width for Continual Learning

LSEnet: Lorentz Structural Entropy Neural Network for Deep Graph Clustering

Prometheus: Out-of-distribution Fluid Dynamics Modeling with Disentangled Graph ODE

Effects of Exponential Gaussian Distribution on (Double Sampling) Randomized Smoothing

Differentiable Weightless Neural Networks

Implicit meta-learning may lead language models to trust more reliable sources

Accelerating PDE Data Generation via Differential Operator Action in Solution Space

Implicit Bias of AdamW: $\ell_\infty$-Norm Constrained Optimization

Active Preference Learning for Large Language Models

Parameter-Efficient Fine-Tuning with Controls

Dynamic Anisotropic Smoothing for Noisy Derivative-Free Optimization

Confidence-aware Contrastive Learning for Selective Classification

A Persuasive Approach to Combating Misinformation

Towards General Algorithm Discovery for Combinatorial Optimization: Learning Symbolic Branching Policy from Bipartite Graph

Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities

OT-CLIP: Understanding and Generalizing CLIP via Optimal Transport

Parameter-Efficient Fine-Tuning with Discrete Fourier Transform

Probability Distribution of Hypervolume Improvement in Bi-objective Bayesian Optimization

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

NExT-Chat: An LMM for Chat, Detection and Segmentation

Protein Conformation Generation via Force-Guided SE(3) Diffusion Models

Is In-Context Learning in Large Language Models Bayesian? A Martingale Perspective

Solving Poisson Equations using Neural Walk-on-Spheres

Human vs. Generative AI in Content Creation Competition: Symbiosis or Conflict?

HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal

Encodings for Prediction-based Neural Architecture Search

Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision

Private Gradient Descent for Linear Regression: Tighter Error Bounds and Instance-Specific Uncertainty Estimation

Efficient Algorithms for Sum-Of-Minimum Optimization

Rethinking Independent Cross-Entropy Loss For Graph-Structured Data

Evolution-Inspired Loss Functions for Protein Representation Learning

S3O: A Dual-Phase Approach for Reconstructing Dynamic Shape and Skeleton of Articulated Objects from Single Monocular Video

Learning Temporal Distances: Contrastive Successor Features Can Provide a Metric Structure for Decision-Making

Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning

Position: Application-Driven Innovation in Machine Learning

Information Flow in Self-Supervised Learning

Compositional Few-Shot Class-Incremental Learning

Pruned Pivot: Correlation Clustering Algorithm for Dynamic, Parallel, and Local Computation Models

InstructZero: Efficient Instruction Optimization for Black-Box Large Language Models

Cluster-Aware Similarity Diffusion for Instance Retrieval

GiLOT: Interpreting Generative Language Models via Optimal Transport

Generating In-Distribution Proxy Graphs for Explaining Graph Neural Networks

Overcoming Data and Model heterogeneities in Decentralized Federated Learning via Synthetic Anchors

Learning Modality Knowledge Alignment for Cross-Modality Transfer

Generalization to New Sequential Decision Making Tasks with In-Context Learning

HelmFluid: Learning Helmholtz Dynamics for Interpretable Fluid Prediction

FedRC: Tackling Diverse Distribution Shifts Challenge in Federated Learning by Robust Clustering

ESM All-Atom: Multi-Scale Protein Language Model for Unified Molecular Modeling

Efficient Denoising Diffusion via Probabilistic Masking

Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models

In-Context Freeze-Thaw Bayesian Optimization for Hyperparameter Optimization

Position: An Inner Interpretability Framework for AI Inspired by Lessons from Cognitive Neuroscience

FlashST: A Simple and Universal Prompt-Tuning Framework for Traffic Prediction

$S^2$IP-LLM: Semantic Space Informed Prompt Learning with LLM for Time Series Forecasting

A New Computationally Efficient Algorithm to solve Feature Selection for Functional Data Classification in High-dimensional Spaces

Position: Quo Vadis, Unsupervised Time Series Anomaly Detection?

MOMENT: A Family of Open Time-series Foundation Models

From Fourier to Neural ODEs: Flow Matching for Modeling Complex Systems

AD3: Implicit Action is the Key for World Models to Distinguish the Diverse Visual Distractors

SAMformer: Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware Minimization and Channel-Wise Attention

SparseTSF: Modeling Long-term Time Series Forecasting with *1k* Parameters

OxyGenerator: Reconstructing Global Ocean Deoxygenation Over a Century with Deep Learning

KISA: A Unified Keyframe Identifier and Skill Annotator for Long-Horizon Robotics Demonstrations

Behavior Generation with Latent Actions

VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model

RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation

Potential Based Diffusion Motion Planning

Enhancing Trajectory Prediction through Self-Supervised Waypoint Distortion Prediction

Lyapunov-stable Neural Control for State and Output Feedback: A Novel Formulation

An Efficient Self-Learning Framework For Interactive Spoken Dialog Systems

IIANet: An Intra- and Inter-Modality Attention Network for Audio-Visual Speech Separation

Language Generation with Strictly Proper Scoring Rules

Prompt-guided Precise Audio Editing with Diffusion Models

Language Models as Semantic Indexers

Neurodegenerative Brain Network Classification via Adaptive Diffusion with Temporal Regularization

MorphGrower: A Synchronized Layer-by-layer Growing Approach for Plausible Neuronal Morphology Generation

Towards efficient deep spiking neural networks construction with spiking activity based pruning

Human-like Category Learning by Injecting Ecological Priors from Large Language Models into Neural Networks

Multi-Region Markovian Gaussian Process: An Efficient Method to Discover Directional Communications Across Multiple Brain Regions

Neural operators meet conjugate gradients: The FCG-NO method for efficient PDE solving

Enforcing Constraints in RNA Secondary Structure Predictions: A Post-Processing Framework Based on the Assignment Problem

Estimating Canopy Height at Scale

FESSNC: Fast Exponentially Stable and Safe Neural Controller

DeepPolar: Inventing Nonlinear Large-Kernel Polar Codes via Deep Learning

Distribution Alignment Optimization through Neural Collapse for Long-tailed Classification

Position: Bayesian Deep Learning is Needed in the Age of Large-Scale AI

Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View

Gated Linear Attention Transformers with Hardware-Efficient Training

Repeat After Me: Transformers are Better than State Space Models at Copying

Polynomial-based Self-Attention for Table Representation Learning

Enhancing Vision Transformer: Amplifying Non-Linearity in Feedforward Network Module

Bifurcated Attention for Single-Context Large-Batch Sampling

KnowFormer: Revisiting Transformers for Knowledge Graph Reasoning

Stabilizing Policy Gradients for Stochastic Differential Equations via Consistency with Perturbation Process

On the Implicit Bias of Adam

Stereographic Spherical Sliced Wasserstein Distances

Sparse-IFT: Sparse Iso-FLOP Transformations for Maximizing Training Efficiency

Degeneration-free Policy Optimization: RL Fine-Tuning for Language Models without Degeneration

ODIM: Outlier Detection via Likelihood of Under-Fitted Generative Models

MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance

MLIP: Efficient Multi-Perspective Language-Image Pretraining with Exhaustive Data Utilization

BWS: Best Window Selection Based on Sample Scores for Data Pruning across Broad Ranges

Equivariant Deep Weight Space Alignment

Reshape and Adapt for Output Quantization (RAOQ): Quantization-aware Training for In-memory Computing Systems

SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization

Uniform Memory Retrieval with Larger Capacity for Modern Hopfield Models

On Computational Limits of Modern Hopfield Models: A Fine-Grained Complexity Analysis

Going beyond Compositions, DDPMs Can Produce Zero-Shot Interpolations

Switched Flow Matching: Eliminating Singularities via Switching ODEs

Hyperbolic Geometric Latent Diffusion Model for Graph Generation

Efficient World Models with Context-Aware Tokenization

An Independence-promoting Loss for Music Generation with Language Models

Embarrassingly Parallel GFlowNets

VideoPoet: A Large Language Model for Zero-Shot Video Generation

Bayesian Power Steering: An Effective Approach for Domain Adaptation of Diffusion Models

Reflected Flow Matching

Position: On the Possibilities of AI-Generated Text Detection

Towards Neural Architecture Search through Hierarchical Generative Modeling

Enhancing Implicit Shape Generators Using Topological Regularizations

Genie: Generative Interactive Environments

Scalable Wasserstein Gradient Flow for Generative Modeling through Unbalanced Optimal Transport

Multi-layer Rehearsal Feature Augmentation for Class-Incremental Learning

MusicFlow: Cascaded Flow Matching for Text Guided Music Generation

Two Heads Are Better Than One: Boosting Graph Sparse Training via Semantic and Topological Awareness

Graph Positional and Structural Encoder

Mitigating Oversmoothing Through Reverse Process of GNNs for Heterophilic Graphs

The Merit of River Network Topology for Neural Flood Forecasting

Hypergraph-enhanced Dual Semi-supervised Graph Classification

CKGConv: General Graph Convolution with Continuous Kernels

Graph Adversarial Diffusion Convolution

EiG-Search: Generating Edge-Induced Subgraphs for GNN Explanation in Linear Time

Graph Distillation with Eigenbasis Matching

Aligning Transformers with Weisfeiler-Leman

SLOG: An Inductive Spectral Graph Neural Network Beyond Polynomial Filter

Enhancing Size Generalization in Graph Neural Networks through Disentangled Representation Learning

Neural Diffusion Models

An Interpretable Evaluation of Entropy-based Novelty of Generative Models

Towards Scalable and Versatile Weight Space Learning

Isometric Representation Learning for Disentangled Latent Space of Diffusion Models

Latent Noise Segmentation: How Neural Noise Leads to the Emergence of Segmentation and Grouping

Align Your Steps: Optimizing Sampling Schedules in Diffusion Models

Sign is Not a Remedy: Multiset-to-Multiset Message Passing for Learning on Heterophilic Graphs

An Intrinsic Vector Heat Network

Self-Rewarding Language Models

EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

Prompt Sketching for Large Language Models

DOGE: Domain Reweighting with Generalization Estimation

Towards an Understanding of Stepwise Inference in Transformers: A Synthetic Graph Navigation Model

QuIP$\#$: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks

CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers

Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration

BiE: Bi-Exponent Block Floating-Point for Large Language Models Quantization

RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation

KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache

Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning

Improving Context Understanding in Multimodal Large Language Models via Multimodal Composition Learning

Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

MuxServe: Flexible Spatial-Temporal Multiplexing for Multiple LLM Serving

Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization

Using Left and Right Brains Together: Towards Vision and Language Planning

Thermometer: Towards Universal Calibration for Large Language Models

Two Stones Hit One Bird: Bilevel Positional Encoding for Better Length Extrapolation

Debating with More Persuasive LLMs Leads to More Truthful Answers

Learning from Students: Applying t-Distributions to Explore Accurate and Efficient Formats for LLMs

Generalized Preference Optimization: A Unified Approach to Offline Alignment

Can AI Assistants Know What They Don't Know?

Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition

Dense Reward for Free in Reinforcement Learning from Human Feedback

One Prompt is not Enough: Automated Construction of a Mixture-of-Expert Prompts

A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity

Understanding Finetuning for Factual Knowledge Extraction

Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data

Unsupervised Evaluation of Code LLMs with Round-Trip Correctness

Exploring the LLM Journey from Cognition to Expression with Linear Representations

Data-Efficient Learning via Clustering-Based Sensitivity Sampling: Foundation Models and Beyond

GistScore: Learning Better Representations for In-Context Example Selection with Gist Bottlenecks

Arrows of Time for Large Language Models

(ends 1:00 PM)

12:30 p.m.

Break:

Hosted Lunch

(ends 2:00 PM)

1:30 p.m.

Poster Session 2 [1:30-3:00]

From Biased Selective Labels to Pseudo-Labels: An Expectation-Maximization Framework for Learning from Biased Decisions

Mean-field Analysis on Two-layer Neural Networks from a Kernel Perspective

The Effect of Weight Precision on the Neuron Count in Deep ReLU Networks

Deep Networks Always Grok and Here is Why

DySLIM: Dynamics Stable Learning by Invariant Measure for Chaotic Systems

Loss Shaping Constraints for Long-Term Time Series Forecasting

Stationary Latent Weight Inference for Unreliable Observations from Online Test-Time Adaptation

StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization

Navigating Scaling Laws: Compute Optimality in Adaptive Model Training

Sparsest Models Elude Pruning: An Exposé of Pruning’s Current Capabilities

Contextual Feature Selection with Conditional Stochastic Gates

WISER: Weak Supervision and Supervised Representation Learning to Improve Drug Response Prediction in Cancer

DsDm: Model-Aware Dataset Selection with Datamodels

Enhancing Class-Imbalanced Learning with Pre-Trained Guidance through Class-Conditional Knowledge Distillation

MGit: A Model Versioning and Management System

Rethinking Momentum Knowledge Distillation in Online Continual Learning

How Deep Do We Need: Accelerating Training and Inference of Neural ODEs via Control Perspective

Variational Partial Group Convolutions for Input-Aware Partial Equivariance of Rotations and Color-Shifts

What is Dataset Distillation Learning?

A Rate-Distortion View of Uncertainty Quantification

Diving into Underwater: Segment Anything Model Guided Underwater Salient Instance Segmentation and A Large-scale Dataset

Revisiting Context Aggregation for Image Matting

A Linear Time and Space Local Point Cloud Geometry Encoder via Vectorized Kernel Mixture (VecKM)

From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation

Test-Time Degradation Adaptation for Open-Set Image Restoration

Few-Shot Unsupervised Implicit Neural Shape Representation Learning with Spatial Adversaries

Sub-token ViT Embedding via Stochastic Resonance Transformers

PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs

Mol-AE: Auto-Encoder Based Molecular Representation Learning With 3D Cloze Test Objective

Overcoming the Optimizer's Curse: Obtaining Realistic Prescriptions from Neural Networks

Efficient Algorithms for Empirical Group Distributionally Robust Optimization and Beyond

Robust Data-driven Prescriptiveness Optimization

How to Escape Sharp Minima with Random Perturbations

An Online Optimization Perspective on First-Order and Zero-Order Decentralized Nonsmooth Nonconvex Stochastic Optimization

Straight-Through Meets Sparse Recovery: the Support Exploration Algorithm

Weakly Convex Regularisers for Inverse Problems: Convergence of Critical Points and Primal-Dual Optimisation

Convergence and Trade-Offs in Riemannian Gradient Descent and Riemannian Proximal Point

Revisiting Inexact Fixed-Point Iterations for Min-Max Problems: Stochasticity and Structured Nonconvexity

Partial Optimality in the Linear Ordering Problem

Generalist Equivariant Transformer Towards 3D Molecular Interaction Learning

Piecewise Constant and Linear Regression Trees: An Optimal Dynamic Programming Approach

Parameter-Dependent Competitive Analysis for Online Capacitated Coverage Maximization through Boostings and Attenuations

Sarah Frank-Wolfe: Methods for Constrained Optimization with Best Rates and Practical Features

Block Acceleration Without Momentum: On Optimal Stepsizes of Block Gradient Descent for Least-Squares

Forget Sharpness: Perturbed Forgetting of Model Biases Within SAM Dynamics

Enabling Few-Shot Learning with PID Control: A Layer Adaptive Optimizer

Prodigy: An Expeditiously Adaptive Parameter-Free Learner

On PI Controllers for Updating Lagrange Multipliers in Constrained Optimization

SurfPro: Functional Protein Design Based on Continuous Surface

FlowMM: Generating Materials with Riemannian Flow Matching

PPFLOW: Target-Aware Peptide Design with Torsional Flow Matching

Full-Atom Peptide Design based on Multi-modal Flow Matching

Robust Optimization in Protein Fitness Landscapes Using Reinforcement Learning in Latent Space

Creative Text-to-Audio Generation via Synthesizer Programming

Non-convex Stochastic Composite Optimization with Polyak Momentum

Two-timescale Derivative Free Optimization for Performative Prediction with Markovian Data

HexGen: Generative Inference of Large Language Model over Heterogeneous Environment

Faster Adaptive Decentralized Learning Algorithms

Ranking-based Client Imitation Selection for Efficient Federated Learning

A Doubly Recursive Stochastic Compositional Gradient Descent Method for Federated Multi-Level Compositional Optimization

Byzantine-Robust Federated Learning: Impact of Client Subsampling and Local Updates

Federated Representation Learning in the Under-Parameterized Regime

Decentralized Convex Finite-Sum Optimization with Better Dependence on Condition Numbers

Towards a Better Theoretical Understanding of Independent Subnetwork Training

Fast, Scalable, Warm-Start Semidefinite Programming with Spectral Bundling and Sketching

Turnstile $\ell_p$ leverage score sampling with applications

A New Theoretical Perspective on Data Heterogeneity in Federated Optimization

Studying K-FAC Heuristics by Viewing Adam through a Second-Order Lens

A New Robust Partial p-Wasserstein-Based Metric for Comparing Distributions

Global Reinforcement Learning : Beyond Linear and Convex Rewards via Submodular Semi-gradient Methods

Cross-Domain Policy Adaptation by Capturing Representation Mismatch

Offline Imitation from Observation via Primal Wasserstein State Occupancy Matching

Discovering Multiple Solutions from a Single Task in Offline Reinforcement Learning

Unsupervised Zero-Shot Reinforcement Learning via Functional Reward Encodings

Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach

Improving Token-Based World Models with Parallel Observation Prediction

Premier-TACO is a Few-Shot Policy Learner: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss

RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences

Bayesian Regret Minimization in Offline Bandits

On the Unexpected Effectiveness of Reinforcement Learning for Sequential Recommendation

Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning

Listwise Reward Estimation for Offline Preference-based Reinforcement Learning

Position: Foundation Agents as the Paradigm Shift for Decision Making

Hybrid Reinforcement Learning from Offline Observation Alone

Accelerated Policy Gradient: On the Convergence Rates of the Nesterov Momentum for Reinforcement Learning

On the Second-Order Convergence of Biased Policy Gradient Algorithms

Diffusion Model-Augmented Behavioral Cloning

Bayesian Exploration Networks

Stochastic Q-learning for Large Discrete Action Spaces

BeigeMaps: Behavioral Eigenmaps for Reinforcement Learning from Images

Closing the Gap: Achieving Global Convergence (Last Iterate) of Actor-Critic under Markovian Sampling with Neural Network Parametrization

Offline Inverse RL: New Solution Concepts and Provably Efficient Algorithms

Optimistic Multi-Agent Policy Gradient

Solving Hierarchical Information-Sharing Dec-POMDPs: An Extensive-Form Game Approach

Constrained Ensemble Exploration for Unsupervised Skill Discovery

Provably Efficient Long-Horizon Exploration in Monte Carlo Tree Search through State Occupancy Regularization

Learning Optimal Deterministic Policies with Stochastic Policy Gradients

Constrained Reinforcement Learning Under Model Mismatch

Regularized Q-learning through Robust Averaging

Automated Statistical Model Discovery with Language Models

Momentum Particle Maximum Likelihood

Improving Neural Additive Models with Bayesian Principles

Learning to Explore for Stochastic Gradient MCMC

PASOA- PArticle baSed Bayesian Optimal Adaptive design

Simulation-Based Inference with Quantile Regression

Transitional Uncertainty with Layered Intermediate Predictions

Symmetry Induces Structure and Constraint of Learning

Kernel Semi-Implicit Variational Inference

Efficient Mixture Learning in Black-Box Variational Inference

A Differentiable Partially Observable Generalized Linear Model with Forward-Backward Message Passing

Debiased Distribution Compression

Robust Graph Matching when Nodes are Corrupt

Bringing Motion Taxonomies to Continuous Domains via GPLVM on Hyperbolic manifolds

Gaussian Processes on Cellular Complexes

Accelerating Convergence in Bayesian Few-Shot Classification

A Near-Linear Time Approximation Algorithm for Beyond-Worst-Case Graph Clustering

Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field Dynamics on the Attention Landscape

Neuroexplicit Diffusion Models for Inpainting of Optical Flow Fields

A sampling theory perspective on activations for implicit neural representations

When and How Does In-Distribution Label Help Out-of-Distribution Detection?

Multi-class Probabilistic Bounds for Majority Vote Classifiers with Partially Labeled Data

More Flexible PAC-Bayesian Meta-Learning by Learning Learning Algorithms

DAG-Based Column Generation for Adversarial Team Games

State-Constrained Zero-Sum Differential Games with One-Sided Information

The Non-linear $F$-Design and Applications to Interactive Learning

On Statistical Learning Theory for Distributional Inputs

Optimal Kernel Quantile Learning with Random Features

Concentration Inequalities for General Functions of Heavy-Tailed Random Variables

On Stronger Computational Separations Between Multimodal and Unimodal Machine Learning

Neural Tangent Kernels Motivate Cross-Covariance Graphs in Neural Networks

Generalization Analysis of Deep Non-linear Matrix Completion

Impact of Decentralized Learning on Player Utilities in Stackelberg Games

KernelSHAP-IQ: Weighted Least Square Optimization for Shapley Interactions

Collaborative Learning with Different Labeling Functions

Fundamental Limits of Distributed Covariance Matrix Estimation Under Communication Constraints

Optimal Ridge Regularization for Out-of-Distribution Prediction

ReLU Network with Width $d+\mathcal{O}(1)$ Can Achieve Optimal Approximation Rate

Sample Complexity Bounds for Estimating Probability Divergences under Invariances

Slicing Mutual Information Generalization Bounds for Neural Networks

Minimax Optimality of Score-based Diffusion Models: Beyond the Density Lower Bound Assumptions

Guarantees for Nonlinear Representation Learning: Non-identical Covariates, Dependent Data, Fewer Samples

Online Matrix Completion: A Collaborative Approach with Hott Items

Conformal Predictions under Markovian Data

Gradient Compressed Sensing: A Query-Efficient Gradient Estimator for High-Dimensional Zeroth-Order Optimization

Gambling-Based Confidence Sequences for Bounded Random Vectors

Graph-Triggered Rising Bandits

Non-stationary Online Convex Optimization with Arbitrary Delays

Efficient Low-Rank Matrix Estimation, Experimental Design, and Arm-Set-Dependent Low-Rank Bandits

Online Resource Allocation with Non-Stationary Customers

Matroid Semi-Bandits in Sublinear Time

Two-sided Competing Matching Recommendation Markets With Quota and Complementary Preferences Constraints

Improved Operator Learning by Orthogonal Attention

Refining Minimax Regret for Unsupervised Environment Design

SF-DQN: Provable Knowledge Transfer using Successor Feature for Deep Reinforcement Learning

Coresets for Multiple $\ell_p$ Regression

A Field Guide for Pacing Budget and ROS Constraints

Position: Tensor Networks are a Valuable Asset for Green AI

Learning with Adaptive Resource Allocation

Optimal Kernel Choice for Score Function-based Causal Discovery

A Fixed-Point Approach for Causal Generative Modeling

An Efficient Maximal Ancestral Graph Listing Algorithm

Neural SPH: Improved Neural Modeling of Lagrangian Fluid Dynamics

DiffDA: a Diffusion model for weather-scale Data Assimilation

DecisionNCE: Embodied Multimodal Representations via Implicit Preference Learning

VinT-6D: A Large-Scale Object-in-hand Dataset from Vision, Touch and Proprioception

Adapting Pretrained ViTs with Convolution Injector for Visuo-Motor Control

Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation

Self-Supervised Interpretable End-to-End Learning via Latent Functional Modularity

MS$^3$D: A RG Flow-Based Regularization for GAN Training with Limited Data

Multi-Patch Prediction: Adapting Language Models for Time Series Representation Learning

BayOTIDE: Bayesian Online Multivariate Time Series Imputation with Functional Decomposition

Neural Collapse in Multi-label Learning with Pick-all-label Loss

Autoencoding Conditional Neural Processes for Representation Learning

Robustness of Nonlinear Representation Learning

Probabilistic Routing for Graph-Based Approximate Nearest Neighbor Search

Acquisition Conditioned Oracle for Nongreedy Active Feature Acquisition

Conformalized Survival Distributions: A Generic Post-Process to Increase Calibration

Hierarchical Novelty Detection via Fine-Grained Evidence Allocation

Weighted distance nearest neighbor condensing

Triple Changes Estimator for Targeted Policies

CaRiNG: Learning Temporal Causal Representation under Non-Invertible Generation Process

LangCell: Language-Cell Pre-training for Cell Identity Understanding

Multiply-Robust Causal Change Attribution

Fine-Grained Causal Dynamics Learning with Quantization for Improving Robustness in Reinforcement Learning

Continuous Treatment Effects with Surrogate Outcomes

On the Recoverability of Causal Relations from Temporally Aggregated I.I.D. Data

Identification and Estimation for Nonignorable Missing Data: A Data Fusion Approach

Two-Stage Shadow Inclusion Estimation: An IV Approach for Causal Inference under Latent Confounding and Collider Bias

Automating the Selection of Proxy Variables of Unmeasured Confounders

Causal Representation Learning from Multiple Distributions: A General Setting

Dirichlet Flow Matching with Applications to DNA Sequence Design

Scaling Speech Technology to 1,000+ Languages

DFA-RAG: Conversational Semantic Router for Large Language Model with Definite Finite Automaton

convSeq: Fast and Scalable Method for Detecting Patterns in Spike Data

Enhancing Adversarial Robustness in SNNs with Sparse Gradients

SiBBlInGS: Similarity-driven Building-Block Inference using Graphs across States

Scalable Real-Time Recurrent Learning Using Columnar-Constructive Networks

Compressing Large Language Models by Joint Sparsification and Quantization

Pi-DUAL: Using privileged information to distinguish clean from noisy labels

Learning Label Shift Correction for Test-Agnostic Long-Tailed Recognition

Distributed High-Dimensional Quantile Regression: Estimation Efficiency and Support Recovery

Contamination-Resilient Anomaly Detection via Adversarial Learning on Partially-Observed Normal and Anomalous Data

Learning Exceptional Subgroups by End-to-End Maximizing KL-Divergence

SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning

Let Go of Your Labels with Unsupervised Transfer

High-Dimensional Bayesian Optimization via Semi-Supervised Learning with Optimized Unlabeled Data Sampling

Multi-View Clustering by Inter-cluster Connectivity Guided Reward

InterLUDE: Interactions between Labeled and Unlabeled Data to Enhance Semi-Supervised Learning

Learning with Complementary Labels Revisited: The Selected-Completely-at-Random Setting Is More Practical

Provable Interactive Learning with Hindsight Instruction Feedback

Optimal Recurrent Network Topologies for Dynamical Systems Reconstruction

Surprisingly Strong Performance Prediction with Neural Graph Features

Robust Multi-Task Learning with Excess Risks

Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks

Better Locally Private Sparse Estimation Given Multiple Samples Per User

Privacy-Preserving Embedding via Look-up Table Evaluation with Fully Homomorphic Encryption

DPZero: Private Fine-Tuning of Language Models without Backpropagation

Private Truly-Everlasting Robust-Prediction

ViP: A Differentially Private Foundation Model for Computer Vision

Rethinking the Flat Minima Searching in Federated Learning

PrE-Text: Training Language Models on Private Federated Data in the Age of LLMs

Improved Modelling of Federated Datasets using Mixtures-of-Dirichlet-Multinomials

Optimizing Watermarks for Large Language Models

One-Shot Strategic Classification Under Unknown Costs

Position: Technical Research and Talent is Needed for Effective AI Governance

Statistical Test for Attention Maps in Vision Transformers

Position: On the Societal Impact of Open Foundation Models

Position: A Call for Embodied AI

EvoluNet: Advancing Dynamic Non-IID Transfer Learning on Graphs

Efficient Pareto Manifold Learning with Low-Rank Structure

Representation Surgery for Multi-Task Model Merging

How Private are DP-SGD Implementations?

Improved Differentially Private and Lazy Online Convex Optimization: Lower Regret without Smoothness Requirements

Beyond the Federation: Topology-aware Federated Learning for Generalization to Unseen Clients

Recovering the Pre-Fine-Tuning Weights of Generative Models

Position: Standardization of Behavioral Use Clauses is Necessary for the Adoption of Responsible Licensing of AI

Revisiting Character-level Adversarial Attacks for Language Models

Trust Regions for Explanations via Black-Box Probabilistic Certification

Stealthy Imitation: Reward-guided Environment-free Policy Stealing

Understanding the Effects of Iterative Prompting on Truthfulness

LIDAO: Towards Limited Interventions for Debiasing (Large) Language Models

An Empirical Examination of Balancing Strategy for Counterfactual Estimation on Time Series

AegisFL: Efficient and Flexible Privacy-Preserving Byzantine-Robust Cross-silo Federated Learning

Mapping the Multiverse of Latent Representations

Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts

IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency

AND: Audio Network Dissection for Interpreting Deep Acoustic Models

Probabilistic Constrained Reinforcement Learning with Formal Interpretability

Conformal Prediction for Deep Classifier via Label Ranking

Scaling Exponents Across Parameterizations and Optimizers

On the Generalization of Stochastic Gradient Descent with Momentum

Position: AI-Powered Autonomous Weapons Risk Geopolitical Instability and Threaten AI Research

Scaling Laws for the Value of Individual Data Points in Machine Learning

Position: Amazing Things Come From Having Many Good Models

Listenable Maps for Audio Classifiers

Improving Prototypical Visual Explanations with Reward Reweighing, Reselection, and Retraining

Finding NEM-U: Explaining unsupervised representation learning through neural network generated explanation masks

Trustless Audits without Revealing Data or Models

Iterative Search Attribution for Deep Neural Networks

Position: Data Authenticity, Consent, & Provenance for AI are all broken: what will it take to fix them?

Explaining Probabilistic Models with Distributional Values

Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection

Decomposing and Editing Predictions by Modeling Model Computation

Density-Softmax: Efficient Test-time Model for Uncertainty Estimation and Robustness under Distribution Shifts

AttnLRP: Attention-Aware Layer-Wise Relevance Propagation for Transformers

Calibration Bottleneck: Over-compressed Representations are Less Calibratable

Watermarks in the Sand: Impossibility of Strong Watermarking for Language Models

DiJiang: Efficient Large Language Models through Compact Kernelization

Aligned Objective for Soft-Pseudo-Label Generation in Supervised Learning

GroupCover: A Secure, Efficient and Scalable Inference Framework for On-device Model Protection based on TEEs

Vision Transformers as Probabilistic Expansion from Learngene

When Will Gradient Regularization Be Harmful?

Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension

Open-Domain Text Evaluation via Contrastive Distribution Methods

Learning Constraints from Offline Demonstrations via Superior Distribution Correction Estimation

Selecting Large Language Model to Fine-tune via Rectified Scaling Law

Quantum Algorithms and Lower Bounds for Finite-Sum Optimization

Imitation Learning in Discounted Linear MDPs without exploration assumptions

Dynamic Evaluation of Large Language Models by Meta Probing Agents

Position: Video as the New Language for Real-World Decision Making

Mechanistic Design and Scaling of Hybrid Architectures

Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation

Improving Sharpness-Aware Minimization by Lookahead

Improving Computational Complexity in Statistical Models with Local Curvature Information

Position: Why Tabular Foundation Models Should Be a Research Priority

Federated Self-Explaining GNNs with Anti-shortcut Augmentations

Minimally Modifying a Markov Game to Achieve Any Nash Equilibrium and Value

An Empirical Study of Realized GNN Expressiveness

Inverse-Variance Weighting for Estimation of Heterogeneous Treatment Effects

PIDformer: Transformer Meets Control Theory

Locally Differentially Private Decentralized Stochastic Bilevel Optimization with Guaranteed Convergence Accuracy

Lightweight Image Super-Resolution via Flexible Meta Pruning

RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content

Controllable Prompt Tuning For Balancing Group Distributional Robustness

Geometry-Calibrated DRO: Combating Over-Pessimism with Free Energy Implications

TinyTrain: Resource-Aware Task-Adaptive Sparse Training of DNNs at the Data-Scarce Edge

GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

A Hierarchical Adaptive Multi-Task Reinforcement Learning Framework for Multiplier Circuit Design

Toward Adaptive Reasoning in Large Language Models with Thought Rollback

Symbolic Music Generation with Non-Differentiable Rule Guided Diffusion

Unmasking Vulnerabilities: Cardinality Sketches under Adaptive Inputs

DMTG: One-Shot Differentiable Multi-Task Grouping

Adaptive Conformal Inference by Betting

Rejuvenating image-GPT as Strong Visual Representation Learners

Mitigating Catastrophic Forgetting in Online Continual Learning by Modeling Previous Task Interrelations via Pareto Optimization

Prospective Side Information for Latent MDPs

Reducing Item Discrepancy via Differentially Private Robust Embedding Alignment for Privacy-Preserving Cross Domain Recommendation

LASER: Linear Compression in Wireless Distributed Optimization

Fast Sampling-Based Sketches for Tensors

Batch Singular Value Polarization and Weighted Semantic Augmentation for Universal Domain Adaptation

Diffusion Posterior Sampling is Computationally Intractable

Masked Face Recognition with Generative-to-Discriminative Representations

Fast White-Box Adversarial Streaming Without a Random Oracle

Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game

ODIN: Disentangled Reward Mitigates Hacking in RLHF

Predictive Dynamic Fusion

AquaLoRA: Toward White-box Protection for Customized Stable Diffusion Models via Watermark LoRA

Unifying Bayesian Flow Networks and Diffusion Models through Stochastic Differential Equations

Adaptive Accompaniment with ReaLchords

Knowledge-aware Reinforced Language Models for Protein Directed Evolution

PAPM: A Physics-aware Proxy Model for Process Systems

Image Clustering with External Guidance

Resisting Stochastic Risks in Diffusion Planners with the Trajectory Aggregation Tree

Mitigating Privacy Risk in Membership Inference by Convex-Concave Loss

Improving Equivariant Graph Neural Networks on Large Geometric Graphs via Virtual Nodes Learning

IM-Unpack: Training and Inference with Arbitrarily Low Precision Integers

Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models

Learning Iterative Reasoning through Energy Diffusion

TimeSiam: A Pre-Training Framework for Siamese Time-Series Modeling

LayerMerge: Neural Network Depth Compression through Layer Pruning and Merging

SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment

Position: Topological Deep Learning is the New Frontier for Relational Learning

Position: The Platonic Representation Hypothesis

A Universal Class of Sharpness-Aware Minimization Algorithms

Sharpness-Aware Data Generation for Zero-shot Quantization

Maestro: Uncovering Low-Rank Structures via Trainable Decomposition

Smoothing Proximal Gradient Methods for Nonsmooth Sparsity Constrained Optimization: Optimality Conditions and Global Convergence

Improved Generalization of Weight Space Networks via Augmentations

Learning-Efficient Yet Generalizable Collaborative Filtering for Item Recommendation

Conditionally-Conjugate Gaussian Process Factor Analysis for Spike Count Data via Data Augmentation

Amortizing Pragmatic Program Synthesis with Rankings

Rapid Learning without Catastrophic Forgetting in the Morris Water Maze

StableMask: Refining Causal Masking in Decoder-only Transformer

Can Mamba Learn How To Learn? A Comparative Study on In-Context Learning Tasks

Incorporating probabilistic domain knowledge into deep multiple instance learning

How Do Nonlinear Transformers Learn and Generalize in In-Context Learning?

Improving Transformers with Dynamically Composable Multi-Head Attention

Outlier-Efficient Hopfield Layers for Large Transformer-Based Models

An Image is Worth Multiple Words: Discovering Object Level Concepts using Multi-Concept Prompt Learning

Generative Conditional Distributions by Neural (Entropic) Optimal Transport

Attribute Based Interpretable Evaluation Metrics for Generative Models

Rolling Diffusion Models

Compositional Text-to-Image Generation with Dense Blob Representations

Break the Sequential Dependency of LLM Inference Using Lookahead Decoding

Characteristic Guidance: Non-linear Correction for Diffusion Model at Large Guidance Scale

Referee Can Play: An Alternative Approach to Conditional Generation via Model Inversion

Gibbs Sampling of Continuous Potentials on a Quantum Computer

MILP-FBGen: LP/MILP Instance Generation with Feasibility/Boundedness

Fast Timing-Conditioned Latent Audio Diffusion

HumanTOMATO: Text-aligned Whole-body Motion Generation

Rethinking Generative Large Language Model Evaluation for Semantic Comprehension

Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models

Human Alignment of Large Language Models through Online Preference Optimisation

Towards Modular LLMs by Building and Reusing a Library of LoRAs

Perfect Alignment May be Poisonous to Graph Contrastive Learning

Less is More: on the Over-Globalizing Problem in Graph Transformers

GNNs Also Deserve Editing, and They Need It More Than Once

Class-Imbalanced Graph Learning without Class Rebalancing

How Universal Polynomial Bases Enhance Spectral Graph Neural Networks: Heterophily, Over-smoothing, and Over-squashing

MAGNOLIA: Matching Algorithms via GNNs for Online Value-to-go Approximation

Graph Mixup on Approximate Gromov–Wasserstein Geodesics

Sign Rank Limitations for Inner Product Graph Decoders

Topological Neural Networks go Persistent, Equivariant, and Continuous

Recurrent Distance Filtering for Graph Representation Learning

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

On the Universality of Volume-Preserving and Coupling-Based Normalizing Flows

Case-Based or Rule-Based: How Do Transformers Do the Math?

Causal Inference out of Control: Estimating Performativity without Treatment Randomization

Physics of Language Models: Part 3.1, Knowledge Storage and Extraction

Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

Adaptive Text Watermark for Large Language Models

SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models

Do Large Code Models Understand Programming Concepts? Counterfactual Analysis for Code Predicates

Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models

In-Context Learning Agents Are Asymmetric Belief Updaters

ULTRAFEEDBACK: Boosting Language Models with Scaled AI Feedback

WorkArena: How Capable are Web Agents at Solving Common Knowledge Work Tasks?

Generating Chain-of-Thoughts with a Pairwise-Comparison Approach to Searching for the Most Promising Intermediate Thought

Position: Towards Unified Alignment Between Agents, Humans, and Environment

Libra: Building Decoupled Vision System on Large Language Models

ReGAL: Refactoring Programs to Discover Generalizable Abstractions

Position: Building Guardrails for Large Language Models Requires Systematic Design

Fundamental Limitations of Alignment in Large Language Models

DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning

Graph-enhanced Large Language Models in Asynchronous Plan Reasoning

Discovering Bias in Latent Space: An Unsupervised Debiasing Approach

Position: TrustLLM: Trustworthiness in Large Language Models

Getting the most out of your tokenizer for pre-training and domain adaptation

Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning

A Closer Look at the Limitations of Instruction Tuning

Magicoder: Empowering Code Generation with OSS-Instruct

Codebook Features: Sparse and Discrete Interpretability for Neural Networks

Position: LLMs Can’t Plan, But Can Help Planning in LLM-Modulo Frameworks

ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models

Learning and Forgetting Unsafe Examples in Large Language Models

DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent)

Efficient Exploration for LLMs

LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

Embodied CoT Distillation From LLM To Off-the-shelf Agents

SelfIE: Self-Interpretation of Large Language Model Embeddings

BetterV: Controlled Verilog Generation with Discriminative Guidance

Fewer Truncations Improve Language Modeling

R2E: Turning any Github Repository into a Programming Agent Environment

DistiLLM: Towards Streamlined Distillation for Large Language Models

STEER: Assessing the Economic Rationality of Large Language Models

LLM Maybe LongLM: SelfExtend LLM Context Window Without Tuning

Open-Vocabulary Calibration for Fine-tuned CLIP

Position: Understanding LLMs Requires More Than Statistical Generalization

Learning to Route Among Specialized Experts for Zero-Shot Generalization

APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference

Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs

Stacking Deep Set Networks and Pooling by Quantiles

Slot Abstractors: Toward Scalable Abstract Visual Reasoning

DSD-DA: Distillation-based Source Debiasing for Domain Adaptive Object Detection

Diffusion Models Demand Contrastive Guidance for Adversarial Purification to Advance

Efficient Error Certification for Physics-Informed Neural Networks

Improving Robustness to Multiple Spurious Correlations by Multi-Objective Optimization

I/O Complexity of Attention, or How Optimal is FlashAttention?

Towards Understanding the Word Sensitivity of Attention Layers: A Study via Random Features

Position: The No Free Lunch Theorem, Kolmogorov Complexity, and the Role of Inductive Biases in Machine Learning

Analysis for Abductive Learning and Neural-Symbolic Reasoning Shortcuts

An Infinite-Width Analysis on the Jacobian-Regularised Training of a Neural Network

STELLA: Continual Audio-Video Pre-training with SpatioTemporal Localized Alignment

Visual Representation Learning with Stochastic Frame Prediction

On the Effectiveness of Supervision in Asymmetric Non-Contrastive Learning

Stochastic positional embeddings improve masked image modeling

Learning from Memory: Non-Parametric Memory Augmented Self-Supervised Learning of Visual Features

The Entropy Enigma: Success and Failure of Entropy Minimization

Tell, Don't Show: Language Guidance Eases Transfer Across Domains in Images and Videos

Robustness of Deep Learning for Accelerated MRI: Benefits of Diverse Training Data

Selective Mixup Helps with Distribution Shifts, But Not (Only) because of Mixup

Collapse-Aware Triplet Decoupling for Adversarially Robust Image Retrieval

Generalization Bound and New Algorithm for Clean-Label Backdoor Attack

Compositional Curvature Bounds for Deep Neural Networks

Benign Overfitting in Adversarial Training of Neural Networks

(ends 3:00 PM)

3 p.m.

Invited Talk:

The effects of digital technology on youth development in low-and-middle-income countries

Lucía Magis-Weinberg

(ends 4:00 PM)

4 p.m.

Break:

Coffee Break

(ends 4:30 PM)

4:30 p.m.

Oral 2A Representation Learning 1 [4:30-5:30]

Orals 4:30-5:30

[4:30] Position: The Platonic Representation Hypothesis

[4:45] Robustness of Nonlinear Representation Learning

[5:00] Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks

[5:15] Rejuvenating image-GPT as Strong Visual Representation Learners

(ends 5:30 PM)

Oral 2B Positions on AI Opportunities and Risks for Society [4:30-5:30]

Orals 4:30-5:30

[4:30] Position: Technical Research and Talent is Needed for Effective AI Governance

[4:45] Position: AI-Powered Autonomous Weapons Risk Geopolitical Instability and Threaten AI Research

[5:00] Position: Near to Mid-term Risks and Opportunities of Open-Source Generative AI

[5:15] Position: On the Societal Impact of Open Foundation Models

(ends 5:30 PM)

Oral 2C Privacy [4:30-5:30]

Orals 4:30-5:30

[4:30] How Private are DP-SGD Implementations?

[4:45] Private Truly-Everlasting Robust-Prediction

[5:00] ViP: A Differentially Private Foundation Model for Computer Vision

[5:15] PrE-Text: Training Language Models on Private Federated Data in the Age of LLMs

(ends 5:30 PM)

Oral 2D Music and audio [4:30-5:30]

Orals 4:30-5:30

[4:30] Symbolic Music Generation with Non-Differentiable Rule Guided Diffusion

[4:45] DITTO: Diffusion Inference-Time T-Optimization for Music Generation

[5:00] Fast Timing-Conditioned Latent Audio Diffusion

[5:15] Listenable Maps for Audio Classifiers

(ends 5:30 PM)

Oral 2E Attention [4:30-5:30]

Orals 4:30-5:30

[4:30] Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field Dynamics on the Attention Landscape

[4:45] I/O Complexity of Attention, or How Optimal is FlashAttention?

[5:00] Improving Transformers with Dynamically Composable Multi-Head Attention

[5:15] Less is More: on the Over-Globalizing Problem in Graph Transformers

(ends 5:30 PM)

Oral 2F Efficient LLMs [4:30-5:30]

Orals 4:30-5:30

[4:30] Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation

[4:45] APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference

[5:00] DiJiang: Efficient Large Language Models through Compact Kernelization

[5:15] Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs

(ends 5:30 PM)

5:30 p.m.

WED 24 JUL

8:30 a.m.

Registration

(ends 6:00 PM)

9 a.m.

Workshop:

Women in Machine Learning (WiML) Symposium at ICML 2024

(ends 4:00 PM)

Invited Talk:

Gondzo - Charting a Path for African Low-Resource Languages: A Multifaceted Approach to Research and Development

Vukosi Marivate

(ends 10:00 AM)

10 a.m.

Break:

Coffee Break

(ends 10:30 AM)

10:30 a.m.

Oral 3A Reinforcement Learning 1 [10:30-11:30]

Orals 10:30-11:30

[10:30] Position: Automatic Environment Shaping is the Next Frontier in RL

[10:45] Pausing Policy Learning in Non-stationary Reinforcement Learning

[11:00] OMPO: A Unified Framework for RL under Policy and Dynamics Shifts

[11:15] Online Matching with Stochastic Rewards: Provable Better Bound via Adversarial Reinforcement Learning

(ends 11:30 AM)

Oral 3B Diffusion Models [10:30-11:30]

Orals 10:30-11:30

[10:30] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

[10:45] Mean-field Chaos Diffusion Models

[11:00] NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

[11:15] Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

(ends 11:30 AM)

Oral 3C LLMs: Code and Arithmetic [10:30-11:30]

Orals 10:30-11:30

[10:30] Chain of Code: Reasoning with a Language Model-Augmented Code Emulator

[10:45] SceneCraft: An LLM Agent for Synthesizing 3D Scenes as Blender Code

[11:00] Interpreting and Improving Large Language Models in Arithmetic Calculation

[11:15] Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks

(ends 11:30 AM)

Oral 3D Probabilistic Inference [10:30-11:30]

Orals 10:30-11:30

[10:30] Active Statistical Inference

[10:45] Sparse Inducing Points in Deep Gaussian Processes: Enhancing Modeling with Denoising Diffusion Variational Inference

[11:00] Probabilistic Generating Circuits - Demystified

[11:15] Probabilistic Inference in Language Models via Twisted Sequential Monte Carlo

(ends 11:30 AM)

Oral 3E Data and Society [10:30-11:30]

Orals 10:30-11:30

[10:30] Position: Measure Dataset Diversity, Don't Just Claim It

[10:45] Rethinking Data Shapley for Data Selection Tasks: Misleads and Merits

[11:00] Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

[11:15] Differentiable Mapper for Topological Optimization of Data Representation

(ends 11:30 AM)

Oral 3F Causality [10:30-11:30]

Orals 10:30-11:30

[10:30] Doubly Robust Causal Effect Estimation under Networked Interference via Targeted Learning

[10:45] Hybrid$^2$ Neural ODE Causal Modeling and an Application to Glycemic Response

[11:00] Inferring the Long-Term Causal Effects of Long-Term Treatments from Short-Term Experiments

[11:15] ACE: Off-Policy Actor-Critic with Causality-Aware Entropy Regularization

(ends 11:30 AM)

11:30 a.m.

Poster Session 3 [11:30-1:00]

BLO-SAM: Bi-level Optimization Based Finetuning of the Segment Anything Model for Overfitting-Preventing Semantic Segmentation

Exploiting Code Symmetries for Learning Program Semantics

Be Your Own Neighborhood: Detecting Adversarial Examples by the Neighborhood Relations Built on Self-Supervised Learning

Ensemble Pruning for Out-of-distribution Generalization

An Unsupervised Approach for Periodic Source Detection in Time Series

Beyond Individual Input for Deep Anomaly Detection on Tabular Data

Exploring the Low-Pass Filtering Behavior in Image Super-Resolution

Achieving Lossless Gradient Sparsification via Mapping to Alternative Space in Federated Learning

Asymptotics of feature learning in two-layer networks after one gradient-step

No Free Prune: Information-Theoretic Barriers to Pruning at Initialization

Towards Theoretical Understandings of Self-Consuming Generative Models

MagicPose: Realistic Human Poses and Facial Expressions Retargeting with Identity-aware Diffusion

The Benefits of Reusing Batches for Gradient Descent in Two-Layer Networks: Breaking the Curse of Information and Leap Exponents

Catapults in SGD: spikes in the training loss and their impact on generalization through feature learning

How Spurious Features are Memorized: Precise Analysis for Random and NTK Features

The Illusion of State in State-Space Models

Integrating Multimodal Data for Joint Generative Modeling of Complex Dynamics

Neural Jump-Diffusion Temporal Point Processes

Graph-based Forecasting with Missing Data through Spatiotemporal Downsampling

Amortized Equation Discovery in Hybrid Dynamical Systems

Scale-Free Image Keypoints Using Differentiable Persistent Homology

Gradient-based Visual Explanation for Transformer-based CLIP

EvTexture: Event-driven Texture Enhancement for Video Super-Resolution

DeCoOp: Robust Prompt Tuning with Out-of-Distribution Detection

Beyond Sole Strength: Customized Ensembles for Generalized Vision-Language Models

Towards Unified Multi-granularity Text Detection with Interactive Attention

PointMC: Multi-instance Point Cloud Registration based on Maximal Cliques

Drug Discovery with Dynamic Goal-aware Fragments

Generative Flows on Discrete State-Spaces: Enabling Multimodal Flows with Applications to Protein Co-Design

Faster Sampling via Stochastic Gradient Proximal Sampler

A New Branch-and-Bound Pruning Framework for $\ell_0$-Regularized Problems

High-Probability Bound for Non-Smooth Non-Convex Stochastic Optimization with Heavy Tails

Riemannian coordinate descent algorithms on matrix manifolds

Supervised Matrix Factorization: Local Landscape Analysis and Applications

Symmetric Matrix Completion with ReLU Sampling

Exponential Spectral Pursuit: An Effective Initialization Method for Sparse Phase Retrieval

Spectral Preconditioning for Gradient Methods on Graded Non-convex Functions

MADA: Meta-Adaptive Optimizers Through Hyper-Gradient Descent

MALIBO: Meta-learning for Likelihood-free Bayesian Optimization

Interaction-based Retrieval-augmented Diffusion Models for Protein-specific 3D Molecule Generation

PDHG-Unrolled Learning-to-Optimize Method for Large-Scale Linear Programming

Consistent Submodular Maximization

LPGD: A General Framework for Backpropagation through Embedded Optimization Layers

Differentiable Mapper for Topological Optimization of Data Representation

Learning Associative Memories with Gradient Descent

Differentiable Model Scaling using Differentiable Topk

Neural NeRF Compression

One Meta-tuned Transformer is What You Need for Few-shot Learning

Equivariant Diffusion for Crystal Structure Prediction

FAFE: Immune Complex Modeling with Geodesic Distance Loss on Noisy Group Frames

Antibody Design Using a Score-based Diffusion Model Guided by Evolutionary, Physical and Geometric Constraints

CLIPZyme: Reaction-Conditioned Virtual Screening of Enzymes

Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations

SuDA: Support-based Domain Adaptation for Sim2Real Hinge Joint Tracking with Flexible Sensors

Polygonal Unadjusted Langevin Algorithms: Creating stable and efficient adaptive algorithms for neural networks

Promoting External and Internal Equities Under Ex-Ante/Ex-Post Metrics in Online Resource Allocation

Offline Multi-Objective Optimization

Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark

Variance-reduced Zeroth-Order Methods for Fine-Tuning Language Models

Bayesian Optimization of Function Networks with Partial Evaluations

Dynamic Byzantine-Robust Learning: Adapting to Switching Byzantine Workers

Accelerating Federated Learning with Quick Distributed Mean Estimation

FADAS: Towards Federated Adaptive Asynchronous Optimization

Integrated Hardware Architecture and Device Placement Search

Recurrent Early Exits for Federated Learning with Heterogeneous Clients

Quantum Theory and Application of Contextual Optimal Transport

ACE: Off-Policy Actor-Critic with Causality-Aware Entropy Regularization

ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages

Risk Aware Benchmarking of Large Language Models

Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts

Rich-Observation Reinforcement Learning with Continuous Latent Dynamics

Learning Causal Dynamics Models in Object-Oriented Environments

Just Cluster It: An Approach for Exploration in High-Dimensions using Clustering and Pre-Trained Representations

Bridging Environments and Language with Rendering Functions and Vision-Language Models

SiT: Symmetry-invariant Transformers for Generalisation in Reinforcement Learning

Investigating Pre-Training Objectives for Generalization in Vision-Based Reinforcement Learning

Trust the Model Where It Trusts Itself - Model-Based Actor-Critic with Uncertainty-Aware Rollout Adaption

Breadth-First Exploration on Adaptive Grid for Reinforcement Learning

Enhancing Value Function Estimation through First-Order State-Action Dynamics in Offline Reinforcement Learning

Combining Experimental and Historical Data for Policy Evaluation

In-Context Decision Transformer: Reinforcement Learning via Hierarchical Chain-of-Thought

Target Networks and Over-parameterization Stabilize Off-policy Bootstrapping with Function Approximation

Information-Directed Pessimism for Offline Reinforcement Learning

PlanDQ: Hierarchical Plan Orchestration via D-Conductor and Q-Performer

RVI-SAC: Average Reward Off-Policy Deep Reinforcement Learning

Pausing Policy Learning in Non-stationary Reinforcement Learning

Feasible Reachable Policy Iteration

Distributional Bellman Operators over Mean Embeddings

Position: Automatic Environment Shaping is the Next Frontier in RL

OMPO: A Unified Framework for RL under Policy and Dynamics Shifts

OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning

HarmonyDream: Task Harmonization Inside World Models

Limited Preference Aided Imitation Learning from Imperfect Demonstrations

HGAP: Boosting Permutation Invariant and Permutation Equivariant in Multi-Agent Reinforcement Learning via Graph Attention Network

Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning

Near-Optimal Reinforcement Learning with Self-Play under Adaptivity Constraints

Sample-Efficient Multiagent Reinforcement Learning with Reset Replay

SpikeLM: Towards General Spike-Driven Language Modeling via Elastic Bi-Spiking Mechanisms

Truly No-Regret Learning in Constrained MDPs

Position: Benchmarking is Limited in Reinforcement Learning Research

Sequential Neural Score Estimation: Likelihood-Free Inference with Conditional Score Based Diffusion Models

Learning to Scale Logits for Temperature-Conditional GFlowNets

Density Ratio Estimation with Doubly Strong Robustness

Robust Inverse Graphics via Probabilistic Inference

Sparse Inducing Points in Deep Gaussian Processes: Enhancing Modeling with Denoising Diffusion Variational Inference

Partially Stochastic Infinitely Deep Bayesian Neural Networks

Listening to the noise: Blind Denoising with Gibbs Diffusion

Simultaneous identification of models and parameters of scientific simulators

Challenges and Considerations in the Evaluation of Bayesian Causal Discovery

Stable Differentiable Causal Discovery

Stochastic Quantum Sampling for Non-Logconcave Distributions and Estimating Partition Functions

Parallel Affine Transformation Tuning of Markov Chain Monte Carlo

Energy-Efficient Gaussian Processes Using Low-Precision Arithmetic

Amortized Variational Deep Kernel Learning

Robust and Conjugate Gaussian Process Regression

Preventing Model Collapse in Gaussian Process Latent Variable Models

Physics and Lie symmetry informed Gaussian processes

Latent Optimal Paths by Gumbel Propagation for Variational Bayesian Dynamic Programming

Beyond ELBOs: A Large-Scale Evaluation of Variational Methods for Sampling

Bayesian Program Learning by Decompiling Amortized Knowledge

Multi-View Stochastic Block Models

A Bias-Variance-Covariance Decomposition of Kernel Scores for Generative Models

Deep Demonstration Tracing: Learning Generalizable Imitator Policy for Runtime Imitation from a Single Demonstration

Provably Neural Active Learning Succeeds via Prioritizing Perplexing Samples

Towards Understanding Inductive Bias in Transformers: A View From Infinity

Differentially Private Domain Adaptation with Theoretical Guarantees

Stability and Generalization of Stochastic Compositional Gradient Descent Algorithms

Criterion Collapse and Loss Distribution Control

Can Implicit Bias Imply Adversarial Robustness?

A Fine-grained Analysis of Fitted Q-evaluation: Beyond Parametric Models

Tilting the Odds at the Lottery: the Interplay of Overparameterisation and Curricula in Neural Networks

Optimal Coresets for Low-Dimensional Geometric Median

Non-Vacuous Generalization Bounds for Large Language Models

The good, the bad and the ugly sides of data augmentation: An implicit spectral regularization perspective

Prediction Accuracy of Learning in Games : Follow-the-Regularized-Leader meets Heisenberg

High-Dimensional Kernel Methods under Covariate Shift: Data-Dependent Implicit Regularization

EDISON: Enhanced Dictionary-Induced Tensorized Incomplete Multi-View Clustering with Gaussian Error Rank Minimization

Regression Learning with Limited Observations of Multivariate Outcomes and Features

Decoupling Learning and Decision-Making: Breaking the $\mathcal{O}(\sqrt{T})$ Barrier in Online Resource Allocation with First-Order Methods

Borda Regret Minimization for Generalized Linear Dueling Bandits

Online Learning in CMDPs: Handling Stochastic and Adversarial Constraints

Testing the Feasibility of Linear Programs with Bandit Feedback

Exploration by Optimization with Hybrid Regularizers: Logarithmic Regret with Adversarial Robustness in Partial Monitoring

Asymptotically Optimal and Computationally Efficient Average Treatment Effect Estimation in A/B testing

Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning

Hierarchical Integral Probability Metrics: A distance on random probability measures with low sample complexity

Probabilistic Generating Circuits - Demystified

Enhancing Sufficient Dimension Reduction via Hellinger Correlation

From Classification Accuracy to Proper Scoring Rules: Elicitability of Probabilistic Top List Predictions

Fast Algorithms for Hypergraph PageRank with Applications to Semi-Supervised Learning

Learning Solution-Aware Transformers for Efficiently Solving Quadratic Assignment Problem

Handling Heterogeneous Curvatures in Bandit LQR Control

Random Exploration in Bayesian Optimization: Order-Optimal Regret and Computational Efficiency

ContPhy: Continuum Physical Concept Learning and Reasoning from Videos

Eluder-based Regret for Stochastic Contextual MDPs

No-Regret Reinforcement Learning in Smooth MDPs

Efficient Black-box Adversarial Attacks via Bayesian Optimization Guided by a Function Prior

Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback

More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning

Don’t Label Twice: Quantity Beats Quality when Comparing Binary Classifiers on a Budget

Uncertainty Estimation by Density Aware Evidential Deep Learning

Local Causal Structure Learning in the Presence of Latent Variables

From Geometry to Causality- Ricci Curvature and the Reliability of Causal Inference on Networks

Learning to Infer Generative Template Programs for Visual Concepts

Multimodal Prototyping for cancer survival prediction

Reservoir Computing for Short High-Dimensional Time Series: an Application to SARS-CoV-2 Hospitalization Forecast

Zero-Shot ECG Classification with Multimodal Learning and Test-time Clinical Knowledge Enhancement

Multi-Agent Reinforcement Learning Meets Leaf Sequencing in Radiotherapy

Reference Neural Operators: Learning the Smooth Dependence of Solutions of PDEs on Geometric Deformations

Towards General Neural Surrogate Solvers with Specialized Neural Accelerators

A Neural-Preconditioned Poisson Solver for Mixed Dirichlet and Neumann Boundary Conditions

Self-Supervised Coarsening of Unstructured Grid with Automatic Differentiation

TENG: Time-Evolving Natural Gradient for Solving PDEs With Deep Neural Nets Toward Machine Precision

Dynamic Facility Location in High Dimensional Euclidean Spaces

Stochastic Interpolants with Data-Dependent Couplings

Transport of Algebraic Structure to Latent Embeddings

Generalization in Kernel Regression Under Realistic Assumptions

Boosting Offline Optimizers with Surrogate Sensitivity

tnGPS: Discovering Unknown Tensor Network Structure Search Algorithms via Large Language Models (LLMs)

OAK: Enriching Document Representations using Auxiliary Knowledge for Extreme Classification

Online Isolation Forest

Biharmonic Distance of Graphs and its Higher-Order Variants: Theoretical Properties with Applications to Centrality and Clustering

Inferring the Long-Term Causal Effects of Long-Term Treatments from Short-Term Experiments

Accelerating Legacy Numerical Solvers by Non-intrusive Gradient-based Meta-solving

A Generative Approach for Treatment Effect Estimation under Collider Bias: From an Out-of-Distribution Perspective

Modular Learning of Deep Causal Generative Models for High-dimensional Causal Inference

Conditional Common Entropy for Instrumental Variable Testing and Partial Identification

Causal Discovery with Fewer Conditional Independence Tests

Hybrid$^2$ Neural ODE Causal Modeling and an Application to Glycemic Response

Longitudinal Targeted Minimum Loss-based Estimation with Temporal-Difference Heterogeneous Transformer

Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation

Exploring Training on Heterogeneous Data with Mixture of Low-rank Adapters

RoboMP$^2$: A Robotic Multimodal Perception-Planning Framework with Multimodal Large Language Models

SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation

MS-TIP: Imputation Aware Pedestrian Trajectory Prediction

Log Neural Controlled Differential Equations: The Lie Brackets Make A Difference

Probabilistic Time Series Modeling with Decomposable Denoising Diffusion Model

TSLANet: Rethinking Transformers for Time Series Representation Learning

Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization

Efficient Online Set-valued Classification with Bandit Feedback

Quality-Weighted Vendi Scores And Their Application To Diverse Experimental Design

On Multi-Armed Bandit with Impatient Arms

A General Online Algorithm for Optimizing Complex Performance Metrics

Reducing sequential change detection to sequential estimation

Network Tight Community Detection

Learning Universal Predictors

StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization

Adaptive Group Personalization for Federated Mutual Transfer Learning

Federated Neuro-Symbolic Learning

Federated Continual Learning via Prompt-based Dual Knowledge Transfer

Unleashing the Power of Meta-tuning for Few-shot Generalization Through Sparse Interpolated Experts

Tabular Insights, Visual Impacts: Transferring Expertise from Tables to Images

Position: Measure Dataset Diversity, Don't Just Claim It

Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes

The Relative Value of Prediction in Algorithmic Decision Making

Building Socially-Equitable Public Models

What Would Gauss Say About Representations? Probing Pretrained Image Models using Synthetic Gaussian Benchmarks

Probabilistic Forecasting with Stochastic Interpolants and Föllmer Processes

Predictive Performance Comparison of Decision Policies Under Confounding

FairProof : Confidential and Certifiable Fairness for Neural Networks

Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles

Purifying Quantization-conditioned Backdoors via Layer-wise Activation Correction with Distribution Approximation

Disparate Impact on Group Accuracy of Linearization for Private Inference

Balancing Similarity and Complementarity for Federated Learning

Differentially Private Decentralized Learning with Random Walks

Privacy Profiles for Private Selection

Ditto: Quantization-aware Secure Inference of Transformers upon MPC

How to Make the Gradients Small Privately: Improved Rates for Differentially Private Non-Convex Optimization

Differentially Private Representation Learning via Image Captioning

Differentially private exact recovery for stochastic block models

Auditing Private Prediction

Proactive DP: A Multiple Target Optimization Framework for DP-SGD

Position: AI/ML Influencers Have a Place in the Academic Process

Beyond the Norms: Detecting Prediction Errors in Regression Models

GRATH: Gradual Self-Truthifying for Large Language Models

Distributionally Robust Data Valuation

A Theory of Fault-Tolerant Learning

Fair Off-Policy Learning from Observational Data

An Empirical Study Into What Matters for Calibrating Vision-Language Models

Designing Decision Support Systems using Counterfactual Prediction Sets

Diversified Batch Selection for Training Acceleration

Trustworthy Actionable Perturbations

Attribution-based Explanations that Provide Recourse Cannot be Robust

Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Language Models

Probabilistic Conceptual Explainers: Trustworthy Conceptual Explanations for Vision Foundation Models

Total Variation Floodgate for Variable Importance Inference in Classification

Understanding Inter-Concept Relationships in Concept-Based Models

Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models

Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

Learning Decision Trees and Forests with Algorithmic Recourse

Semantically-correlated memories in a dense associative model

The Emergence of Reproducibility and Consistency in Diffusion Models

Junk DNA Hypothesis: Pruning Small Pre-Trained Weights $\textit{Irreversibly}$ and $\textit{Monotonically}$ Impairs ``Difficult" Downstream Tasks in LLMs

Reflective Policy Optimization

Implicit Compressibility of Overparametrized Neural Networks Trained with Heavy-Tailed SGD

Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

Multi-Sender Persuasion: A Computational Perspective

DIDI: Diffusion-Guided Diversity for Offline Behavioral Generation

Is Inverse Reinforcement Learning Harder than Standard Reinforcement Learning? A Theoretical Perspective

Detecting Any instruction-to-answer interaction relationship:Universal Instruction-to-Answer Navigator for Med-VQA

A Nearly Optimal Single Loop Algorithm for Stochastic Bilevel Optimization under Unbounded Smoothness

SqueezeLLM: Dense-and-Sparse Quantization

Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws

Position: Machine Learning-powered Assessments of the EU Digital Services Act Aid Quantify Policy Impacts on Online Harms

How Far Can Fairness Constraints Help Recover From Biased Data?

Individual Fairness in Graph Decomposition

Faithfulness Measurable Masked Language Models

Position: Explain to Question not to Justify

Rethinking Data Shapley for Data Selection Tasks: Misleads and Merits

A General Framework for Sequential Decision-Making under Adaptivity Constraints

PANDA: Expanded Width-Aware Message Passing Beyond Rewiring

Trainable Transformer in Transformer

Improving Group Robustness on Spurious Correlation Requires Preciser Group Inference

Switchable Decision: Dynamic Neural Generation Networks

Collaborative Heterogeneous Causal Inference Beyond Meta-analysis

Collage: Light-Weight Low-Precision Strategy for LLM Training

Local Feature Selection without Label or Feature Leakage for Interpretable Machine Learning Predictions

Vanilla Bayesian Optimization Performs Great in High Dimensions

Sparse Cocktail: Every Sparse Pattern Every Sparse Ratio All At Once

Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning

Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation

Online Matching with Stochastic Rewards: Provable Better Bound via Adversarial Reinforcement Learning

Auto-Encoding Morph-Tokens for Multimodal LLM

Mathematical Framework for Online Social Media Auditing

Towards Realistic Model Selection for Semi-supervised Learning

Spectral Phase Transition and Optimal PCA in Block-Structured Spiked Models

Language Models as Science Tutors

An Explicit Frame Construction for Normalizing 3D Point Clouds

Efficient Policy Evaluation with Offline Data Informed Behavior Policy Design

Auto-Regressive Next-Token Predictors are Universal Learners

Peeking with PEAK: Sequential, Nonparametric Composite Hypothesis Tests for Means of Multiple Data Streams

SceneCraft: An LLM Agent for Synthesizing 3D Scenes as Blender Code

Provably Efficient Exploration in Quantum Reinforcement Learning with Logarithmic Worst-Case Regret

Community-Invariant Graph Contrastive Learning

Offline Transition Modeling via Contrastive Energy Learning

An Improved Finite-time Analysis of Temporal Difference Learning with Deep Neural Networks

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

Transforming and Combining Rewards for Aligning Large Language Models

Sequential Kernel Goodness-of-fit Testing

Controlled Decoding from Language Models

Self-Infilling Code Generation

Position: What makes an image realistic?

$\mathtt{VITS}$ : Variational Inference Thompson Sampling for contextual bandits

DPOT: Auto-Regressive Denoising Operator Transformer for Large-Scale PDE Pre-Training

Leveraging (Biased) Information: Multi-armed Bandits with Offline Data

Mean-field Chaos Diffusion Models

Completing Visual Objects via Bridging Generation and Segmentation

Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning?

SILVER: Single-loop variance reduction and application to federated learning

UPOCR: Towards Unified Pixel-Level OCR Interface

Effective Federated Graph Matching

Understanding and Diagnosing Deep Reinforcement Learning

Projecting Molecules into Synthesizable Chemical Spaces

Keypoint-based Progressive Chain-of-Thought Distillation for LLMs

Chain of Code: Reasoning with a Language Model-Augmented Code Emulator

InstructSpeech: Following Speech Editing Instructions via Large Language Models

RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis

Revisiting Scalable Hessian Diagonal Approximations for Applications in Reinforcement Learning

A Graph is Worth $K$ Words: Euclideanizing Graph using Pure Transformer

PEARL: Zero-shot Cross-task Preference Alignment and Robust Reward Learning for Robotic Manipulation

FreeBind: Free Lunch in Unified Multimodal Space via Knowledge Fusion

Bounded and Uniform Energy-based Out-of-distribution Detection for Graphs

MLI Formula: A Nearly Scale-Invariant Solution with Noise Perturbation

ArtWhisperer: A Dataset for Characterizing Human-AI Interactions in Artistic Creations

High-Performance Temporal Reversible Spiking Neural Networks with $\mathcal{O}(L)$ Training Memory and $\mathcal{O}(1)$ Inference Cost

Revealing Vision-Language Integration in the Brain with Multimodal Networks

Position: Enforced Amnesia as a Way to Mitigate the Potential Risk of Silent Suffering in the Conscious AI

Autaptic Synaptic Circuit Enhances Spatio-temporal Predictive Learning of Spiking Neural Networks

Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners?

Leveraging Attractor Dynamics in Spatial Navigation for Better Language Parsing

Exploring the Enigma of Neural Dynamics Through A Scattering-Transform Mixer Landscape for Riemannian Manifold

StackSight: Unveiling WebAssembly through Large Language Models and Neurosymbolic Chain-of-Thought Decompilation

ELF: Encoding Speaker-Specific Latent Speech Feature for Speech Synthesis

PinNet: Pinpoint Instructive Information for Retrieval Augmented Code-to-Text Generation

UniAudio: Towards Universal Audio Generation with Large Language Models

Successor Features for Efficient Multi-Subject Controlled Text Generation

LLark: A Multimodal Instruction-Following Language Model for Music

SelfVC: Voice Conversion With Iterative Refinement using Self Transformations

Predicting Dose-Response Curves with Deep Neural Networks

Cell2Sentence: Teaching Large Language Models the Language of Biology

CauDiTS: Causal Disentangled Domain Adaptation of Multivariate Time Series

SleepFM: Multi-modal Representation Learning for Sleep Across Brain Activity, ECG and Respiratory Signals

Predicting and Interpreting Energy Barriers of Metallic Glasses with Graph Neural Networks

Reinforcement Learning within Tree Search for Fast Macro Placement

Bagged Deep Image Prior for Recovering Images in the Presence of Speckle Noise

Learning Linear Block Error Correction Codes

MathScale: Scaling Instruction Tuning for Mathematical Reasoning

Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity

Convex and Bilevel Optimization for Neural-Symbolic Inference and Learning

What needs to go right for an induction head? A mechanistic study of in-context learning circuits and their formation

Is Kernel Prediction More Powerful than Gating in Convolutional Neural Networks?

How to Leverage Diverse Demonstrations in Offline Imitation Learning

To Cool or not to Cool? Temperature Network Meets Large Foundation Models via DRO

Harmonizing Generalization and Personalization in Federated Prompt Learning

Fine-grained Classes and How to Find Them

Efficient Precision and Recall Metrics for Assessing Generative Models using Hubness-aware Sampling

Bayesian Knowledge Distillation: A Bayesian Perspective of Distillation with Uncertainty Quantification

Which Frequencies do CNNs Need? Emergent Bottleneck Structure in Feature Learning

SelMatch: Effectively Scaling Up Dataset Distillation via Selection-Based Initialization and Partial Updates by Trajectory Matching

Bidirectional Reciprocative Information Communication for Few-Shot Semantic Segmentation

D-Flow: Differentiating through Flows for Controlled Generation

Data-efficient Large Vision Models through Sequential Autoregression

Don't be so Negative! Score-based Generative Modeling with Oracle-assisted Guidance

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

DFlow: A Generative Model Combining Denoising AutoEncoder and Normalizing Flow for High Fidelity Waveform Generation

HyperFields: Towards Zero-Shot Generation of NeRFs from Text

Boximator: Generating Rich and Controllable Motions for Video Synthesis

CHAI: Clustered Head Attention for Efficient LLM Inference

InterpreTabNet: Distilling Predictive Signals from Tabular Data by Salient Feature Interpretation

Visual Transformer with Differentiable Channel Selection: An Information Bottleneck Inspired Approach

How Smooth Is Attention?

SparQ Attention: Bandwidth-Efficient LLM Inference

Two Tales of Single-Phase Contrastive Hebbian Learning

A2Q+: Improving Accumulator-Aware Weight Quantization

Jetfire: Efficient and Accurate Transformer Pretraining with INT8 Data Flow and Per-Block Quantization

Amend to Alignment: Decoupled Prompt Tuning for Mitigating Spurious Correlation in Vision-Language Models

Sparse Dimensionality Reduction Revisited

On a Neural Implementation of Brenier's Polar Factorization

Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass Diffusion Transformers

Non-confusing Generation of Customized Concepts in Diffusion Models

How Learning by Reconstruction Produces Uninformative Features For Perception

Graph Generation with Diffusion Mixture

Self-Correcting Self-Consuming Loops for Generative Model Training

Cross-view Masked Diffusion Transformers for Person Image Synthesis

SMaRt: Improving GANs with Score Matching Regularity

E$^2$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation

Interpreting and Improving Diffusion Models from an Optimization Perspective

Disentanglement Learning via Topology

Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases

What’s the score? Automated Denoising Score Matching for Nonlinear Diffusions

Estimating Barycenters of Distributions with Neural Optimal Transport

GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

Graph Attention Retrospective

PhAST: Physics-Aware, Scalable, and Task-Specific GNNs for Accelerated Catalyst Design

On the Role of Edge Dependency in Graph Generative Models

Compositional Capabilities of Autoregressive Transformers: A Study on Synthetic, Interpretable Tasks

WAVES: Benchmarking the Robustness of Image Watermarks

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

How Well Can LLMs Negotiate? NegotiationArena Platform and Analysis

Interpreting and Improving Large Language Models in Arithmetic Calculation

Do Models Explain Themselves? Counterfactual Simulatability of Natural Language Explanations

Multicalibration for Confidence Scoring in LLMs

Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation

In-Context Language Learning: Architectures and Algorithms

Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference

Whispering Experts: Neural Interventions for Toxicity Mitigation in Language Models

Sparse is Enough in Fine-tuning Pre-trained Large Language Models

Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for Instruction Fine-Tuning

Coactive Learning for Large Language Models using Implicit User Feedback

Unsupervised Parameter-free Simplicial Representation Learning with Scattering Transforms

Feature Distribution on Graph Topology Mediates the Effect of Graph Convolution: Homophily Perspective

On dimensionality of feature vectors in MPNNs

GATE: How to Keep Out Intrusive Neighbors

Re-Dock: Towards Flexible and Realistic Molecular Docking with Diffusion Bridge

Position: Key Claims in LLM Research Have a Long Tail of Footnotes

A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts

InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining

ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models

MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI

Stay on Topic with Classifier-Free Guidance

Tandem Transformers for Inference Efficient LLMs

Random Masking Finds Winning Tickets for Parameter Efficient Fine-tuning

Watermark Stealing in Large Language Models

Online Cascade Learning for Efficient Inference over Streams

Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes

Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation

Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation

Probabilistic Inference in Language Models via Twisted Sequential Monte Carlo

SLEB: Streamlining LLMs through Redundancy Verification and Elimination of Transformer Blocks

Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks

Conditional Language Learning with Context

Improving Accuracy-robustness Trade-off via Pixel Reweighted Adversarial Training

Measuring Stochastic Data Complexity with Boltzmann Influence Functions

Learning to Predict Mutational Effects of Protein-Protein Interactions by Microenvironment-aware Hierarchical Prompt Learning

Decoupling Feature Extraction and Classification Layers for Calibrated Neural Networks

Collective Certified Robustness against Graph Injection Attacks

Attack-free Evaluating and Enhancing Adversarial Robustness on Categorical Data

Towards Efficient Training and Evaluation of Robust Models against $l_0$ Bounded Adversarial Perturbations

Extending Adversarial Attacks to Produce Adversarial Class Probability Distributions

From Neurons to Neutrons: A Case Study in Interpretability

USTAD: Unified Single-model Training Achieving Diverse Scores for Information Retrieval

Prototypical Transformer As Unified Motion Learners

Improving Factuality and Reasoning in Language Models through Multiagent Debate

Agent Instructs Large Language Models to be General Zero-Shot Reasoners

Provably Robust DPO: Aligning Language Models with Noisy Feedback

Distinguishing the Knowable from the Unknowable with Language Models

Better & Faster Large Language Models via Multi-token Prediction

Decoding-time Realignment of Language Models

BBox-Adapter: Lightweight Adapting for Black-Box Large Language Models

(ends 1:00 PM)

12:30 p.m.

Break:

Hosted Lunch

(ends 2:00 PM)

1:30 p.m.

Poster Session 4 [1:30-3:00]

Statistical Inference Under Constrained Selection Bias

Hierarchical State Space Models for Continuous Sequence-to-Sequence Modeling

Premise Order Matters in Reasoning with Large Language Models

Balanced Resonate-and-Fire Neurons

Stability-Informed Initialization of Neural Ordinary Differential Equations

Doubly Robust Causal Effect Estimation under Networked Interference via Targeted Learning

Experts Don't Cheat: Learning What You Don't Know By Predicting Pairs

Extending Test-Time Augmentation with Metamorphic Relations for Combinatorial Problems

Towards Causal Foundation Model: on Duality between Optimal Balancing and Attention

Towards Efficient Spiking Transformer: a Token Sparsification Framework for Training and Inference Acceleration

CLIF: Complementary Leaky Integrate-and-Fire Neuron for Spiking Neural Networks

Multi-Factor Adaptive Vision Selection for Egocentric Video Question Answering

No Wrong Turns: The Simple Geometry Of Neural Networks Optimization Paths

Learning-Rate-Free Stochastic Optimization over Riemannian Manifolds

Understanding the Training Speedup from Sampling with Approximate Losses

Optimal Hessian/Jacobian-Free Nonconvex-PL Bilevel Optimization

Convergence of Some Convex Message Passing Algorithms to a Fixed Point

Optimal Acceleration for Minimax and Fixed-Point Problems is Not Unique

Dynamic Correlation Clustering in Sublinear Update Time

Tackling Prevalent Conditions in Unsupervised Combinatorial Optimization: Cardinality, Minimum, Covering, and More

DRCT: Diffusion Reconstruction Contrastive Training towards Universal Detection of Diffusion Generated Images

ERQ: Error Reduction for Post-Training Quantization of Vision Transformers

Discrete Latent Perspective Learning for Segmentation and Detection

ESNet: Evolution and Succession Network for High-Resolution Salient Object Detection

Position: Mission Critical – Satellite Data is a Distinct Modality in Machine Learning

Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels

Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models

Compress Clean Signal from Noisy Raw Image: A Self-Supervised Approach

See More Details: Efficient Image Super-Resolution by Experts Mining

Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning

Geometric Active Exploration in Markov Decision Processes: the Benefit of Abstraction

LQER: Low-Rank Quantization Error Reconstruction for LLMs

Federated Optimization with Doubly Regularized Drift Correction

Riemannian Accelerated Zeroth-order Algorithm: Improved Robustness and Lower Query Complexity

Position: Leverage Foundational Models for Black-Box Optimization

Principled Preferential Bayesian Optimization

Posterior Sampling-Based Bayesian Optimization with Tighter Bayesian Regret Bounds

Demystifying SGD with Doubly Stochastic Gradients

Projection-Free Variance Reduction Methods for Stochastic Constrained Multi-Level Compositional Optimization

Improving Antibody Humanness Prediction using Patent Data

Mean-field Underdamped Langevin Dynamics and its Spacetime Discretization

Non-clairvoyant Scheduling with Partial Predictions

Differentiability and Optimization of Multiparameter Persistent Homology

Understanding Adam Optimizer via Online Learning of Updates: Adam is FTRL in Disguise

Zeroth-Order Methods for Constrained Nonconvex Nonsmooth Stochastic Optimization

Convergence and Complexity Guarantee for Inexact First-order Riemannian Optimization Algorithms

Measures of diversity and space-filling designs for categorical data

Combinatorial Approximations for Cluster Deletion: Simpler, Faster, and Better

Surface-VQMAE: Vector-quantized Masked Auto-encoders on Molecular Surfaces

Representing Molecules as Random Walks Over Interpretable Grammars

A Sober Look at LLMs for Material Discovery: Are They Actually Good for Bayesian Optimization Over Molecules?

UniCorn: A Unified Contrastive Learning Approach for Multi-view Molecular Representation Learning

Advancing DRL Agents in Commercial Fighting Games: Training, Integration, and Agent-Human Alignment

Position: Data-driven Discovery with Large Generative Models

PcLast: Discovering Plannable Continuous Latent States

Uncertainty-Aware Reward-Free Exploration with General Function Approximation

Mollification Effects of Policy Gradient Methods

MusicRL: Aligning Music Generation to Human Preferences

Planning, Fast and Slow: Online Reinforcement Learning with Action-Free Offline Data via Multiscale Planners

Efficient Value Iteration for s-rectangular Robust Markov Decision Processes

An Information Theoretic Approach to Interaction-Grounded Learning

Tackling Non-Stationarity in Reinforcement Learning via Causal-Origin Representation

ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

Policy-conditioned Environment Models are More Generalizable

Robust Inverse Constrained Reinforcement Learning under Model Misspecification

Provably Efficient Reinforcement Learning for Adversarial Restless Multi-Armed Bandits with Unknown Transitions and Bandit Feedback

Model-based Reinforcement Learning for Parameterized Action Spaces

Sequential Asynchronous Action Coordination in Multi-Agent Systems: A Stackelberg Decision Transformer Approach

Optimal Batched Linear Bandits

Model-based Reinforcement Learning for Confounded POMDPs

Scalable Safe Policy Improvement for Factored Multi-Agent MDPs

Contrastive Representation for Data Filtering in Cross-Domain Offline Reinforcement Learning

FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning

Position: Evolving AI Collectives Enhance Human Diversity and Enable Self-Regulation

Detecting Influence Structures in Multi-Agent Reinforcement Learning

Multi-Agent Reinforcement Learning with Hierarchical Coordination for Emergency Responder Stationing

Imitation Learning from Purified Demonstrations

A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback

Confidence Aware Inverse Constrained Reinforcement Learning

Rate-Optimal Policy Optimization for Linear Markov Decision Processes

In value-based deep reinforcement learning, a pruned network is a good network

In-Context Reinforcement Learning for Variable Action Spaces

Craftax: A Lightning-Fast Benchmark for Open-Ended Reinforcement Learning

Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling

Quality-Diversity with Limited Resources

SAPG: Split and Aggregate Policy Gradients

Learning a Diffusion Model Policy from Rewards via Q-Score Matching

Adaptive Horizon Actor-Critic for Policy Learning in Contact-Rich Differentiable Simulation

INViT: A Generalizable Routing Problem Solver with Invariant Nested View Transformer

A Bayesian Approach to Online Planning

Highway Value Iteration Networks

Accelerated Policy Gradient for s-rectangular Robust MDPs with Large State Spaces

Reinforcement Learning from Reachability Specifications: PAC Guarantees with Expected Conditional Distance

To the Max: Reinventing Reward in Reinforcement Learning

A Distributional Analogue to the Successor Representation

Estimating Unknown Population Sizes Using the Hypergeometric Distribution

Random matrix theory improved Fréchet mean of symmetric positive definite matrices

A Computational Framework for Solving Wasserstein Lagrangian Flows

Nonlinear Filtering with Brenier Optimal Transport Maps

Deep Functional Factor Models: Forecasting High-Dimensional Functional Time Series via Bayesian Nonparametric Factorization

Connecting the Dots: Is Mode-Connectedness the Key to Feasible Sample-Based Inference in Bayesian Neural Networks?

Exact Soft Analytical Side-Channel Attacks using Tractable Circuits

A connection between Tempering and Entropic Mirror Descent

Improving Gradient-Guided Nested Sampling for Posterior Inference

Iterated Denoising Energy Matching for Sampling from Boltzmann Densities

Sampling in Unit Time with Kernel Fisher-Rao Flow

Multi-Fidelity Residual Neural Processes for Scalable Surrogate Modeling

Implicit Bias of Policy Gradient in Linear Quadratic Control: Extrapolation to Unseen Initial States

Universal Consistency of Wide and Deep ReLU Neural Networks and Minimax Optimal Convergence Rates for Kolmogorov-Donoho Optimal Function Classes

Understanding Unimodal Bias in Multimodal Deep Linear Networks

Hyperbolic Active Learning for Semantic Segmentation under Domain Shift

O$n$ Learning Deep O($n$)-Equivariant Hyperspheres

Online Learning and Information Exponents: The Importance of Batch size & Time/Complexity Tradeoffs

Winner-takes-all learners are geometry-aware conditional density estimators

Sobolev Space Regularised Pre Density Models

Reparameterized Importance Sampling for Robust Variational Bayesian Neural Networks

How Transformers Learn Causal Structure with Gradient Descent

Learning High-Frequency Functions Made Easy with Sinusoidal Positional Encoding

One Size Fits All for Semantic Shifts: Adaptive Prompt Tuning for Continual Learning

Graphon Mean Field Games with a Representative Player: Analysis and Learning Algorithm

Algorithmic Stability Unleashed: Generalization Bounds with Unbounded Losses

On the Asymptotic Distribution of the Minimum Empirical Risk

Characterizing Overfitting in Kernel Ridgeless Regression Through the Eigenspectrum

Stability and Generalization for Stochastic Recursive Momentum-based Algorithms for (Strongly-)Convex One to $K$-Level Stochastic Optimizations

No Double Descent in Principal Component Regression: A High-Dimensional Analysis

Online Learning with Bounded Recall

Faster Streaming and Scalable Algorithms for Finding Directed Dense Subgraphs in Large Graphs

Characterizing ResNet's Universal Approximation Capability

$H$-Consistency Guarantees for Regression

Agnostic Learning of Mixed Linear Regressions with EM and AM Algorithms

Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts?

Understanding the Impact of Introducing Constraints at Inference Time on Generalization Error

Unveiling the Cycloid Trajectory of EM Iterations in Mixed Linear Regression

Generalization Analysis for Multi-Label Learning

Factored-Reward Bandits with Intermediate Observations

Nash Incentive-compatible Online Mechanism Learning via Weakly Differentially Private Online Learning

Projection-Free Online Convex Optimization with Time-Varying Constraints

Noise-Adaptive Confidence Sets for Linear Bandits and Application to Bayesian Optimization

Online Learning under Budget and ROI Constraints via Weak Adaptivity

Finite Time Logarithmic Regret Bounds for Self-Tuning Regulation

Randomized Confidence Bounds for Stochastic Partial Monitoring

Revitalizing Multivariate Time Series Forecasting: Learnable Decomposition with Inter-Series Dependencies and Intra-Series Variations Modeling

Performance Bounds for Active Binary Testing with Information Maximization

Reducing Balancing Error for Causal Inference via Optimal Transport

Jacobian Regularizer-based Neural Granger Causality

Causal Effect Identification in LiNGAM Models with Latent Confounders

Effect-Invariant Mechanisms for Policy Generalization

Balancing Feature Similarity and Label Variability for Optimal Size-Aware One-shot Subset Selection

Reweighted Solutions for Weighted Low Rank Approximation

Efficient Exploration in Average-Reward Constrained Reinforcement Learning: Achieving Near-Optimal Regret With Posterior Sampling

A Primal-Dual Algorithm for Offline Constrained Reinforcement Learning with Linear MDPs

Run-Time Task Composition with Safety Semantics

$\bf{\Phi}_\textrm{Flow}$: Differentiable Simulations for PyTorch, TensorFlow and Jax

Causal Customer Churn Analysis with Low-rank Tensor Block Hazard Model

Off-policy Evaluation Beyond Overlap: Sharp Partial Identification Under Smoothness

Meta-Learners for Partially-Identified Treatment Effects Across Multiple Environments

Interplay of ROC and Precision-Recall AUCs: Theoretical Limits and Practical Implications in Binary Classification

CurBench: Curriculum Learning Benchmark

COPAL: Continual Pruning in Large Language Generative Models

Socialized Learning: Making Each Other Better Through Multi-Agent Collaboration

Mind the Boundary: Coreset Selection via Reconstructing the Decision Boundary

HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning

Towards a Self-contained Data-driven Global Weather Forecasting Framework

Using Uncertainty Quantification to Characterize and Improve Out-of-Domain Learning for PDEs

Equivariant Graph Neural Operator for Modeling 3D Dynamics

3D-VLA: A 3D Vision-Language-Action Generative World Model

Position: Scaling Simulation is Neither Necessary Nor Sufficient for In-the-Wild Robot Manipulation

Learning Reward for Robot Skills Using Large Language Models via Self-Alignment

CATS: Enhancing Multivariate Time Series Forecasting by Constructing Auxiliary Time Series as Exogenous Variables

Learning Optimal Projection for Forecast Reconciliation of Hierarchical Time Series

MF-CLR: Multi-Frequency Contrastive Learning Representation for Time Series

A decoder-only foundation model for time-series forecasting

Language-Driven Cross-Modal Classifier for Zero-Shot Multi-Label Image Recognition

Multi-Source Conformal Inference Under Distribution Shift

Meta-Reinforcement Learning Robust to Distributional Shift Via Performing Lifelong In-Context Learning

Towards the Theory of Unsupervised Federated Learning: Non-asymptotic Analysis of Federated EM Algorithms

Enhancing Cross-Modal Fine-Tuning with Gradually Intermediate Modality Generation

Pseudo-Calibration: Improving Predictive Uncertainty Estimation in Unsupervised Domain Adaptation

Non-parametric Online Change Point Detection on Riemannian Manifolds

Federated Combinatorial Multi-Agent Multi-Armed Bandits

Positive and Unlabeled Learning with Controlled Probability Boundary Fence

Erasing the Bias: Fine-Tuning Foundation Models for Semi-Supervised Learning

Modelling Microbial Communities with Graph Neural Networks

MC-GTA: Metric-Constrained Model-Based Clustering using Goodness-of-fit Tests with Autocorrelations

Diffusion-based Missing-view Generation With the Application on Incomplete Multi-view Clustering

Long-Tail Learning with Foundation Model: Heavy Fine-Tuning Hurts

Implicit Representations for Constrained Image Segmentation

Neural-Kernel Conditional Mean Embeddings

Adaptive Learning of Density Ratios in RKHS

Ambiguity-Aware Abductive Learning

Operator SVD with Neural Networks via Nested Low-Rank Approximation

Speech Self-Supervised Learning Using Diffusion Model Synthetic Data

LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery

Efficient and Effective Time-Series Forecasting with Spiking Neural Networks

Predictive Coding beyond Correlations

AutoOS: Make Your OS More Powerful by Exploiting Large Language Models

A Unified Adaptive Testing System Enabled by Hierarchical Structure Search

On the Origins of Linear Representations in Large Language Models

Position: Why We Must Rethink Empirical Research in Machine Learning

The Role of Learning Algorithms in Collective Action

Locally Estimated Global Perturbations are Better than Local Perturbations for Federated Sharpness-aware Minimization

Delving into Differentially Private Transformer

The Fundamental Limits of Least-Privilege Learning

Trained Random Forests Completely Reveal your Dataset

Mean Estimation in the Add-Remove Model of Differential Privacy

Differentially Private Bias-Term Fine-tuning of Foundation Models

Beyond the Calibration Point: Mechanism Comparison in Differential Privacy

PriorBoost: An Adaptive Algorithm for Learning from Aggregate Responses

Low-Cost High-Power Membership Inference Attacks

Differentially Private Sum-Product Networks

PID: Prompt-Independent Data Protection Against Latent Diffusion Models

PerceptAnon: Exploring the Human Perception of Image Anonymization Beyond Pseudonymization for GDPR

Conformal Prediction Sets Improve Human Decision Making

Tilt and Average : Geometric Adjustment of the Last Layer for Recalibration

How do Large Language Models Navigate Conflicts between Honesty and Helpfulness?

Extracting Training Data From Document-Based VQA Models

TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors

Intersecting-Boundary-Sensitive Fingerprinting for Tampering Detection of DNN Models

Score-Based Causal Discovery of Latent Variable Causal Models

AI Alignment with Changing and Influenceable Reward Functions

Progressive Inference: Explaining Decoder-Only Sequence Classification Models Using Intermediate Predictions

Deletion-Anticipative Data Selection with a Limited Budget

Stability and Multigroup Fairness in Ranking with Uncertain Predictions

Stealing part of a production language model

A Theoretical Analysis of Backdoor Poisoning Attacks in Convolutional Neural Networks

Robust Universal Adversarial Perturbations

Structure Your Data: Towards Semantic Graph Counterfactuals

Compact Optimality Verification for Optimization Proxies

Robust Yet Efficient Conformal Prediction Sets

Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast

DISCRET: Synthesizing Faithful Explanations For Treatment Effect Estimation

Augmenting Decision with Hypothesis in Reinforcement Learning

Fair Federated Learning via the Proportional Veto Core

TimeX++: Learning Time-Series Explanations with Information Bottleneck

Performative Prediction with Bandit Feedback: Learning through Reparameterization

SignSGD with Federated Defense: Harnessing Adversarial Attacks through Gradient Sign Decoding

Hidden Traveling Waves bind Working Memory Variables in Recurrent Neural Networks

Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion

Interpretability Illusions in the Generalization of Simplified Models

On the Tractability of SHAP Explanations under Markovian Distributions

A Multimodal Automated Interpretability Agent

Manifold Integrated Gradients: Riemannian Geometry for Feature Attribution

MD tree: a model-diagnostic tree grown on loss landscape

Local vs. Global Interpretability: A Computational Complexity Perspective

Attention Meets Post-hoc Interpretability: A Mathematical Perspective

Remembering to Be Fair: Non-Markovian Fairness in Sequential Decision Making

Monotone Individual Fairness

MaxMin-RLHF: Alignment with Diverse Human Preferences

Centralized Selection with Preferences in the Presence of Biases

Intersectional Unfairness Discovery

AI Control: Improving Safety Despite Intentional Subversion

Orthogonal Bootstrap: Efficient Simulation of Input Uncertainty

Retrieval Across Any Domains via Large-scale Pre-trained Model

Learning Pseudo-Contractive Denoisers for Inverse Problems

Detecting and Identifying Selection Structure in Sequential Data

Bespoke Non-Stationary Solvers for Fast Sampling of Diffusion and Flow Models

Compute Better Spent: Replacing Dense Layers with Structured Matrices

Learning Latent Dynamic Robust Representations for World Models

Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines

A Space Group Symmetry Informed Network for O(3) Equivariant Crystal Tensor Prediction

A Geometric Decomposition of Finite Games: Convergence vs. Recurrence under Exponential Weights

Kepler codebook

High-dimensional Linear Bandits with Knapsacks

Certifiably Byzantine-Robust Federated Conformal Prediction

On the Nonlinearity of Layer Normalization

On the Calibration of Human Pose Estimation

Large Scale Dataset Distillation with Domain Shift

Position: Intent-aligned AI Systems Must Optimize for Agency Preservation

Position: Fundamental Limitations of LLM Censorship Necessitate New Approaches

Training-Free Long-Context Scaling of Large Language Models

Disentangled 3D Scene Generation with Layout Learning

SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation

LoRA+: Efficient Low Rank Adaptation of Large Models

Learning 1-Bit Tiny Object Detector with Discriminative Feature Refinement

DetKDS: Knowledge Distillation Search for Object Detectors

Gaussian Plane-Wave Neural Operator for Electron Density Estimation

How to Trace Latent Generative Model Generated Images without Artificial Watermark?

Explain Temporal Black-Box Models via Functional Decomposition

Simplicity Bias via Global Convergence of Sharpness Minimization

BAGEL: Bootstrapping Agents by Guiding Exploration with Language

Iterative Data Smoothing: Mitigating Reward Overfitting and Overoptimization in RLHF

Position: Do pretrained Transformers Learn In-Context by Gradient Descent?

Generalization Analysis of Stochastic Weight Averaging with General Sampling

What Can Transformer Learn with Varying Depth? Case Studies on Sequence Learning Tasks

Two Fists, One Heart: Multi-Objective Optimization Based Strategy Fusion for Long-tailed Learning

Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity

Graph As Point Set

DiffAug: Enhance Unsupervised Contrastive Learning with Domain-Knowledge-Free Diffusion-based Data Augmentation

A Minimaximalist Approach to Reinforcement Learning from Human Feedback

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Flexible Residual Binarization for Image Super-Resolution

Graph Neural Stochastic Diffusion for Estimating Uncertainty in Node Classification

Understanding Heterophily for Graph Neural Networks

Flora: Low-Rank Adapters Are Secretly Gradient Compressors

Offline Actor-Critic Reinforcement Learning Scales to Large Models

IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation

Early Time Classification with Accumulated Accuracy Gap Control

Double Stochasticity Gazes Faster: Snap-Shot Decentralized Stochastic Gradient Tracking Methods

Data-free Distillation of Diffusion Models with Bootstrapping

Q-value Regularized Transformer for Offline Reinforcement Learning

Prompting is a Double-Edged Sword: Improving Worst-Group Robustness of Foundation Models

Fast Decision Boundary based Out-of-Distribution Detector

Scalable Pre-training of Large Autoregressive Image Models

A3S: A General Active Clustering Method with Pairwise Constraints

Deciphering RNA Secondary Structure Prediction: A Probabilistic K-Rook Matching Perspective

QUEST: Query-Aware Sparsity for Efficient Long-Context LLM Inference

Self-Attention through Kernel-Eigen Pair Sparse Variational Gaussian Processes

Learning Decision Policies with Instrumental Variables through Double Machine Learning

Plug-and-Play image restoration with Stochastic deNOising REgularization

Memorization Through the Lens of Curvature of Loss Function Around Samples

Wasserstein Wormhole: Scalable Optimal Transport Distance with Transformer

Feature Attribution with Necessity and Sufficiency via Dual-stage Perturbation Test for Causal Explanation

Beyond Implicit Bias: The Insignificance of SGD Noise in Online Learning

Deep Fusion: Efficient Network Training via Pre-trained Initializations

InfoNet: Neural Estimation of Mutual Information without Test-Time Optimization

Latent Space Symmetry Discovery

Discovering Features with Synergistic Interactions in Multiple Views

VisionGraph: Leveraging Large Multimodal Models for Graph Theory Problems in Visual Context

Harnessing Hierarchical Label Distribution Variations in Test Agnostic Long-tail Recognition

An Embodied Generalist Agent in 3D World

Indirectly Parameterized Concrete Autoencoders

Revisiting the Power of Prompt for Visual Tuning

Breaking through the learning plateaus of in-context learning in Transformer

Transformers, parallel computation, and logarithmic depth

Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences

LeaPformer: Enabling Linear Transformers for Autoregressive and Simultaneous Tasks via Learned Proportions

Self-attention Networks Localize When QK-eigenspectrum Concentrates

Simple linear attention language models balance the recall-throughput tradeoff

Algorithm and Hardness for Dynamic Attention Maintenance in Large Language Models

Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot

Memory Efficient Neural Processes via Constant Memory Attention Block

The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling

Compositional Image Decomposition with Diffusion Models

CCM: Real-Time Controllable Visual Content Creation Using Text-to-Image Consistency Models

GenCO: Generating Diverse Designs with Combinatorial Constraints

A Simple Early Exiting Framework for Accelerated Sampling in Diffusion Models

Improving Adversarial Energy-Based Model via Diffusion Process

Guidance with Spherical Gaussian Constraint for Conditional Diffusion

Feedback Efficient Online Fine-Tuning of Diffusion Models

On Mechanistic Knowledge Localization in Text-to-Image Generative Models

Nearest Neighbour Score Estimators for Diffusion Generative Models

Token-level Direct Preference Optimization

MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation

Position: Future Directions in the Theory of Graph Machine Learning

Comparing Graph Transformers via Positional Encodings

Delaunay Graph: Addressing Over-Squashing and Over-Smoothing Using Delaunay Triangulation

PAC-Bayesian Generalization Bounds for Knowledge Graph Representation Learning

What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding

Learning Divergence Fields for Shift-Robust Graph Representations

Cooperative Graph Neural Networks

Uncertainty for Active Learning on Graphs

Graph2Tac: Online Representation Learning of Formal Math Concepts

Equivariant Frames and the Impossibility of Continuous Canonicalization

Editing Partially Observable Networks via Graph Diffusion Models

Stochastic Conditional Diffusion Models for Robust Semantic Image Synthesis

Theory of Consistency Diffusion Models: Distribution Estimation Meets Fast Sampling

Layer-Aware Analysis of Catastrophic Overfitting: Revealing the Pseudo-Robust Shortcut Dependency

DiracDiffusion: Denoising and Incremental Reconstruction with Assured Data-Consistency

Diffuse, Sample, Project: Plug-And-Play Controllable Graph Generation

Prompting a Pretrained Transformer Can Be a Universal Approximator

Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation

Bridging Data Gaps in Diffusion Models with Adversarial Noise-Based Transfer Learning

Image Hijacks: Adversarial Images can Control Generative Models at Runtime

CLLMs: Consistency Large Language Models

Flextron: Many-in-One Flexible Large Language Model

Position: Stop Making Unscientific AGI Performance Claims

NExT: Teaching Large Language Models to Reason about Code Execution

Accelerating Iterative Retrieval-augmented Language Model Serving with Speculation

Evaluating Quantized Large Language Models

Evolving Subnetwork Training for Large Language Models

Modeling Language Tokens as Functionals of Semantic Fields

To Each (Textual Sequence) Its Own: Improving Memorized-Data Unlearning in Large Language Models

Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT

Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

Exact Conversion of In-Context Learning to Model Weights in Linearized-Attention Transformers

Reason for Future, Act for Now: A Principled Architecture for Autonomous LLM Agents

Repoformer: Selective Retrieval for Repository-Level Code Completion

Rethinking Optimization and Architecture for Tiny Language Models

Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation

TravelPlanner: A Benchmark for Real-World Planning with Language Agents

ExCP: Extreme LLM Checkpoint Compression via Weight-Momentum Joint Shrinking

Characterizing Large Language Model Geometry Helps Solve Toxicity Detection and Generation

Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

MAGDi: Structured Distillation of Multi-Agent Interaction Graphs Improves Reasoning in Smaller Language Models

Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning

Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression

In-context Vectors: Making In Context Learning More Effective and Controllable Through Latent Space Steering

AST-T5: Structure-Aware Pretraining for Code Generation and Understanding

SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

Few-Shot Character Understanding in Movies as an Assessment to Meta-Learning of Theory-of-Mind

Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback

CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay

Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment

CogBench: a large language model walks into a psychology lab

Soft Prompt Recovers Compressed LLMs, Transferably

MEMORYLLM: Towards Self-Updatable Large Language Models

Guiding LLMs The Right Way: Fast, Non-Invasive Constrained Generation

GPT-4V(ision) is a Generalist Web Agent, if Grounded

Larimar: Large Language Models with Episodic Memory Control

Language Models with Conformal Factuality Guarantees

On Prompt-Driven Safeguarding for Large Language Models

PICLe: Eliciting Diverse Behaviors from Large Language Models with Persona In-Context Learning

FrameQuant: Flexible Low-Bit Quantization for Transformers

ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections

Lie Neurons: Adjoint-Equivariant Neural Networks for Semisimple Lie Algebras

SCoRe: Submodular Combinatorial Representation Learning

Learning Cognitive Maps from Transformer Representations for Efficient Planning in Partially Observed Environments

Bottleneck-Minimal Indexing for Generative Document Retrieval

Causal Representation Learning Made Identifiable by Grouping of Observational Variables

Graph Geometry-Preserving Autoencoders

Harmony in Diversity: Merging Neural Networks with Canonical Correlation Analysis

Balanced Data, Imbalanced Spectra: Unveiling Class Disparities with Spectral Imbalance

State-Free Inference of State-Space Models: The *Transfer Function* Approach

Defining Neural Network Architecture through Polytope Structures of Datasets

When Representations Align: Universality in Representation Learning Dynamics

Keep the Momentum: Conservation Laws beyond Euclidean Gradient Flows

Deeper or Wider: A Perspective from Optimal Generalization Error with Sobolev Loss

On the Weight Dynamics of Deep Normalized Networks

Sliding Down the Stairs: How Correlated Latent Variables Accelerate Learning with Neural Networks

How Uniform Random Weights Induce Non-uniform Bias: Typical Interpolating Neural Networks Generalize with Narrow Teachers

EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens

MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions

Rethinking Adversarial Robustness in the Context of the Right to be Forgotten

VNN: Verification-Friendly Neural Networks with Hard Robustness Guarantees

Not Just Pretty Pictures: Toward Interventional Data Augmentation Using Text-to-Image Generators

BECoTTA: Input-dependent Online Blending of Experts for Continual Test-time Adaptation

Tilt your Head: Activating the Hidden Spatial-Invariance of Classifiers

The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks

Exploring Intrinsic Dimension for Vision-Language Model Pruning

xT: Nested Tokenization for Larger Context in Large Images

(ends 3:00 PM)

3 p.m.

Invited Talk:

Machine Learning Opportunities for the Next Generation of Particle Physics

Javier Duarte

(ends 4:00 PM)

4 p.m.

Break:

Coffee Break

(ends 4:30 PM)

Town Hall:

Town Hall / Business Meeting

(ends 4:30 PM)

4:30 p.m.

Oral 4A Reinforcement Learning 2 [4:30-5:30]

Orals 4:30-5:30

[4:30] Offline Actor-Critic Reinforcement Learning Scales to Large Models

[4:45] Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

[5:00] SAPG: Split and Aggregate Policy Gradients

[5:15] Rate-Optimal Policy Optimization for Linear Markov Decision Processes

(ends 5:30 PM)

Oral 4B Optimization 1 [4:30-5:30]

Orals 4:30-5:30

[4:30] InfoNet: Neural Estimation of Mutual Information without Test-Time Optimization

[4:45] Optimal Hessian/Jacobian-Free Nonconvex-PL Bilevel Optimization

[5:00] Principled Preferential Bayesian Optimization

[5:15] Zeroth-Order Methods for Constrained Nonconvex Nonsmooth Stochastic Optimization

(ends 5:30 PM)

Oral 4C Safety and Control [4:30-5:30]

Orals 4:30-5:30

[4:30] Stealing part of a production language model

[4:45] Trained Random Forests Completely Reveal your Dataset

[5:00] AI Control: Improving Safety Despite Intentional Subversion

[5:15] Low-Cost High-Power Membership Inference Attacks

(ends 5:30 PM)

Oral 4D Retrieval [4:30-5:30]

Orals 4:30-5:30

[4:30] Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation

[4:45] MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions

[5:00] Repoformer: Selective Retrieval for Repository-Level Code Completion

[5:15] Bottleneck-Minimal Indexing for Generative Document Retrieval

(ends 5:30 PM)

Oral 4E LLMs [4:30-5:30]

Orals 4:30-5:30

[4:30] Position: Do pretrained Transformers Learn In-Context by Gradient Descent?

[4:45] ExCP: Extreme LLM Checkpoint Compression via Weight-Momentum Joint Shrinking

[5:00] How do Large Language Models Navigate Conflicts between Honesty and Helpfulness?

[5:15] Flextron: Many-in-One Flexible Large Language Model

(ends 5:30 PM)

Oral 4F Labels [4:30-5:30]

Orals 4:30-5:30

[4:30] Does Label Smoothing Help Deep Partial Label Learning?

[4:45] SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation

[5:00] Candidate Pseudolabel Learning: Enhancing Vision-Language Models by Prompt Tuning with Unlabeled Data

[5:15] Speech Self-Supervised Learning Using Diffusion Model Synthetic Data

(ends 5:30 PM)

5:30 p.m.

THU 25 JUL

8:30 a.m.

Registration

(ends 6:00 PM)

9 a.m.

Invited Talk:

"What robots have taught me about machine learning"

Chelsea Finn

(ends 10:00 AM)

10 a.m.

Break:

Coffee Break

(ends 10:30 AM)

10:30 a.m.

Oral 5A Ensembles [10:30-11:30]

Orals 10:30-11:30

[10:30] Emergent Equivariance in Deep Ensembles

[10:45] From Coarse to Fine: Enable Comprehensive Graph Self-supervised Learning with Multi-granular Semantic Ensemble

[11:00] Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling

[11:15] AlphaFold Meets Flow Matching for Generating Protein Ensembles

(ends 11:30 AM)

Oral 5B Optimization 2 [10:30-11:30]

Orals 10:30-11:30

[10:30] On the Last-Iterate Convergence of Shuffling Gradient Methods

[10:45] Multiplicative Weights Update, Area Convexity and Random Coordinate Descent for Densest Subgraph Problems

[11:00] High-Probability Convergence for Composite and Distributed Stochastic Minimization and Variational Inequalities with Heavy-Tailed Noise

[11:15] Information Complexity of Stochastic Convex Optimization: Applications to Generalization, Memorization, and Tracing

(ends 11:30 AM)

Oral 5C Heuristics and Algorithms [10:30-11:30]

Orals 10:30-11:30

[10:30] Position: Rethinking Post-Hoc Search-Based Neural Approaches for Solving Large-Scale Traveling Salesman Problems

[10:45] Evolution of Heuristics: Towards Efficient Automatic Algorithm Design Using Large Language Model

[11:00] S$\Omega$I: Score-based O-INFORMATION Estimation

[11:15] A Dynamic Algorithm for Weighted Submodular Cover Problem

(ends 11:30 AM)

Oral 5D Continuous Learning [10:30-11:30]

Orals 10:30-11:30

[10:30] PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control

[10:45] Fast Co-Training under Weak Dependence via Stream-Based Active Learning

[11:00] Self-Composing Policies for Scalable Continual Reinforcement Learning

[11:15] Stereo Risk: A Continuous Modeling Approach to Stereo Matching

(ends 11:30 AM)

Oral 5E Distribution Shift and OOD [10:30-11:30]

Orals 10:30-11:30

[10:30] Theoretical Analysis of Learned Database Operations under Distribution Shift through Distribution Learnability

[10:45] Discovering Environments with XRM

[11:00] LCA-on-the-Line: Benchmarking Out of Distribution Generalization with Class Taxonomies

[11:15] Test-Time Model Adaptation with Only Forward Passes

(ends 11:30 AM)

Oral 5F Physics in ML [10:30-11:30]

Orals 10:30-11:30

[10:30] Position: Opportunities Exist for Machine Learning in Magnetic Fusion Energy

[10:45] Locality-Sensitive Hashing-Based Efficient Point Transformer with Applications in High-Energy Physics

[11:00] Parameterized Physics-informed Neural Networks for Parameterized PDEs

[11:15] Challenges in Training PINNs: A Loss Landscape Perspective

(ends 11:30 AM)

11:30 a.m.

Poster Session 5 [11:30-1:00]

Knowledge Transfer from Vision Foundation Models for Efficient Training of Small Task-specific Models

Multiplicative Weights Update, Area Convexity and Random Coordinate Descent for Densest Subgraph Problems

Verifying message-passing neural networks via topology-based bounds tightening

ACM-MILP: Adaptive Constraint Modification via Grouping and Selection for Hardness-Preserving MILP Instance Generation

A Dynamic Algorithm for Weighted Submodular Cover Problem

Accelerated Algorithms for Constrained Nonconvex-Nonconcave Min-Max Optimization and Comonotone Inclusion

A Study of First-Order Methods with a Deterministic Relative-Error Gradient Oracle

Contrastive Predict-and-Search for Mixed Integer Linear Programs

Autonomous Sparse Mean-CVaR Portfolio Optimization

On Convergence of Incremental Gradient for Non-convex Smooth Functions

What is the Long-Run Distribution of Stochastic Gradient Descent? A Large Deviations Analysis

Stereo Risk: A Continuous Modeling Approach to Stereo Matching

Differentiable Distributionally Robust Optimization Layers

Robust Learning-Augmented Dictionaries

Infinite-Horizon Distributionally Robust Regret-Optimal Control

How Free is Parameter-Free Stochastic Optimization?

High-Probability Convergence for Composite and Distributed Stochastic Minimization and Variational Inequalities with Heavy-Tailed Noise

Quantum Algorithm for Online Exp-concave Optimization

Towards AutoAI: Optimizing a Machine Learning System with Black-box and Differentiable Components

Monotone, Bi-Lipschitz, and Polyak-Łojasiewicz Networks

Learning Causal Domain-Invariant Temporal Dynamics for Few-Shot Action Recognition

MFTN: A Multi-scale Feature Transfer Network Based on IMatchFormer for Hyperspectral Image Super-Resolution

Revisiting the Role of Language Priors in Vision-Language Models

Superpoint Gaussian Splatting for Real-Time High-Fidelity Dynamic Scene Reconstruction

Make-A-Shape: a Ten-Million-scale 3D Shape Model

Retrieval-Augmented Score Distillation for Text-to-3D Generation

AdsorbDiff: Adsorbate Placement via Conditional Denoising Diffusion

HALC: Object Hallucination Reduction via Adaptive Focal-Contrast Decoding

Floating Anchor Diffusion Model for Multi-motif Scaffolding

Causal Action Influence Aware Counterfactual Data Augmentation

DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design

PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control

Fool Your (Vision and) Language Model with Embarrassingly Simple Permutations

Momentum for the Win: Collaborative Federated Reinforcement Learning across Heterogeneous Environments

Self-Composing Policies for Scalable Continual Reinforcement Learning

The Max-Min Formulation of Multi-Objective Reinforcement Learning: From Theory to a Model-Free Algorithm

Language-guided Skill Learning with Temporal Variational Inference

Reward Shaping for Reinforcement Learning with An Assistant Reward Agent

Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning

Context-Guided Diffusion for Out-of-Distribution Molecular and Protein Design

How to Explore with Belief: State Entropy Maximization in POMDPs

Skill Set Optimization: Reinforcing Language Model Behavior via Transferable Skills

Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL

Single-Trajectory Distributionally Robust Reinforcement Learning

FedBAT: Communication-Efficient Federated Learning via Learnable Binarization

Practical Performance Guarantees for Pipelined DNN Inference

A Federated Stochastic Multi-level Compositional Minimax Algorithm for Deep AUC Maximization

Clustered Federated Learning via Gradient-based Partitioning

Unveiling the Potential of AI for Nanomaterial Morphology Prediction

CHEMREASONER: Heuristic Search over a Large Language Model’s Knowledge Space using Quantum-Chemical Feedback

BOtied: Multi-objective Bayesian optimization with tied multivariate ranks

eCeLLM: Generalizing Large Language Models for E-commerce from Large-scale, High-quality Instruction Data

REST: Efficient and Accelerated EEG Seizure Analysis through Residual State Updates

A Contextual Combinatorial Bandit Approach to Negotiation

Learning to Reach Goals via Diffusion

RICE: Breaking Through the Training Bottlenecks of Reinforcement Learning with Explanation

Do Transformer World Models Give Better Policy Gradients?

PIPER: Primitive-Informed Preference-based Hierarchical Reinforcement Learning via Hindsight Relabeling

WARM: On the Benefits of Weight Averaged Reward Models

Reward-Free Kernel-Based Reinforcement Learning

Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption

EvIL: Evolution Strategies for Generalisable Imitation Learning

Mimicking Better by Matching the Approximate Action Distribution

Expert Proximity as Surrogate Rewards for Single Demonstration Imitation Learning

Fast Peer Adaptation with Context-aware Exploration

Mastering Zero-Shot Interactions in Cooperative and Competitive Simultaneous Games

Configurable Mirror Descent: Towards a Unification of Decision Making

Locally Interdependent Multi-Agent MDP: Theoretical Framework for Decentralized Agents with Dynamic Dependencies

Individual Contributions as Intrinsic Exploration Scaffolds for Multi-agent Reinforcement Learning

Adversarial Attacks on Combinatorial Multi-Armed Bandits

Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic

Critical feature learning in deep neural networks

A Dynamical Model of Neural Scaling Laws

Category-Aware Active Domain Adaptation

Active Label Correction for Semantic Segmentation with Foundation Models

Optimally Improving Cooperative Learning in a Social Setting

Understanding Stochastic Natural Gradient Variational Inference

Online Variational Sequential Monte Carlo

Batch and match: black-box variational inference with a score-based divergence

Variational Inference with Coverage Guarantees in Simulation-Based Inference

Liouville Flow Importance Sampler

Improving Diffusion Models for Inverse Problems Using Optimal Posterior Covariance

Stochastic Localization via Iterative Posterior Sampling

An amortized approach to non-linear mixed-effects modeling based on neural posterior estimation

Path-Guided Particle-based Sampling

Variational Linearized Laplace Approximation for Bayesian Deep Learning

Prior Specification for Bayesian Matrix Factorization via Prior Predictive Matching

Sliced-Wasserstein Estimation with Spherical Harmonics as Control Variates

Policy Evaluation for Variance in Average Reward Reinforcement Learning

Domain Generalisation via Imprecise Learning

Safe and Robust Subgame Exploitation in Imperfect Information Games

RL-CFR: Improving Action Abstraction for Imperfect Information Extensive-Form Games with Reinforcement Learning

A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts

Executable Code Actions Elicit Better LLM Agents

Sharp Rates in Dependent Learning Theory: Avoiding Sample Size Deflation for the Square Loss

Fast Co-Training under Weak Dependence via Stream-Based Active Learning

Why Do Animals Need Shaping? A Theory of Task Composition and Curriculum Learning

Can Machines Learn the True Probabilities?

Improved Bounds for Pure Private Agnostic Learning: Item-Level and User-Level Privacy

Lessons from Generalization Error Analysis of Federated Learning: You May Communicate Less Often!

Theoretical Analysis of Learned Database Operations under Distribution Shift through Distribution Learnability

Towards Generalization beyond Pointwise Learning: A Unified Information-theoretic Perspective

Dynamic Metric Embedding into lp Space

Online conformal prediction with decaying step sizes

Stochastic Bandits with ReLU Neural Networks

Efficient Non-stationary Online Learning by Wavelets with Applications to Online Distribution Shift Adaptation

Active Ranking and Matchmaking, with Perfect Matchings

On the Independence Assumption in Neurosymbolic Learning

How Flawed Is ECE? An Analysis via Logit Smoothing

Inferring Change Points in High-Dimensional Linear Regression via Approximate Message Passing

Stochastic Weakly Convex Optimization beyond Lipschitz Continuity

Sample Average Approximation for Conditional Stochastic Optimization with Dependent Data

Near-Linear Time Approximation Algorithms for k-means with Outliers

Predictive Linear Online Tracking for Unknown Targets

Feel-Good Thompson Sampling for Contextual Dueling Bandits

Best Arm Identification for Stochastic Rising Bandits

Second-Order Uncertainty Quantification: A Distance-Based Approach

Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation

Federated Offline Reinforcement Learning: Collaborative Single-Policy Coverage Suffices

Equivariance via Minimal Frame Averaging for More Symmetries and Efficiency

Temporal Spiking Neural Networks with Synaptic Delay for Graph Reasoning

Optimal Transport for Structure Learning Under Missing Data

A Dual-module Framework for Counterfactual Estimation over Time

Scalable and Flexible Causal Discovery with an Efficient Test for Adjacency

Geometry-Aware Instrumental Variable Regression

Survival Kernets: Scalable and Interpretable Deep Kernel Survival Analysis with an Accuracy Guarantee

Harnessing Neural Unit Dynamics for Effective and Scalable Class-Incremental Learning

S$\Omega$I: Score-based O-INFORMATION Estimation

Sample-specific Masks for Visual Reprogramming-based Prompting

Generalized Sobolev Transport for Probability Measures on a Graph

Learning Shadow Variable Representation for Treatment Effect Estimation under Collider Bias

Agent-Specific Effects: A Causal Effect Propagation Analysis in Multi-Agent MDPs

Causal Discovery via Conditional Independence Testing with Proxy Variables

Generalization Bounds for Causal Regression: Insights, Guarantees and Sensitivity Analysis

Kernel-Based Evaluation of Conditional Biological Sequence Models

Neural Tangent Kernels for Axis-Aligned Tree Ensembles

Copula-Nested Spectral Kernel Network

Consistent Long-Term Forecasting of Ergodic Dynamical Systems

Revisit the Essence of Distilling Knowledge through Calibration

RMIB: Representation Matching Information Bottleneck for Matching Text Representations

Convergence Guarantees for the DeepWalk Embedding on Block Models

Fully-Dynamic Approximate Decision Trees With Worst-Case Update Time Guarantees

Learning in Feature Spaces via Coupled Covariances: Asymmetric Kernel SVD and Nyström method

Inferring Dynamic Networks from Marginals with Iterative Proportional Fitting

Bayesian Adaptation of Network Depth and Width for Continual Learning

Layerwise Proximal Replay: A Proximal Point Method for Online Continual Learning

Rethinking Guidance Information to Utilize Unlabeled Samples: A Label Encoding Perspective

Counterfactual Reasoning for Multi-Label Image Classification via Patching-Based Training

New Bounds on the Cohesion of Complete-link and Other Linkage Methods for Agglomerative Clustering

Cross-domain Open-world Discovery

Plug-in Performative Optimization

Learning with Partial-Label and Unlabeled Data: A Uniform Treatment for Supervision Redundancy and Insufficiency

OSN: Infinite Representations of Dynamic 3D Scenes from Monocular Videos

Vocabulary for Universal Approximation: A Linguistic Perspective of Mapping Compositions

Unsupervised Episode Generation for Graph Meta-learning

Localizing Task Information for Improved Model Merging and Compression

Position: A Call to Action for a Human-Centered AutoML Paradigm

Low-Rank Similarity Mining for Multimodal Dataset Distillation

Position: Social Environment Design Should be Further Developed for AI-based Policy-Making

Position: Insights from Survey Methodology can Improve Training Data

Privacy-Preserving Data Release Leveraging Optimal Transport and Particle Gradient Descent

Saliency strikes back: How filtering out high frequencies improves white-box explanations

Slicedit: Zero-Shot Video Editing With Text-to-Image Diffusion Models Using Spatio-Temporal Slices

Coarse-To-Fine Tensor Trains for Compact Visual Representations

GaussianPro: 3D Gaussian Splatting with Progressive Propagation

VideoPrism: A Foundational Visual Encoder for Video Understanding

Learning Scale-Aware Spatio-temporal Implicit Representation for Event-based Motion Deblurring

Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training

Safe Exploration in Dose Finding Clinical Trials with Heterogeneous Participants

Adaptive Sampling of k-Space in Magnetic Resonance for Rapid Pathology Prediction

Auto-Linear Phenomenon in Subsurface Imaging

Verification of Machine Unlearning is Fragile

Differentially Private Post-Processing for Fair Regression

Out-of-Distribution Detection via Deep Multi-Comprehension Ensemble

Feedback Loops With Language Models Drive In-Context Reward Hacking

Incorporating Information into Shapley Values: Reweighting via a Maximum Entropy Approach

Policy Learning for Balancing Short-Term and Long-Term Rewards

Individualized Privacy Accounting via Subsampling with Applications in Combinatorial Optimization

Noise-Aware Algorithm for Heterogeneous Differentially Private Federated Learning

Self-Driven Entropy Aggregation for Byzantine-Robust Heterogeneous Federated Learning

CuTS: Customizable Tabular Synthetic Data Generation

Graph Neural PDE Solvers with Conservation and Similarity-Equivariance

Optimal Differentially Private Model Training with Public Data

Shifted Interpolation for Differential Privacy

Differentially Private Worst-group Risk Minimization

Profile Reconstruction from Private Sketches

COALA: A Practical and Vision-Centric Federated Learning Platform

Converting Transformers to Polynomial Form for Secure Inference Over Homomorphic Encryption

A New Linear Scaling Rule for Private Adaptive Hyperparameter Optimization

The Privacy Power of Correlated Noise in Decentralized Learning

Finite Volume Features, Global Geometry Representations, and Residual Training for Deep Learning-based CFD Simulation

Transolver: A Fast Transformer Solver for PDEs on General Geometries

Beyond Regular Grids: Fourier-Based Neural Operators on Arbitrary Domains

Parameterized Physics-informed Neural Networks for Parameterized PDEs

Neural Operators with Localized Integral and Differential Kernels

Distilling Morphology-Conditioned Hypernetworks for Efficient Universal Morphology Control

Benchmarking Deletion Metrics with the Principled Explanations

Precise Accuracy / Robustness Tradeoffs in Regression: Case of General Norms

Timer: Generative Pre-trained Transformers Are Large Time Series Models

Is Epistemic Uncertainty Faithfully Represented by Evidential Deep Learning Methods?

Disguised Copyright Infringement of Latent Diffusion Models

On The Fairness Impacts of Hardware Selection in Machine Learning

Defense against Backdoor Attack on Pre-trained Language Models via Head Pruning and Attention Normalization

Explaining Graph Neural Networks via Structure-aware Interaction Index

Counterfactual Metarules for Local and Global Recourse

Prospector Heads: Generalized Feature Attribution for Large Models & Data

Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text

Post-hoc Part-Prototype Networks

SPADE: Sparsity-Guided Debugging for Deep Neural Networks

Don't trust your eyes: on the (un)reliability of feature visualizations

Fair Data Representation for Machine Learning at the Pareto Frontier

Standardized Interpretable Fairness Measures for Continuous Risk Scores

Position: Towards Implicit Prompt For Text-To-Image Models

FRAPPÉ: A Group Fairness Framework for Post-Processing Everything

Pedestrian Attribute Recognition as Label-balanced Multi-label Learning

Proactive Detection of Voice Cloning with Localized Watermarking

Position: Relational Deep Learning - Graph Representation Learning on Relational Databases

X-Oscar: A Progressive Framework for High-quality Text-guided 3D Animatable Avatar Generation

A Statistical Theory of Regularization-Based Continual Learning

Chain-of-Thought Predictive Control

Vector Quantization Pretraining for EEG Time Series with Random Projection and Phase Alignment

Stationarity without mean reversion in improper Gaussian processes

Generative Modeling on Manifolds Through Mixture of Riemannian Diffusion Processes

Position: Cracking the Code of Cascading Disparity Towards Marginalized Communities

Statistically Optimal Generative Modeling with Maximum Deviation from the Empirical Distribution

SPABA: A Single-Loop and Probabilistic Stochastic Bilevel Algorithm Achieving Optimal Sample Complexity

Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder

Graph External Attention Enhanced Transformer

Domain-wise Data Acquisition to Improve Performance under Distribution Shift

Position: Social Choice Should Guide AI Alignment in Dealing with Diverse Human Feedback

Large Language Models are Geographically Biased

UPAM: Unified Prompt Attack in Text-to-Image Generation Models Against Both Textual Filters and Visual Checkers

Information Complexity of Stochastic Convex Optimization: Applications to Generalization, Memorization, and Tracing

Adversarially Robust Deep Multi-View Clustering: A Novel Attack and Defense Framework

C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models

How Language Model Hallucinations Can Snowball

Receptive Fields As Experts in Convolutional Neural Architectures

AMPA: Adaptive Mixed Precision Allocation for Low-Bit Integer Training

MultiMax: Sparse and Multi-Modal Attention Learning

From Coarse to Fine: Enable Comprehensive Graph Self-supervised Learning with Multi-granular Semantic Ensemble

Causally Motivated Personalized Federated Invariant Learning with Shortcut-Averse Information-Theoretic Regularization

Relaxing the Accurate Imputation Assumption in Doubly Robust Learning for Debiased Collaborative Filtering

Unraveling the Impact of Heterophilic Structures on Graph Positive-Unlabeled Learning

SpikeZIP-TF: Conversion is All You Need for Transformer-based SNN

Multigroup Robustness

Bootstrapping Fisher Market Equilibrium and First-Price Pacing Equilibrium

LESS: Selecting Influential Data for Targeted Instruction Tuning

Private Vector Mean Estimation in the Shuffle Model: Optimal Rates Require Many Messages

Equilibrium of Data Markets with Externality

A Provable Decision Rule for Out-of-Distribution Detection

Energy-Guided Diffusion Sampling for Offline-to-Online Reinforcement Learning

Grokking Group Multiplication with Cosets

PolySketchFormer: Fast Transformers via Sketching Polynomial Kernels

Causal-IQA: Towards the Generalization of Image Quality Assessment Based on Causal Inference

NDOT: Neuronal Dynamics-based Online Training for Spiking Neural Networks

Double Variance Reduction: A Smoothing Trick for Composite Optimization Problems without First-Order Gradient

Symmetric Replay Training: Enhancing Sample Efficiency in Deep Reinforcement Learning for Combinatorial Optimization

Accelerating Heterogeneous Federated Learning with Closed-form Classifiers

Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-constraint

Position: Opportunities Exist for Machine Learning in Magnetic Fusion Energy

On the Embedding Collapse when Scaling up Recommendation Models

CasCast: Skillful High-resolution Precipitation Nowcasting via Cascaded Modelling

Transferring Knowledge From Large Foundation Models to Small Downstream Models

Agnostic Interactive Imitation Learning: New Theory and Practical Algorithms

Outlier-aware Slicing for Post-Training Quantization in Vision Transformer

Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains

Rethinking Transformers in Solving POMDPs

OTMatch: Improving Semi-Supervised Learning with Optimal Transport

Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models

Reinformer: Max-Return Sequence Modeling for Offline RL

On Hypothesis Transfer Learning of Functional Linear Models

Learning Surrogates for Offline Black-Box Optimization via Gradient Matching

SHINE: Shielding Backdoors in Deep Reinforcement Learning

DiffStitch: Boosting Offline Reinforcement Learning with Diffusion-based Trajectory Stitching

DiNADO: Norm-Disentangled Neurally-Decomposed Oracles for Controlling Language Models

Latent Logic Tree Extraction for Event Sequence Explanation from LLMs

Multi-group Learning for Hierarchical Groups

Test-Time Model Adaptation with Only Forward Passes

Differentiable Annealed Importance Sampling Minimizes The Jensen-Shannon Divergence Between Initial and Target Distribution

Sparser, Better, Deeper, Stronger: Improving Static Sparse Training with Exact Orthogonal Initialization

Advancing Dynamic Sparse Training by Exploring Optimization Opportunities

Task-aware Orthogonal Sparse Network for Exploring Shared Knowledge in Continual Learning

A Global Geometric Analysis of Maximal Coding Rate Reduction

An LLM Compiler for Parallel Function Calling

Kernel Debiased Plug-in Estimation: Simultaneous, Automated Debiasing without Influence Functions for Many Target Parameters

Unifying Image Processing as Visual Prompting Question Answering

Time-Series Forecasting for Out-of-Distribution Generalization Using Invariant Learning

Structured Chemistry Reasoning with Large Language Models

${\rm E}(3)$-Equivariant Actor-Critic Methods for Cooperative Multi-Agent Reinforcement Learning

Expand-and-Cluster: Parameter Recovery of Neural Networks

S3GCL: Spectral, Swift, Spatial Graph Contrastive Learning

Refined Coreset Selection: Towards Minimal Coreset Size under Model Performance Constraints

Roping in Uncertainty: Robustness and Regularization in Markov Games

LLM-Empowered State Representation for Reinforcement Learning

Bias of Stochastic Gradient Descent or the Architecture: Disentangling the Effects of Overparameterization of Neural Networks

Challenges in Training PINNs: A Loss Landscape Perspective

Learning Latent Structures in Network Games via Data-Dependent Gated-Prior Graph Variational Autoencoders

Clifford-Steerable Convolutional Neural Networks

Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks

A Neural-Guided Dynamic Symbolic Network for Exploring Mathematical Expressions from Data

Knowledge Distillation with Auxiliary Variable

The Good, The Bad, and Why: Unveiling Emotions in Generative AI

Coprocessor Actor Critic: A Model-Based Reinforcement Learning Approach For Adaptive Brain Stimulation

Learning High-Order Relationships of Brain Regions

Decomposed Linear Dynamical Systems (dLDS) for learning the latent components of neural dynamics

BAT: Learning to Reason about Spatial Sounds with Large Language Models

Deep Neural Room Acoustics Primitive

Feature Reuse and Scaling: Understanding Transfer Learning with Protein Language Models

Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling

An Analysis of Linear Time Series Forecasting Models

Time Weaver: A Conditional Time Series Generation Model

RoboDreamer: Learning Compositional World Models for Robot Imagination

A Probabilistic Approach to Learning the Degree of Equivariance in Steerable CNNs

A General Framework for Learning from Weak Supervision

Fair Resource Allocation in Multi-Task Learning

Discovering Environments with XRM

Viewing Transformers Through the Lens of Long Convolutions Layers

BiSHop: Bi-Directional Cellular Learning for Tabular Data with Generalized Sparse Modern Hopfield Model

Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference

Locality-Sensitive Hashing-Based Efficient Point Transformer with Applications in High-Energy Physics

Do Efficient Transformers Really Save Computation?

Tripod: Three Complementary Inductive Biases for Disentangled Representation Learning

On the Trajectory Regularity of ODE-based Diffusion Sampling

Bridging discrete and continuous state spaces: Exploring the Ehrenfest process in time-continuous diffusion models

Accelerating Parallel Sampling of Diffusion Models

Light and Optimal Schrödinger Bridge Matching

Vague Prototype-Oriented Diffusion Model for Multi-Class Anomaly Detection

Weisfeiler Leman for Euclidean Equivariant Machine Learning

Single-Model Attribution of Generative Models Through Final-Layer Inversion

Accelerating Convergence of Score-Based Diffusion Models, Provably

The Expressive Power of Path-Based Graph Neural Networks

Triplet Interaction Improves Graph Transformers: Accurate Molecular Graph Learning with Triplet Graph Transformers

Graph Neural Networks Use Graphs When They Shouldn't

On the Generalization of Equivariant Graph Neural Networks

Exploring Correlations of Self-Supervised Tasks for Graphs

DUPLEX: Dual GAT for Complex Embedding of Directed Graphs

Quantum Positional Encodings for Graph Neural Networks

Knowledge Graphs Can be Learned with Just Intersection Features

Generalization Error of Graph Neural Networks in the Mean-field Regime

Subgraphormer: Unifying Subgraph GNNs and Graph Transformers via Graph Products

Semantic-Aware Human Object Interaction Image Generation

Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion

StrWAEs to Invariant Representations

Prompt-tuning Latent Diffusion Models for Inverse Problems

Generative Marginalization Models

Position: Compositional Generative Modeling: A Single Model is Not All You Need

Parallelized Spatiotemporal Slot Binding for Videos

Leverage Class-Specific Accuracy to Guide Data Generation for Improving Image Classification

Empowering Graph Invariance Learning with Deep Spurious Infomax

Homomorphism Counts for Graph Neural Networks: All About That Basis

The Pitfalls of Next-Token Prediction

When Linear Attention Meets Autoregressive Decoding: Towards More Effective and Efficient Linearized Large Language Models

FedBPT: Efficient Federated Black-box Prompt Tuning for Large Language Models

Online Speculative Decoding

Reprompting: Automated Chain-of-Thought Prompt Inference Through Gibbs Sampling

Dual Operating Modes of In-Context Learning

Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning

In-Context Unlearning: Language Models as Few-Shot Unlearners

Exploring the Benefit of Activation Sparsity in Pre-training

KV-Runahead: Scalable Causal LLM Inference by Parallel Key-Value Cache Generation

Assessing Large Language Models on Climate Information

diff History for Neural Language Agents

Why Larger Language Models Do In-context Learning Differently?

Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling

From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning

InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks

Breaking the Barrier: Enhanced Utility and Robustness in Smoothed DRL Agents

LCA-on-the-Line: Benchmarking Out of Distribution Generalization with Class Taxonomies

Toward Availability Attacks in 3D Point Clouds

Complexity Matters: Feature Learning in the Presence of Spurious Correlations

Interpreting Equivariant Representations

The Balanced-Pairwise-Affinities Feature Transform

Hybrid Neural Representations for Spherical Data

ALERT-Transformer: Bridging Asynchronous and Synchronous Machine Learning for Real-Time Event-based Spatio-Temporal Data

Improving fine-grained understanding in image-text pre-training

InferCept: Efficient Intercept Support for Augmented Large Language Model Inference

PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Linguistic Calibration of Long-Form Generations

BiLLM: Pushing the Limit of Post-Training Quantization for LLMs

AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls

Language Agent Tree Search Unifies Reasoning, Acting, and Planning in Language Models

RLVF: Learning from Verbal Feedback without Overgeneralization

LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models

Few-shot Adaptation to Distribution Shifts By Mixing Source and Target Embeddings

Adaptive Hierarchical Certification for Segmentation using Randomized Smoothing

PruNeRF: Segment-Centric Dataset Pruning via 3D Spatial Consistency

Split-Ensemble: Efficient OOD-aware Ensemble via Task and Model Splitting

Revealing the Dark Secrets of Extremely Large Kernel ConvNets on Robustness

Robust Classification via a Single Diffusion Model

Look Ahead or Look Around? A Theoretical Comparison Between Autoregressive and Masked Pretraining

EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning

EMC$^2$: Efficient MCMC Negative Sampling for Contrastive Learning with Global Convergence

Correlation-Induced Label Prior for Semi-Supervised Multi-Label Learning

Understanding Forgetting in Continual Learning with Linear Regression

Robust Sparse Estimation for Gaussians with Optimal Error under Huber Contamination

Exploring the Complexity of Deep Neural Networks through Functional Equivalence

Neuro-Visualizer: A Novel Auto-Encoder-Based Loss Landscape Visualization Method With an Application in Knowledge-Guided Machine Learning

Subhomogeneous Deep Equilibrium Models

Convex Relaxations of ReLU Neural Networks Approximate Global Optima in Polynomial Time

Simulation of Graph Algorithms with Looped Transformers

Emergent Equivariance in Deep Ensembles

Position: Rethinking Post-Hoc Search-Based Neural Approaches for Solving Large-Scale Traveling Salesman Problems

A Universal Transfer Theorem for Convex Optimization Algorithms Using Inexact First-order Oracles

Improving SAM Requires Rethinking its Optimization Formulation

Nonsmooth Implicit Differentiation: Deterministic and Stochastic Convergence Rates

On The Complexity of First-Order Methods in Stochastic Bilevel Optimization

Smooth Tchebycheff Scalarization for Multi-Objective Optimization

Structured Inverse-Free Natural Gradient Descent: Memory-Efficient & Numerically-Stable KFAC

On the Last-Iterate Convergence of Shuffling Gradient Methods

Evolution of Heuristics: Towards Efficient Automatic Algorithm Design Using Large Language Model

ReLUs Are Sufficient for Learning Implicit Neural Representations

Mechanistic Neural Networks for Scientific Machine Learning

A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks

Memoria: Resolving Fateful Forgetting Problem through Human-Inspired Memory Architecture

Latent variable model for high-dimensional point process with structured missingness

On the Identifiability of Switching Dynamical Systems

Beyond Point Prediction: Score Matching-based Pseudolikelihood Estimation of Neural Marked Spatio-Temporal Point Process

Universality of Linear Recurrences Followed by Non-linear Projections: Finite-Width Guarantees and Benefits of Complex Eigenvalues

Relational Learning in Pre-Trained Models: A Theory from Hypergraph Recovery Perspective

(ends 1:00 PM)

noon

Vienna Info Desk

(ends 6:00 PM)

12:30 p.m.

Break:

Hosted Lunch

(ends 2:00 PM)

1 p.m.

Test of Time:

DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition

(ends 1:30 PM)

1:30 p.m.

Poster Session 6 [1:30-3:00]

Generative Active Learning for Long-tailed Instance Segmentation

Activation-Descent Regularization for Input Optimization of ReLU Networks

OSSCAR: One-Shot Structured Pruning in Vision and Language Models with Combinatorial Optimization

Learning to Remove Cuts in Integer Linear Programming

MVMoE: Multi-Task Vehicle Routing Solver with Mixture-of-Experts

On the Hardness of Probabilistic Neurosymbolic Learning

Adaptive Stabilization Based on Machine Learning for Column Generation

Predicting Lagrangian Multipliers for Mixed Integer Linear Programs

DPN: Decoupling Partition and Navigation for Neural Solvers of Min-max Vehicle Routing Problems

Random Scaling and Momentum for Non-smooth Non-convex Optimization

Inexact Newton-type Methods for Optimisation with Nonnegativity Constraints

Image Fusion via Vision-Language Model

Boundary Exploration for Bayesian Optimization With Unknown Physical Constraints

Statistical Properties of Robust Satisficing

Error Feedback Can Accurately Compress Preconditioners

Efficient Stochastic Approximation of Minimax Excess Risk Optimization

Training Greedy Policy for Proposal Batch Selection in Expensive Multi-Objective Combinatorial Optimization

Joint Composite Latent Space Bayesian Optimization

Bridging Model Heterogeneity in Federated Learning via Uncertainty-based Asymmetrical Reciprocity Learning

Candidate Pseudolabel Learning: Enhancing Vision-Language Models by Prompt Tuning with Unlabeled Data

Learning Adaptive and View-Invariant Vision Transformer for Real-Time UAV Tracking

Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation

3D Geometric Shape Assembly via Efficient Point Cloud Matching

NeuralIndicator: Implicit Surface Reconstruction from Neural Indicator Priors

Leveraging VLM-Based Pipelines to Annotate 3D Objects

Pre-Training Protein Bi-level Representation Through Span Mask Strategy On 3D Protein Chains

RNAFlow: RNA Structure & Sequence Design via Inverse Folding-Based Flow Matching

Position: The Reasonable Person Standard for AI

Debiased Offline Representation Learning for Fast Online Adaptation in Non-stationary Dynamics

Temporal Logic Specification-Conditioned Decision Transformer for Offline Safe Reinforcement Learning

Switching the Loss Reduces the Cost in Batch Reinforcement Learning

Langevin Policy for Safe Reinforcement Learning

RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Zero-Shot Reinforcement Learning via Function Encoders

Averaging $n$-step Returns Reduces Variance in Reinforcement Learning

LAGMA: LAtent Goal-guided Multi-Agent Reinforcement Learning

Bring Your Own (Non-Robust) Algorithm to Solve Robust MDPs by Estimating The Worst Kernel

Conditional Normalizing Flows for Active Learning of Coarse-Grained Molecular Representations

Adaptive-Gradient Policy Optimization: Enhancing Policy Learning in Non-Smooth Differentiable Simulations

Provable Representation with Efficient Planning for Partially Observable Reinforcement Learning

Test-Time Regret Minimization in Meta Reinforcement Learning

EfficientZero V2: Mastering Discrete and Continuous Control with Limited Data

Improving Generalization in Offline Reinforcement Learning via Adversarial Data Splitting

Code as Reward: Empowering Reinforcement Learning with VLMs

Boosting Reinforcement Learning with Strongly Delayed Feedback Through Auxiliary Short Delays

Offline Training of Language Model Agents with Functions as Learnable Weights

MolCRAFT: Structure-Based Drug Design in Continuous Parameter Space

Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models

Rethinking Specificity in SBDD: Leveraging Delta Score and Energy-Guided Diffusion

Dealing With Unbounded Gradients in Stochastic Saddle-point Optimization

ELTA: An Enhancer against Long-Tail for Aesthetics-oriented Models

Integrating Global Context Contrast and Local Sensitivity for Blind Image Quality Assessment

Simple Ingredients for Offline Reinforcement Learning

BRAIn: Bayesian Reward-conditioned Amortized Inference for natural language generation from feedback

Fair Risk Control: A Generalized Framework for Calibrating Multi-group Fairness Risks

On the Sample Complexity and Metastability of Heavy-tailed Policy Search in Continuous Control

Learning to Stabilize Online Reinforcement Learning in Unbounded State Spaces

Learning to Model the World With Language

Foundation Policies with Hilbert Representations

Mixtures of Experts Unlock Parameter Scaling for Deep RL

Subequivariant Reinforcement Learning in 3D Multi-Entity Physical Environments

Hard Tasks First: Multi-Task Reinforcement Learning Through Task Scheduling

Towards Optimal Adversarial Robust Q-learning with Bellman Infinity-error

Model-Free Robust $\phi$-Divergence Reinforcement Learning Using Both Offline and Online Data

Learning from Integral Losses in Physics Informed Neural Networks

QORA: Zero-Shot Transfer via Interpretable Object-Relational Model Learning

Physics-Informed Neural Network Policy Iteration: Algorithms, Convergence, and Verification

Environment Design for Inverse Reinforcement Learning

RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback

FightLadder: A Benchmark for Competitive Multi-Agent Reinforcement Learning

Diffusive Gibbs Sampling

Estimating the Permanent by Nesting Importance Sampling

Practical Hamiltonian Monte Carlo on Riemannian Manifolds via Relativity Theory

Parameter Estimation in DAGs from Incomplete Data via Optimal Transport

GFlowNet Training by Policy Gradients

Leveraging Self-Consistency for Data-Efficient Amortized Bayesian Inference

Total Variation Distance Meets Probabilistic Inference

Adaptive Robust Learning using Latent Bernoulli Variables

Enabling Uncertainty Estimation in Iterative Neural Networks

All-in-one simulation-based inference

Hieros: Hierarchical Imagination on Structured State Space Sequence World Models

Dr. Strategy: Model-Based Generalist Agents with Strategic Dreaming

SaVeR: Optimal Data Collection Strategy for Safe Policy Evaluation in Tabular MDP

On Universally Optimal Algorithms for A/B Testing

Risk Estimation in a Markov Cost Process: Lower and Upper Bounds

Controlling Behavioral Diversity in Multi-Agent Reinforcement Learning

Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games

Active Statistical Inference

Particle Denoising Diffusion Sampler

Novel Spectral Algorithms for the Partial Credit Model

Variational Learning is Effective for Large Deep Networks

Theoretical Guarantees for Variational Inference with Fixed-Variance Mixture of Gaussians

Evaluation of Trajectory Distribution Predictions with Energy Score

Scalable AI Safety via Doubly-Efficient Debate

Restoring balance: principled under/oversampling of data for optimal classification

A Unified Framework for Learning with Nonlinear Model Classes from Arbitrary Linear Samples

How Deep Networks Learn Sparse and Hierarchical Data: the Sparse Random Hierarchy Model

Neural Collapse for Cross-entropy Class-Imbalanced Learning with Unconstrained ReLU Features Model

Simplicity Bias of Two-Layer Networks beyond Linearly Separable Data

When is Transfer Learning Possible?

Multiply Robust Estimation for Local Distribution Shifts with Multiple Domains

Adaptively Perturbed Mirror Descent for Learning in Games

Efficient PAC Learnability of Dynamical Systems Over Multilayer Networks

Regression with Multi-Expert Deferral

On the Consistency of Kernel Methods with Dependent Observations

Minimum Norm Interpolation Meets The Local Theory of Banach Spaces

Pricing with Contextual Elasticity and Heteroscedastic Valuation

Learning from Streaming Data when Users Choose

Out-of-Domain Generalization in Dynamical Systems Reconstruction

On a Combinatorial Problem Arising in Machine Teaching

LoRA Training in the NTK Regime has No Spurious Local Minima

Learning the Uncertainty Sets of Linear Control Systems via Set Membership: A Non-asymptotic Analysis

On The Statistical Complexity of Offline Decision-Making

Critical windows: non-asymptotic theory for feature emergence in diffusion models

Asymptotics of Learning with Deep Structured (Random) Features

Low-Rank Bandits via Tight Two-to-Infinity Singular Subspace Recovery

Best of Both Worlds Guarantees for Smoothed Online Quadratic Optimization

On Interpolating Experts and Multi-Armed Bandits

Understanding Server-Assisted Federated Learning in the Presence of Incomplete Client Participation

On the Error-Propagation of Inexact Hotelling's Deflation for Principal Component Analysis

Causal Inference from Competing Treatments

Online Algorithms with Uncertainty-Quantified Predictions

REMEDI: Corrective Transformations for Improved Neural Entropy Estimation

Conformal Validity Guarantees Exist for Any Data Distribution (and How to Find Them)

Prediction-powered Generalization of Causal Inferences

Active Adaptive Experimental Design for Treatment Effect Estimation with Covariate Choice

Improving Neural Logic Machines via Failure Reflection

On Positivity Condition for Causal Inference

Evaluating Instrument Validity using the Principle of Independent Mechanisms

Absolute Policy Optimization: Enhancing Lower Probability Bound of Performance with High Confidence

Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL

Conformal prediction for multi-dimensional time series by ellipsoidal sets

Minimizing $f$-Divergences by Interpolating Velocity Fields

Estimating Distributional Treatment Effects in Randomized Experiments: Machine Learning for Variance Reduction

Position: The Causal Revolution Needs Scientific Pragmatism

Adaptive Online Experimental Design for Causal Discovery

PairNet: Training with Observed Pairs to Estimate Individual Treatment Effect

On the sample complexity of conditional independence testing with Von Mises estimator with application to causal discovery

Foundations of Testing for Finite-Sample Causal Discovery

Learning Mixtures of Gaussian Processes through Random Projection

Sliced Wasserstein with Random-Path Projecting Directions

Inherent Trade-Offs between Diversity and Stability in Multi-Task Benchmarks

Learning Useful Representations of Recurrent Neural Network Weight Matrices

Residual Quantization with Implicit Neural Codebooks

Data-free Neural Representation Compression with Riemannian Neural Dynamics

Sequential Disentanglement by Extracting Static Information From A Single Sequence Element

Gradual Divergence for Seamless Adaptation: A Novel Domain Incremental Learning Method

Quasi-Monte Carlo Features for Kernel Approximation

QBMK: Quantum-based Matching Kernels for Un-attributed Graphs

Position: $C^*$-Algebraic Machine Learning $-$ Moving in a New Direction

Scaling Beyond the GPU Memory Limit for Large Mixture-of-Experts Model Training

Sparse-to-dense Multimodal Image Registration via Multi-Task Learning

Fast and Sample Efficient Multi-Task Representation Learning in Stochastic Contextual Bandits

Wukong: Towards a Scaling Law for Large-Scale Recommendation

Approximate Nearest Neighbor Search with Window Filters

Structure-Aware E(3)-Invariant Molecular Conformer Aggregation Networks

Self-cognitive Denoising in the Presence of Multiple Noisy Label Sources

Learning with 3D rotations, a hitchhiker's guide to SO(3)

$f$-Divergence Based Classification: Beyond the Use of Cross-Entropy

Beyond the ROC Curve: Classification Trees Using Cost-Optimal Curves, with Application to Imbalanced Datasets

Binary Decomposition: A Problem Transformation Perspective for Open-Set Semi-Supervised Learning

Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity

CRoFT: Robust Fine-Tuning with Concurrent Optimization for OOD Generalization and Open-Set OOD Detection

ED-Copilot: Reduce Emergency Department Wait Time with Language Model Diagnostic Assistance

MH-pFLID: Model Heterogeneous personalized Federated Learning via Injection and Distillation for Medical Data Analysis

Contextualized Policy Recovery: Modeling and Interpreting Medical Decisions with Adaptive Imitation Learning

Contrastive Learning for Clinical Outcome Prediction with Partial Data Sources

Unsupervised Domain Adaptation for Anatomical Structure Detection in Ultrasound Images

Position: Reinforcement Learning in Dynamic Treatment Regimes Needs Critical Reexamination

AttNS: Attention-Inspired Numerical Solving For Limited Data Scenarios

Harnessing the Power of Neural Operators with Automatically Encoded Conservation Laws

Private and Federated Stochastic Convex Optimization: Efficient Strategies for Centralized Systems

Privacy Attacks in Decentralized Learning

Seesaw: Compensating for Nonlinear Reduction with Linear Computations for Private Inference

Subsampling is not Magic: Why Large Batch Sizes Work for Differentially Private Stochastic Optimisation

CaPS: Collaborative and Private Synthetic Data Generation from Distributed Sources

Bounding the Excess Risk for Linear Models Trained on Marginal-Preserving, Differentially-Private, Synthetic Data

Provable Privacy with Non-Private Pre-Processing

Recovering Labels from Local Updates in Federated Learning

Neural Collapse meets Differential Privacy: Curious behaviors of NoisyGD with Near-Perfect Representation Learning

Privacy Preserving Adaptive Experiment Design

ILILT: Implicit Learning of Inverse Lithography Technologies

DE-COP: Detecting Copyrighted Content in Language Models Training Data

Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large Language Models

FedMBridge: Bridgeable Multimodal Federated Learning

Improving Interpretation Faithfulness for Vision Transformers

Learning to Continually Learn with the Bayesian Principle

Online Adaptive Anomaly Thresholding with Confidence Sequences

Discounted Adaptive Online Learning: Towards Better Regularization

Faster Maximum Inner Product Search in High Dimensions

Vectorized Conditional Neural Fields: A Framework for Solving Time-dependent Parametric Partial Differential Equations

DynSyn: Dynamical Synergistic Representation for Efficient Learning and Control in Overactuated Embodied Systems

Irregular Multivariate Time Series Forecasting: A Transformable Patching Graph Neural Networks Approach

UP2ME: Univariate Pre-training to Multivariate Fine-tuning as a General-purpose Framework for Multivariate Time Series Analysis

Conformalized Adaptive Forecasting of Heterogeneous Trajectories

Dynamic Survival Analysis with Controlled Latent States

TimeMIL: Advancing Multivariate Time Series Classification via a Time-aware Multiple Instance Learning

Improved Communication-Privacy Trade-offs in $L_2$ Mean Estimation under Streaming Differential Privacy

End-to-End Neuro-Symbolic Reinforcement Learning with Textual Explanations

Emergence of In-Context Reinforcement Learning from Noise Distillation

Towards Certified Unlearning for Deep Neural Networks

Unveiling Privacy, Memorization, and Input Curvature Links

PAGER: Accurate Failure Characterization in Deep Regression Models

Privacy Backdoors: Stealing Data with Corrupted Pretrained Models

Should we be going MAD? A Look at Multi-Agent Debate Strategies for LLMs

Do Large Language Models Perform the Way People Expect? Measuring the Human Generalization Function

Decomposable Submodular Maximization in Federated Setting

FedREDefense: Defending against Model Poisoning Attacks for Federated Learning using Model Update Reconstruction Error

FedCal: Achieving Local and Global Calibration in Federated Learning via Aggregated Parameterized Scaler

Conformal Prediction with Learned Features

The Stronger the Diffusion Model, the Easier the Backdoor: Data Poisoning to Induce Copyright BreachesWithout Adjusting Finetuning Pipeline

Position: A Roadmap to Pluralistic Alignment

Graph Neural Network Explanations are Fragile

The WMDP Benchmark: Measuring and Reducing Malicious Use with Unlearning

Distributed Bilevel Optimization with Communication Compression

Multi-Track Message Passing: Tackling Oversmoothing and Oversquashing in Graph Learning via Preventing Heterophily Mixing

Towards Interpretable Deep Local Learning with Successive Gradient Reconciliation

OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models

T-Cal: An Optimal Test for the Calibration of Predictive Models

A Unified Recipe for Deriving (Time-Uniform) PAC-Bayes Bounds

Adapting Static Fairness to Sequential Decision-Making: Bias Mitigation Strategies towards Equal Long-term Benefit Rate

Evaluating Model Bias Requires Characterizing its Mistakes

Feature Importance Disparities for Data Bias Investigations

Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications

Networked Inequality: Preferential Attachment Bias in Graph Neural Network Link Prediction

On the Maximal Local Disparity of Fairness-Aware Classifiers

Position: Scarce Resource Allocations That Rely On Machine Learning Should Be Randomized

Towards Compositionality in Concept Learning

Removing Spurious Concepts from Neural Network Representations via Joint Subspace Estimation

Explorations of Self-Repair in Language Models

Provably Better Explanations with Optimized Aggregation of Feature Attributions

RODEO: Robust Outlier Detection via Exposing Adaptive Out-of-Distribution Samples

HGCN2SP: Hierarchical Graph Convolutional Network for Two-Stage Stochastic Programming

ReconBoost: Boosting Can Achieve Modality Reconcilement

How Does Goal Relabeling Improve Sample Efficiency?

ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy

Tuning-Free Stochastic Optimization

LLaGA: Large Language and Graph Assistant

Random features models: a way to study the success of naive imputation

Mitigating Label Noise on Graphs via Topological Sample Selection

Directly Denoising Diffusion Models

Generalized Neural Collapse for a Large Number of Classes

Entropy-Reinforced Planning with Large Language Models for Drug Discovery

Mean Field Langevin Actor-Critic: Faster Convergence and Global Optimality beyond Lazy Learning

On Discrete Prompt Optimization for Diffusion Models

Neural Networks Learn Statistics of Increasing Complexity

Careful with that Scalpel: Improving Gradient Surgery with an EMA

Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise

Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention

Position: Optimization in SciML Should Employ the Function Space Geometry

Navigating Complexity: Toward Lossless Graph Condensation via Expanding Window Matching

Can Gaussian Sketching Converge Faster on a Preconditioned Landscape?

Causality Based Front-door Defense Against Backdoor Attack on Language Models

Discovering Mixtures of Structural Causal Models from Time Series Data

Exploiting Human-AI Dependence for Learning to Defer

CW Complex Hypothesis for Image Data

Stability Evaluation through Distributional Perturbation Analysis

Universal Gradient Methods for Stochastic Convex Optimization

A Subquadratic Time Algorithm for Robust Sparse Mean Estimation

A Single-Loop Robust Policy Gradient Method for Robust Markov Decision Processes

Slow and Steady Wins the Race: Maintaining Plasticity with Hare and Tortoise Networks

Data Engineering for Scaling Language Models to 128K Context

Enhancing Storage and Computational Efficiency in Federated Multimodal Learning for Large-Scale Models

Consistent Diffusion Meets Tweedie: Training Exact Ambient Diffusion Models with Noisy Data

Automated Loss function Search for Class-imbalanced Node Classification

Easing Concept Bleeding in Diffusion via Entity Localization and Anchoring

Consistent Adversarially Robust Linear Classification: Non-Parametric Setting

GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

CogDPM: Diffusion Probabilistic Models via Cognitive Predictive Coding

Position: What Can Large Language Models Tell Us about Time Series Analysis

Accurate LoRA-Finetuning Quantization of LLMs via Information Retention

ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories

Variational Schrödinger Diffusion Models

Accelerating Transformer Pre-training with 2:4 Sparsity

On the Complexity of Finite-Sum Smooth Optimization under the Polyak–Łojasiewicz Condition

Spider: A Unified Framework for Context-dependent Concept Segmentation

Fourier Controller Networks for Real-Time Decision-Making in Embodied Learning

Image Restoration Through Generalized Ornstein-Uhlenbeck Bridge

Graph Out-of-Distribution Detection Goes Neighborhood Shaping

Implicit Regularization in Feedback Alignment Learning Mechanisms for Neural Networks

Accelerated Speculative Sampling Based on Tree Monte Carlo

A Touch, Vision, and Language Dataset for Multimodal Alignment

Bivariate Causal Discovery using Bayesian Model Selection

Asymmetry in Low-Rank Adapters of Foundation Models

GPTSwarm: Language Agents as Optimizable Graphs

Bootstrap AutoEncoders With Contrastive Paradigm for Self-supervised Gaze Estimation

High-Dimensional Geometric Streaming for Nearly Low Rank Data

Achieving Margin Maximization Exponentially Fast via Progressive Norm Rescaling

CompeteAI: Understanding the Competition Dynamics of Large Language Model-based Agents

Model Assessment and Selection under Temporal Distribution Shift

Smoothness Adaptive Hypothesis Transfer Learning

Optimization without Retraction on the Random Generalized Stiefel Manifold

Disentangled Graph Self-supervised Learning for Out-of-Distribution Generalization

Subgoal-based Demonstration Learning for Formal Theorem Proving

Applying language models to algebraic topology: generating simplicial cycles using multi-labeling in Wu's formula

Autoformalizing Euclidean Geometry

Auctionformer: A Unified Deep Learning Algorithm for Solving Equilibrium Strategies in Auction Games

LaMAGIC: Language-Model-based Topology Generation for Analog Integrated Circuits

Identifiability Matters: Revealing the Hidden Recoverable Condition in Unbiased Learning to Rank

CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution

NeWRF: A Deep Learning Framework for Wireless Radiation Field Reconstruction and Channel Prediction

Unsupervised Representation Learning of Brain Activity via Bridging Voxel Activity and Functional Connectivity

Spike Distance Function as a Learning Objective for Spike Prediction

Sign Gradient Descent-based Neuronal Dynamics: ANN-to-SNN Conversion Beyond ReLU Network

Sample as you Infer: Predictive Coding with Langevin Dynamics

MindEye2: Shared-Subject Models Enable fMRI-To-Image With 1 Hour of Data

Model-Based Minimum Bayes Risk Decoding for Text Generation

WebLINX: Real-World Website Navigation with Multi-Turn Dialogue

Unsupervised Concept Discovery Mitigates Spurious Correlations

DNA-SE: Towards Deep Neural-Nets Assisted Semiparametric Estimation

Improving Open-Ended Text Generation via Adaptive Decoding

SIN: Selective and Interpretable Normalization for Long-Term Time Series Forecasting

SFC: Achieve Accurate Fast Convolution under Low-precision Arithmetic

Smooth Min-Max Monotonic Networks

An Effective Dynamic Gradient Calibration Method for Continual Learning

ULAREF: A Unified Label Refinement Framework for Learning with Inaccurate Supervision

From Self-Attention to Markov Models: Unveiling the Dynamics of Generative Transformers

Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems

Sparse and Structured Hopfield Networks

How do Transformers Perform In-Context Autoregressive Learning ?

Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference

Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping and Geometric Regularization

Understanding Diffusion Models by Feynman's Path Integral

Why do Variational Autoencoders Really Promote Disentanglement?

Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs

A Geometric Explanation of the Likelihood OOD Detection Paradox

Graph Neural Networks with a Distribution of Parametrized Graphs

Swallowing the Bitter Pill: Simplified Scalable Conformer Generation

Disentangled Continual Graph Neural Architecture Search with Invariant Modular Supernet

Weisfeiler-Leman at the margin: When more expressivity matters

How Interpretable Are Interpretable Graph Neural Networks?

Position: Graph Foundation Models Are Already Here

How Graph Neural Networks Learn: Lessons from Training Dynamics

CARTE: Pretraining and Transfer for Tabular Learning

A Dense Reward View on Aligning Text-to-Image Diffusion with Preference

DisCo-Diff: Enhancing Continuous Diffusion Models with Discrete Latents

Learning Latent Space Hierarchical EBM Diffusion Models

FiT: Flexible Vision Transformer for Diffusion Model

StrokeNUWA—Tokenizing Strokes for Vector Graphic Synthesis

Time Series Diffusion in the Frequency Domain

Adapt and Diffuse: Sample-adaptive Reconstruction via Latent Diffusion Models

FRAG: Frequency Adapting Group for Diffusion Video Editing

Proteus: Exploring Protein Structure Generation for Enhanced Designability and Efficiency

Diffusion Rejection Sampling

Graph Structure Extrapolation for Out-of-Distribution Generalization

On Which Nodes Does GCN Fail? Enhancing GCN From the Node Perspective

Long Range Propagation on Continuous-Time Dynamic Graphs

On the Expressive Power of Spectral Invariant Graph Neural Networks

Translating Subgraphs to Nodes Makes Simple GNNs Strong and Efficient for Subgraph Representation Learning

Learning Graph Representation via Graph Entropy Maximization

Parameter Efficient Quasi-Orthogonal Fine-Tuning via Givens Rotation

DoRA: Weight-Decomposed Low-Rank Adaptation

Extreme Compression of Large Language Models via Additive Quantization

Towards Efficient Exact Optimization of Language Model Alignment

Emergent Representations of Program Semantics in Language Models Trained on Programs

Promptbreeder: Self-Referential Self-Improvement via Prompt Evolution

DéjàVu: KV-cache Streaming for Fast, Fault-tolerant Generative LLM Serving

Position: Open-Endedness is Essential for Artificial Superhuman Intelligence

AlphaZero-Like Tree-Search can Guide Large Language Model Decoding and Training

TroVE: Inducing Verifiable and Efficient Toolboxes for Solving Programmatic Tasks

Agnostic Sample Compression Schemes for Regression

QuRating: Selecting High-Quality Data for Training Language Models

tinyBenchmarks: evaluating LLMs with fewer examples

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative Decoding

Q-Probe: A Lightweight Approach to Reward Maximization for Language Models

MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark

A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models

A Language Model’s Guide Through Latent Space

Language Models Represent Beliefs of Self and Others

Nash Learning from Human Feedback

Helpful or Harmful Data? Fine-tuning-free Shapley Attribution for Explaining Language Model Predictions

Position: Will we run out of data? Limits of LLM scaling based on human-generated data

Use Your INSTINCT: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers

NExT-GPT: Any-to-Any Multimodal LLM

LoCoCo: Dropping In Convolutions for Long Context Compression

Ameliorate Spurious Correlations in Dataset Condensation

Instruction Tuning for Secure Code Generation

CaM: Cache Merging for Memory-efficient LLMs Inference

A Tale of Tails: Model Collapse as a Change of Scaling Laws

Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation

Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning

EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism

COLD-Attack: Jailbreaking LLMs with Stealthiness and Controllability

Scaling Laws for Fine-Grained Mixture of Experts

By Tying Embeddings You Are Assuming the Distributional Hypothesis

Do Topological Characteristics Help in Knowledge Distillation?

Partial Multi-View Multi-Label Classification via Semantic Invariance Learning and Prototype Modeling

Generalizing Knowledge Graph Embedding with Universal Orthogonal Parameterization

CosPGD: an efficient white-box adversarial attack for pixel-wise prediction tasks

Et Tu Certifications: Robustness Certificates Yield Better Adversarial Examples

Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models

Position: Exploring the Robustness of Pipeline-Parallelism-Based Decentralized Training

DataFreeShield: Defending Adversarial Attacks without Training Data

Better Safe than Sorry: Pre-training CLIP against Targeted Data Poisoning and Backdoor Attacks

Bridging Mini-Batch and Asymptotic Analysis in Contrastive Learning: From InfoNCE to Kernel-Based Losses

Contrasting Multiple Representations with the Multi-Marginal Matching Gap

Mobile Attention: Mobile-Friendly Linear-Attention for Vision Transformers

A Diffusion Model Framework for Unsupervised Neural Combinatorial Optimization

Adaptive Proximal Gradient Methods Are Universal Without Approximation

Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF

Can We Remove the Square-Root in Adaptive Gradient Methods? A Second-Order Perspective

The Computational Complexity of Finding Second-Order Stationary Points

Stochastic Optimization with Arbitrary Recurrent Data Sampling

Prior Mismatch and Adaptation in PnP-ADMM with a Nonconvex Convergence Analysis

Graph-based Time Series Clustering for End-to-End Hierarchical Forecasting

PAC-Bayesian Error Bound, via Rényi Divergence, for a Class of Linear Time-Invariant State-Space Models

Neuro-Symbolic Temporal Point Processes

A Tensor Decomposition Perspective on Second-order RNNs

Interacting Diffusion Processes for Event Sequence Forecasting

Deep Equilibrium Models are Almost Equivalent to Not-so-deep Explicit Models for High-dimensional Gaussian Mixtures

Why Do You Grok? A Theoretical Analysis on Grokking Modular Addition

Diffusion Models Encode the Intrinsic Dimension of Data Manifolds

Initial Guessing Bias: How Untrained Networks Favor Some Classes

Benign Overfitting in Two-Layer ReLU Convolutional Neural Networks for XOR Data

Efficient Contrastive Learning for Fast and Accurate Inference on Graphs

(ends 3:00 PM)

3 p.m.

View of AI from the European Commission:

Lucilla Sioli

(ends 4:00 PM)

4 p.m.

Break:

Coffee Break

(ends 4:30 PM)

4:30 p.m.

Oral 6A Agents and World Modeling [4:30-5:30]

Orals 4:30-5:30

[4:30] Position: Open-Endedness is Essential for Artificial Superhuman Intelligence

[4:45] Learning to Model the World With Language

[5:00] CompeteAI: Understanding the Competition Dynamics of Large Language Model-based Agents

[5:15] GPTSwarm: Language Agents as Optimizable Graphs

(ends 5:30 PM)

Oral 6B Low Rank Learning [4:30-5:30]

Orals 4:30-5:30

[4:30] Accurate LoRA-Finetuning Quantization of LLMs via Information Retention

[4:45] DoRA: Weight-Decomposed Low-Rank Adaptation

[5:00] GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

[5:15] LoRA Training in the NTK Regime has No Spurious Local Minima

(ends 5:30 PM)

Oral 6C Multimodal Learning [4:30-5:30]

Orals 4:30-5:30

[4:30] NExT-GPT: Any-to-Any Multimodal LLM

[4:45] MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark

[5:00] FedMBridge: Bridgeable Multimodal Federated Learning

[5:15] A Touch, Vision, and Language Dataset for Multimodal Alignment

(ends 5:30 PM)

Oral 6D Representation Learning 2 [4:30-5:30]

Orals 4:30-5:30

[4:30] Learning Useful Representations of Recurrent Neural Network Weight Matrices

[4:45] Data-free Neural Representation Compression with Riemannian Neural Dynamics

[5:00] Neural Collapse meets Differential Privacy: Curious behaviors of NoisyGD with Near-Perfect Representation Learning

[5:15] Contrasting Multiple Representations with the Multi-Marginal Matching Gap

(ends 5:30 PM)

Oral 6E Robustness and Safety [4:30-5:30]

Orals 4:30-5:30

[4:30] The Stronger the Diffusion Model, the Easier the Backdoor: Data Poisoning to Induce Copyright BreachesWithout Adjusting Finetuning Pipeline

[4:45] Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models

[5:00] Towards Optimal Adversarial Robust Q-learning with Bellman Infinity-error

[5:15] Scalable AI Safety via Doubly-Efficient Debate

(ends 5:30 PM)

Oral 6F Experimental Design and Simulation [4:30-5:30]

Orals 4:30-5:30

[4:30] Active Adaptive Experimental Design for Treatment Effect Estimation with Covariate Choice

[4:45] All-in-one simulation-based inference

[5:00] Privacy Preserving Adaptive Experiment Design

[5:15] Environment Design for Inverse Reinforcement Learning

(ends 5:30 PM)

5:30 p.m.

FRI 26 JUL

8 a.m.

Registration

(ends 4:00 PM)

8:30 a.m.

Break:

Coffee Break

(ends 9:00 AM)

9 a.m.

Workshop:

Models of Human Feedback for AI Alignment

(ends 5:00 PM)

Workshop:

Next Generation of AI Safety

(ends 5:00 PM)

Workshop:

Structured Probabilistic Inference and Generative Modeling

(ends 5:00 PM)

Workshop:

Machine Learning for Earth System Modeling: Accelerating Pathways to Impact

(ends 5:00 PM)

Workshop:

AI for Math Workshop

(ends 5:00 PM)

Workshop:

Differentiable Almost Everything: Differentiable Relaxations, Algorithms, Operators, and Simulators

(ends 5:00 PM)

Workshop:

ICML 2024 Workshop on Foundation Models in the Wild

(ends 5:00 PM)

Workshop:

ML for Life and Material Science: From Theory to Industry Applications

(ends 4:55 PM)

Workshop:

Multi-modal Foundation Model meets Embodied AI (MFM-EAI)

(ends 5:00 PM)

Workshop:

Next Generation of Sequence Modeling Architectures

(ends 5:00 PM)

Workshop:

Aligning Reinforcement Learning Experimentalists and Theorists

(ends 5:00 PM)

Workshop:

ES-FoMo II: 2nd Workshop on Efficient Systems for Foundation Models

(ends 5:00 PM)

Workshop:

Long-Context Foundation Models

(ends 5:00 PM)

Workshop:

AI for Science: Scaling in AI for Scientific Discovery

(ends 5:00 PM)

Workshop:

High-dimensional Learning Dynamics Workshop: The Emergence of Structure and Reasoning

(ends 5:00 PM)

12:30 p.m.

Break:

Hosted Lunch

(ends 2:00 PM)

3:30 p.m.

Break:

Coffee & Snack Break

(ends 4:00 PM)

SAT 27 JUL

8 a.m.

Registration

(ends 11:00 AM)

8:30 a.m.

Break:

Coffee Break

(ends 9:00 AM)

9 a.m.

Workshop:

Foundations of Reinforcement Learning and Control: Connections and Perspectives

(ends 4:55 PM)

Workshop:

Workshop on Mechanistic Interpretability

(ends 5:00 PM)

Workshop:

Workshop on Theoretical Foundations of Foundation Models (TF2M)

(ends 5:00 PM)

Workshop:

2nd Workshop on Generative AI and Law (GenLaw ’24)

(ends 5:00 PM)

Workshop:

Automated Reinforcement Learning: Exploring Meta-Learning, AutoML, and LLMs

(ends 5:00 PM)

Workshop:

Data-centric Machine Learning Research (DMLR): Datasets for Foundation Models

(ends 5:00 PM)

Workshop:

ICML Workshop on Large Language Models and Cognition

(ends 5:00 PM)

Workshop:

1st ICML Workshop on In-Context Learning (ICL @ ICML 2024)

(ends 5:00 PM)

Workshop:

Agentic Markets Workshop

(ends 5:00 PM)

Workshop:

Text, camera, action! Frontiers in controllable video generation

(ends 5:00 PM)

Workshop:

Accessible and Efficient Foundation Models for Biological Discovery

(ends 5:00 PM)

Workshop:

Humans, Algorithmic Decision-Making and Society: Modeling Interactions and Impact

(ends 5:00 PM)

Workshop:

2nd Workshop on Advancing Neural Network Training : Computational Efficiency, Scalability, and Resource Optimization (WANT@ICML 2024)

(ends 5:00 PM)

Workshop:

Geometry-grounded Representation Learning and Generative Modeling

(ends 5:00 PM)

9:30 a.m.

Workshop:

Trustworthy Multi-modal Foundation Models and AI Agents (TiFA)

(ends 5:00 PM)

12:30 p.m.

Break:

Hosted Lunch

(ends 2:00 PM)

3:30 p.m.

Break:

Coffee & Snack Break

(ends 4:00 PM)