ICML 2018 Papers

Layout:

mini compact topic detail

Comparing Dynamics: Deep Neural Networks versus Glassy Systems

The Hierarchical Adaptive Forgetting Variational Filter

Reinforcement Learning with Function-Valued Action Spaces for Partial Differential Equation Control

Stochastic Training of Graph Convolutional Networks with Variance Reduction

Not All Samples Are Created Equal: Deep Learning with Importance Sampling

Continual Reinforcement Learning with Complex Synapses

Solving Partial Assignment Problems using Random Clique Complexes

Leveraging Well-Conditioned Bases: Streaming and Distributed Summaries in Minkowski $p$-Norms

Racing Thompson: an Efficient Algorithm for Thompson Sampling with Non-conjugate Priors

Bucket Renormalization for Approximate Inference

Overcoming Catastrophic Forgetting with Hard Attention to the Task

A Conditional Gradient Framework for Composite Convex Minimization with Applications to Semidefinite Programming

Error Compensated Quantized SGD and its Applications to Large-scale Distributed Optimization

A Delay-tolerant Proximal-Gradient Algorithm for Distributed Learning

TAPAS: Tricks to Accelerate (encrypted) Prediction As a Service

GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms

Convolutional Imputation of Matrix Networks

Provable Defenses against Adversarial Examples via the Convex Outer Adversarial Polytope

Investigating Human Priors for Playing Video Games

Adversarial Risk and the Dangers of Evaluating Against Weak Attacks

Classification from Pairwise Similarity and Unlabeled Data

Near Optimal Frequent Directions for Sketching Dense and Sparse Matrices

Constrained Interacting Submodular Groupings

Level-Set Methods for Finite-Sum Constrained Convex Optimization

Semi-Implicit Variational Inference

Policy Optimization as Wasserstein Gradient Flows

Differentiable Dynamic Programming for Structured Prediction and Attention

Detecting and Correcting for Label Shift with Black Box Predictors

Make the Minority Great Again: First-Order Regret Bound for Contextual Bandits

Online Learning with Abstention

Decoupled Parallel Backpropagation with Convergence Guarantee

RLlib: Abstractions for Distributed Reinforcement Learning

Riemannian Stochastic Recursive Gradient Algorithm with Retraction and Vector Transport and Its Convergence Analysis

Inductive Two-Layer Modeling with Parametric Bregman Transfer

Stein Variational Gradient Descent Without Gradient

Hierarchical Deep Generative Models for Multi-Rate Multivariate Time Series

Learning Deep ResNet Blocks Sequentially using Boosting Theory

Neural Dynamic Programming for Musical Self Similarity

On Learning Sparsely Used Dictionaries from Incomplete Samples

SQL-Rank: A Listwise Approach to Collaborative Ranking

Nonparametric Regression with Comparisons: Escaping the Curse of Dimensionality with Ordinal Information

Improving Regression Performance with Distributional Losses

Discovering and Removing Exogenous State Variables and Rewards for Reinforcement Learning

On the Theory of Variance Reduction for Stochastic Gradient Monte Carlo

The Edge Density Barrier: Computational-Statistical Tradeoffs in Combinatorial Inference

State Abstractions for Lifelong Reinforcement Learning

Learning and Memorization

Neural Relational Inference for Interacting Systems

Orthogonality-Promoting Distance Metric Learning: Convex Relaxation and Theoretical Analysis

Understanding and Simplifying One-Shot Architecture Search

Probabilistic Recurrent State-Space Models

More Robust Doubly Robust Off-policy Evaluation

Constant-Time Predictive Distributions for Gaussian Processes

Hierarchical Clustering with Structural Constraints

Frank-Wolfe with Subsampling Oracle

Efficient Bias-Span-Constrained Exploration-Exploitation in Reinforcement Learning

Weakly Submodular Maximization Beyond Cardinality Constraints: Does Randomization Help Greedy?

Attention-based Deep Multiple Instance Learning

Fast Approximate Spectral Clustering for Dynamic Networks

Clipped Action Policy Gradient

Noise2Noise: Learning Image Restoration without Clean Data

Dissecting Adam: The Sign, Magnitude and Variance of Stochastic Gradients

Importance Weighted Transfer of Samples in Reinforcement Learning

The Multilinear Structure of ReLU Networks

Composite Marginal Likelihood Methods for Random Utility Models

Dropout Training, Data-dependent Regularization, and Generalization Bounds

Probabilistic Boolean Tensor Decomposition

Visualizing and Understanding Atari Agents

Learning One Convolutional Layer with Overlapping Patches

Data-Dependent Stability of Stochastic Gradient Descent

An Estimation and Analysis Framework for the Rasch Model

PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive Learning

Differentially Private Database Release via Kernel Mean Embeddings

Fast and Sample Efficient Inductive Matrix Completion via Multi-Phase Procrustes Flow

Focused Hierarchical RNNs for Conditional Sequence Processing

Discovering Interpretable Representations for Both Deep Generative and Discriminative Models

Improving Sign Random Projections With Additional Information

Delayed Impact of Fair Machine Learning

Design of Experiments for Model Discrimination Hybridising Analytical and Data-Driven Approaches

Bayesian Model Selection for Change Point Detection and Clustering

Improving the Privacy and Accuracy of ADMM-Based Distributed Algorithms

Matrix Norms in Data Streams: Faster, Multi-Pass and Row-Order

A Spectral Approach to Gradient Estimation for Implicit Distributions

Accurate Uncertainties for Deep Learning Using Calibrated Regression

Gated Path Planning Networks

Stochastic PCA with $\ell_2$ and $\ell_1$ Regularization

Adversarial Regression with Multiple Learners

DRACO: Byzantine-resilient Distributed Training via Redundant Gradients

Dissipativity Theory for Accelerating Stochastic Variance Reduction: A Unified Analysis of SVRG and Katyusha Using Semidefinite Programs

Minimax Concave Penalized Multi-Armed Bandit Model with High-Dimensional Covariates

Lipschitz Continuity in Model-based Reinforcement Learning

Computational Optimal Transport: Complexity by Accelerated Gradient Descent Is Better Than by Sinkhorn's Algorithm

Deep Density Destructors

SBEED: Convergent Reinforcement Learning with Nonlinear Function Approximation

Fairness Without Demographics in Repeated Loss Minimization

An Inference-Based Policy Gradient Method for Learning Options

Deep Models of Interactions Across Sets

Mutual Information Neural Estimation

On the Optimization of Deep Networks: Implicit Acceleration by Overparameterization

Learning Steady-States of Iterative Algorithms over Graphs

Autoregressive Quantile Networks for Generative Modeling

Tighter Variational Bounds are Not Necessarily Better

Finding Influential Training Samples for Gradient Boosted Decision Trees

Neural Autoregressive Flows

Cut-Pursuit Algorithm for Regularizing Nonsmooth Functionals with Graph Total Variation

Shampoo: Preconditioned Stochastic Tensor Optimization

Distilling the Posterior in Bayesian Neural Networks

Improved Regret Bounds for Thompson Sampling in Linear Quadratic Control Problems

On the Implicit Bias of Dropout

Rates of Convergence of Spectral Methods for Graphon Estimation

Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings

Learn from Your Neighbor: Learning Multi-modal Mappings from Sparse Annotations

Stochastic Wasserstein Barycenters

Learning to Act in Decentralized Partially Observable MDPs

Linear Spectral Estimators and an Application to Phase Retrieval

Extracting Automata from Recurrent Neural Networks Using Queries and Counterexamples

Entropy-SGD optimizes the prior of a PAC-Bayes bound: Generalization properties of Entropy-SGD and data-dependent priors

Parameterized Algorithms for the Matrix Completion Problem

Learning Memory Access Patterns

Prediction Rule Reshaping

Optimization, fast and slow: optimally switching between local and Bayesian optimization

Weightless: Lossy weight encoding for deep neural network compression

Can Deep Reinforcement Learning Solve Erdos-Selfridge-Spencer Games?

Graph Networks as Learnable Physics Engines for Inference and Control

Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples

Stein Variational Message Passing for Continuous Graphical Models

Constraining the Dynamics of Deep Probabilistic Models

SAFFRON: an Adaptive Algorithm for Online Control of the False Discovery Rate

Learning in Reproducing Kernel Kreı̆n Spaces

Gradient Descent for Sparse Rank-One Matrix Completion for Crowd-Sourced Aggregation of Sparsely Interacting Workers

Dynamic Evaluation of Neural Sequence Models

Parallel WaveNet: Fast High-Fidelity Speech Synthesis

Fair and Diverse DPP-Based Data Summarization

On Acceleration with Noise-Corrupted Gradients

Model-Level Dual Learning

Conditional Noise-Contrastive Estimation of Unnormalised Models

Geometry Score: A Method For Comparing Generative Adversarial Networks

Disentangling by Factorising

Machine Theory of Mind

Transfer Learning via Learning to Transfer

Scalable Gaussian Processes with Grid-Structured Eigenfunctions (GP-GRIEF)

Beyond the One-Step Greedy Approach in Reinforcement Learning

Thompson Sampling for Combinatorial Semi-Bandits

Progress & Compress: A scalable framework for continual learning

A Probabilistic Theory of Supervised Similarity Learning for Pointwise ROC Curve Optimization

Self-Bounded Prediction Suffix Tree via Approximate String Matching

Open Category Detection with PAC Guarantees

Extreme Learning to Rank via Low Rank Assumption

The Limits of Maxing, Ranking, and Preference Learning

Self-Imitation Learning

A Primal-Dual Analysis of Global Optimality in Nonconvex Low-Rank Matrix Recovery

Global Convergence of Policy Gradient Methods for the Linear Quadratic Regulator

Contextual Graph Markov Model: A Deep and Generative Approach to Graph Processing

Smoothed Action Value Functions for Learning Gaussian Policies

Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)

Transfer in Deep Reinforcement Learning Using Successor Features and Generalised Policy Improvement

Differentiable plasticity: training plastic neural networks with backpropagation

Analyzing the Robustness of Nearest Neighbors to Adversarial Examples

Low-Rank Riemannian Optimization on Positive Semidefinite Stochastic Matrices with Applications to Graph Clustering

A Progressive Batching L-BFGS Method for Machine Learning

Submodular Hypergraphs: p-Laplacians, Cheeger Inequalities and Spectral Clustering

Stabilizing Gradients for Deep Neural Networks via Efficient SVD Parameterization

An Algorithmic Framework of Variable Metric Over-Relaxed Hybrid Proximal Extra-Gradient Method

The Mechanics of n-Player Differentiable Games

A probabilistic framework for multi-view feature learning with many-to-many associations via neural networks

Revealing Common Statistical Behaviors in Heterogeneous Populations

Learning Dynamics of Linear Denoising Autoencoders

Learning Localized Spatio-Temporal Models From Streaming Data

Learning long term dependencies via Fourier recurrent units

An Optimal Control Approach to Deep Learning and Applications to Discrete-Weight Neural Networks

Active Learning with Logged Data

Reviving and Improving Recurrent Back-Propagation

Gradient descent with identity initialization efficiently learns positive definite linear transformations by deep residual networks

An Efficient, Generalized Bellman Update For Cooperative Inverse Reinforcement Learning

Rapid Adaptation with Conditionally Shifted Neurons

Learning with Abandonment

Active Testing: An Efficient and Robust Framework for Estimating Accuracy

Non-convex Conditional Gradient Sliding

An Alternative View: When Does SGD Escape Local Minima?

Generalization without Systematicity: On the Compositional Skills of Sequence-to-Sequence Recurrent Networks

The Generalization Error of Dictionary Learning with Moreau Envelopes

Theoretical Analysis of Sparse Subspace Clustering with Missing Entries

Coded Sparse Matrix Multiplication

Invariance of Weight Distributions in Rectified MLPs

Generalized Earley Parser: Bridging Symbolic Grammars and Sequence Data for Future Prediction

Learning Low-Dimensional Temporal Representations

Weakly Consistent Optimal Pricing Algorithms in Repeated Posted-Price Auctions with Strategic Buyer

Neural Program Synthesis from Diverse Demonstration Videos

DICOD: Distributed Convolutional Coordinate Descent for Convolutional Sparse Coding

Blind Justice: Fairness with Encrypted Sensitive Attributes

Structured Evolution with Compact Architectures for Scalable Policy Optimization

Gradually Updated Neural Networks for Large-Scale Image Recognition

Adversarial Learning with Local Coordinate Coding

Which Training Methods for GANs do actually Converge?

An Iterative, Sketching-based Framework for Ridge Regression

SMAC: Simultaneous Mapping and Clustering Using Spectral Decompositions

Theoretical Analysis of Image-to-Image Translation with Adversarial Learning

Learning Diffusion using Hyperparameters

Learning to Optimize Combinatorial Functions

Variational Network Inference: Strong and Stable with Concrete Support

On Nesting Monte Carlo Estimators

Anonymous Walk Embeddings

INSPECTRE: Privately Estimating the Unseen

Tempered Adversarial Networks

Adaptive Three Operator Splitting

Error Estimation for Randomized Least-Squares Algorithms via the Bootstrap

$D^2$: Decentralized Training over Decentralized Data

Efficient Gradient-Free Variational Inference using Policy Search

Practical Contextual Bandits with Regression Oracles

Approximate Leave-One-Out for Fast Parameter Tuning in High Dimensions

Stagewise Safe Bayesian Optimization with Gaussian Processes

Convergent Tree Backup and Retrace with Function Approximation

Time Limits in Reinforcement Learning

Deep Variational Reinforcement Learning for POMDPs

MAGAN: Aligning Biological Manifolds

Bayesian Optimization of Combinatorial Structures

Adafactor: Adaptive Learning Rates with Sublinear Memory Cost

Learning Policy Representations in Multiagent Systems

Problem Dependent Reinforcement Learning Bounds Which Can Identify Bandit Structure in MDPs

Alternating Randomized Block Coordinate Descent

Learning Maximum-A-Posteriori Perturbation Models for Structured Prediction in Polynomial Time

Image Transformer

Is Generator Conditioning Causally Related to GAN Performance?

Feedback-Based Tree Search for Reinforcement Learning

Differentially Private Identity and Equivalence Testing of Discrete Distributions

A Classification-Based Study of Covariate Shift in GAN Distributions

Semi-Supervised Learning via Compact Latent Space Clustering

Noisin: Unbiased Regularization for Recurrent Neural Networks

Byzantine-Robust Distributed Learning: Towards Optimal Statistical Rates

Orthogonal Machine Learning: Power and Limitations

Learning to Speed Up Structured Output Prediction

Hyperbolic Entailment Cones for Learning Hierarchical Embeddings

Minimal I-MAP MCMC for Scalable Structure Discovery in Causal DAG Models

On the Generalization of Equivariance and Convolution in Neural Networks to the Action of Compact Groups

Optimal Distributed Learning with Multi-pass Stochastic Gradient Methods

prDeep: Robust Phase Retrieval with a Flexible Deep Network

Deep One-Class Classification

Differentiable Abstract Interpretation for Provably Robust Neural Networks

Local Density Estimation in High Dimensions

Deep Reinforcement Learning in Continuous Action Spaces: a Case Study in the Game of Simulated Curling

Firing Bandits: Optimizing Crowdfunding

Covariate Adjusted Precision Matrix Estimation via Nonconvex Optimization

Dynamical Isometry and a Mean Field Theory of RNNs: Gating Enables Signal Propagation in Recurrent Neural Networks

TACO: Learning Task Decomposition via Temporal Alignment for Control

Mean Field Multi-Agent Reinforcement Learning

On the Relationship between Data Efficiency and Error for Uncertainty Sampling

Bounding and Counting Linear Regions of Deep Neural Networks

Representation Learning on Graphs with Jumping Knowledge Networks

Fixing a Broken ELBO

BOHB: Robust and Efficient Hyperparameter Optimization at Scale

Subspace Embedding and Linear Regression with Orlicz Norm

Implicit Quantile Networks for Distributional Reinforcement Learning

Using Reward Machines for High-Level Task Specification and Decomposition in Reinforcement Learning

Distributed Clustering via LSH Based Data Partitioning

Inference Suboptimality in Variational Autoencoders

A Distributed Second-Order Algorithm You Can Trust

Multicalibration: Calibration for the (Computationally-Identifiable) Masses

Training Neural Machines with Trace-Based Supervision

Asynchronous Decentralized Parallel Stochastic Gradient Descent

Deep Predictive Coding Network for Object Recognition

Minibatch Gibbs Sampling on Large Graphical Models

Streaming Principal Component Analysis in Noisy Setting

Black-box Adversarial Attacks with Limited Queries and Information

Accelerating Natural Gradient with Higher-Order Invariance

Selecting Representative Examples for Program Synthesis

Sound Abstraction and Decomposition of Probabilistic Programs

Fast Decoding in Sequence Models Using Discrete Latent Variables

A Semantic Loss Function for Deep Learning with Symbolic Knowledge

Equivalence of Multicategory SVM and Simplex Cone SVM: Fast Computations and Statistical Theory

A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music

Optimal Rates of Sketched-regularized Algorithms for Least-Squares Regression over Hilbert Spaces

Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks

GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks

Fourier Policy Gradients

oi-VAE: Output Interpretable VAEs for Nonlinear Group Factor Analysis

Augmented CycleGAN: Learning Many-to-Many Mappings from Unpaired Data

Born Again Neural Networks

Differentiable Compositional Kernel Learning for Gaussian Processes

Differentially Private Matrix Completion Revisited

Compressing Neural Networks using the Variational Information Bottelneck

Variational Inference and Model Selection with Generalized Evidence Bounds

Orthogonal Recurrent Neural Networks with Scaled Cayley Transform

Scalable approximate Bayesian inference for particle tracking data

ADMM and Accelerated ADMM as Continuous Dynamical Systems

WSNet: Compact and Efficient Networks Through Weight Sampling

The Well-Tempered Lasso

Proportional Allocation: Simple, Distributed, and Diverse Matching with High Entropy

Towards Black-box Iterative Machine Teaching

Learning Continuous Hierarchies in the Lorentz Model of Hyperbolic Geometry

Loss Decomposition for Fast Learning in Large Output Spaces

Chi-square Generative Adversarial Network

Predict and Constrain: Modeling Cardinality in Deep Structured Prediction

Using Inherent Structures to design Lean 2-layer RBMs

Characterizing Implicit Bias in Terms of Optimization Geometry

Learning Adversarially Fair and Transferable Representations

Probably Approximately Metric-Fair Learning

Projection-Free Online Optimization with Stochastic Gradient: From Convexity to Submodularity

Compiling Combinatorial Prediction Games

Improved large-scale graph learning through ridge spectral sparsification

Stronger Generalization Bounds for Deep Nets via a Compression Approach

Hierarchical Long-term Video Prediction without Supervision

Competitive Caching with Machine Learned Advice

Essentially No Barriers in Neural Network Energy Landscape

QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

Stochastic Variance-Reduced Hamilton Monte Carlo Methods

Composable Planning with Attributes

Learning in Integer Latent Variable Models with Nested Automatic Differentiation

Improving Optimization in Models With Continuous Symmetry Breaking

The Mirage of Action-Dependent Baselines in Reinforcement Learning

A Two-Step Computation of the Exact GAN Wasserstein Distance

Learning equations for extrapolation and control

Provable Variable Selection for Streaming Features

A Robust Approach to Sequential Information Theoretic Planning

GraphRNN: Generating Realistic Graphs with Deep Auto-regressive Models

Path Consistency Learning in Tsallis Entropy Regularized MDPs

Robust and Scalable Models of Microbiome Dynamics

On the Limitations of First-Order Approximation in GAN Dynamics

Efficient First-Order Algorithms for Adaptive Signal Denoising

Decentralized Submodular Maximization: Bridging Discrete and Continuous Settings

Decoupling Gradient-Like Learning Rules from Representations

Massively Parallel Algorithms and Hardness for Single-Linkage Clustering under $\ell_p$ Distances

signSGD: Compressed Optimisation for Non-Convex Problems

Greed is Still Good: Maximizing Monotone Submodular+Supermodular (BP) Functions

Latent Space Policies for Hierarchical Reinforcement Learning

The Hidden Vulnerability of Distributed Learning in Byzantium

Local Private Hypothesis Testing: Chi-Square Tests

Universal Planning Networks: Learning Generalizable Representations for Visuomotor Control

A Reductions Approach to Fair Classification

High Performance Zero-Memory Overhead Direct Convolutions

Variational Bayesian dropout: pitfalls and fixes

Transformation Autoregressive Networks

Mitigating Bias in Adaptive Data Gathering via Differential Privacy

Adversarial Time-to-Event Modeling

Modeling Others using Oneself in Multi-Agent Reinforcement Learning

Network Global Testing by Counting Graphlets

Modeling Sparse Deviations for Compressed Sensing using Generative Models

Structured Variational Learning of Bayesian Neural Networks with Horseshoe Priors

Exploiting the Potential of Standard Convolutional Autoencoders for Image Restoration by Evolutionary Search

One-Shot Segmentation in Clutter

Signal and Noise Statistics Oblivious Orthogonal Matching Pursuit

Regret Minimization for Partially Observable Deep Reinforcement Learning

Scalable Bilinear Pi Learning Using State and Action Features

Non-linear motor control by local learning in spiking neural networks

SGD and Hogwild! Convergence Without the Bounded Gradients Assumption

Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings

CoVeR: Learning Covariate-Specific Vector Representations with Tensor Decompositions

Fast Parametric Learning with Activation Memorization

The Weighted Kendall and High-order Kernels for Permutations

A Fast and Scalable Joint Estimator for Integrating Additional Knowledge in Learning Multiple Related Sparse Gaussian Graphical Models

Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

Structured Variationally Auto-encoded Optimization

Reinforcing Adversarial Robustness using Model Confidence Induced by Adversarial Training

Clustering Semi-Random Mixtures of Gaussians

PixelSNAIL: An Improved Autoregressive Generative Model

Efficient Neural Audio Synthesis

A Theoretical Explanation for Perplexing Behaviors of Backpropagation-based Visualizations

Randomized Block Cubic Newton Method

A Spline Theory of Deep Learning

Fast Gradient-Based Methods with Exponential Rate: A Hybrid Control Framework

Adversarial Attack on Graph Structured Data

Fast Bellman Updates for Robust MDPs

Representation Tradeoffs for Hyperbolic Embeddings

Analyzing Uncertainty in Neural Machine Translation

Autoregressive Convolutional Neural Networks for Asynchronous Time Series

Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

Approximate message passing for amplitude based optimization

Nearly Optimal Robust Subspace Tracking

Quasi-Monte Carlo Variational Inference

Residual Unfairness in Fair Machine Learning from Prejudiced Data

Semiparametric Contextual Bandits

DiCE: The Infinitely Differentiable Monte Carlo Estimator

Learning K-way D-dimensional Discrete Codes for Compact Embedding Representations

A Boo(n) for Evaluating Architecture Performance

Decomposition of Uncertainty in Bayesian Deep Learning for Efficient and Risk-sensitive Learning

Hierarchical Multi-Label Classification Networks

End-to-End Learning for the Deep Multivariate Probit Model

Fully Decentralized Multi-Agent Reinforcement Learning with Networked Agents

Continuous-Time Flows for Efficient Inference and Density Estimation

Pseudo-task Augmentation: From Deep Multitask Learning to Intratask Sharing—and Back

Fast and Scalable Bayesian Deep Learning by Weight-Perturbation in Adam

Synthesizing Robust Adversarial Examples

Efficient Neural Architecture Search via Parameters Sharing

Preventing Fairness Gerrymandering: Auditing and Learning for Subgroup Fairness

Conditional Neural Processes

Ultra Large-Scale Feature Selection using Count-Sketches

Learning to Branch

Addressing Function Approximation Error in Actor-Critic Methods

Stochastic Variance-Reduced Cubic Regularized Newton Method

Towards More Efficient Stochastic Decentralized Learning: Faster Convergence and Sparse Communication

Kernel Recursive ABC: Point Estimation with Intractable Likelihood

Temporal Poisson Square Root Graphical Models

Estimation of Markov Chain via Rank-constrained Likelihood

BOCK : Bayesian Optimization with Cylindrical Kernels

Bounds on the Approximation Power of Feedforward Neural Networks

On Matching Pursuit and Coordinate Descent

Pathwise Derivatives Beyond the Reparameterization Trick

Explicit Inductive Bias for Transfer Learning with Convolutional Networks

Optimal Tuning for Divide-and-conquer Kernel Ridge Regression with Massive Data

High-Quality Prediction Intervals for Deep Learning: A Distribution-Free, Ensembled Approach

Fast Variance Reduction Method with Stochastic Batch Size

Mix & Match - Agent Curricula for Reinforcement Learning

Accelerating Greedy Coordinate Descent Methods

Spline Filters For End-to-End Deep Learning

Distributed Asynchronous Optimization with Unbounded Delays: How Slow Can You Go?

ContextNet: Deep learning for Star Galaxy Classification

Online Convolutional Sparse Coding with Sample-Dependent Dictionary

Deep k-Means: Re-Training and Parameter Sharing with Harder Cluster Assignments for Compressing Deep Convolutions

Functional Gradient Boosting based on Residual Network Perception

Automatic Goal Generation for Reinforcement Learning Agents

Inter and Intra Topic Structure Learning with Word Embeddings

Hierarchical Imitation and Reinforcement Learning

Does Distributionally Robust Supervised Learning Give Robust Classifiers?

Convergence guarantees for a class of non-convex and non-smooth optimization problems

CyCADA: Cycle-Consistent Adversarial Domain Adaptation

Tree Edit Distance Learning via Adaptive Symbol Embeddings

Structured Control Nets for Deep Reinforcement Learning

CRVI: Convex Relaxation for Variational Inference

Stein Points

Learning by Playing - Solving Sparse Reward Tasks from Scratch

DVAE++: Discrete Variational Autoencoders with Overlapping Transformations

IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

StrassenNets: Deep Learning with a Multiplication Budget

Learning to Coordinate with Coordination Graphs in Repeated Single-Stage Multi-Agent Decision Problems

Efficient and Consistent Adversarial Bipartite Matching

Learning unknown ODE models with Gaussian processes

Knowledge Transfer with Jacobian Matching

Lyapunov Functions for First-Order Methods: Tight Automated Convergence Guarantees

QuantTree: Histograms for Change Detection in Multivariate Data Streams

Continuous and Discrete-time Accelerated Stochastic Mirror Descent for Strongly Convex Functions

Policy and Value Transfer in Lifelong Reinforcement Learning

JointGAN: Multi-Domain Joint Distribution Learning with Generative Adversarial Nets

Neural Networks Should Be Wide Enough to Learn Disconnected Decision Regions

Gradient Primal-Dual Algorithm Converges to Second-Order Stationary Solution for Nonconvex Distributed Optimization Over Networks

Adversarially Regularized Autoencoders

Disentangled Sequential Autoencoder

Escaping Saddles with Stochastic Gradients

Testing Sparsity over Known and Unknown Bases

LaVAN: Localized and Visible Adversarial Noise

Multi-Fidelity Black-Box Optimization with Hierarchical Partitions

Fitting New Speakers Based on a Short Untranscribed Sample

Candidates vs. Noises Estimation for Large Multi-Class Classification Problem

LeapsAndBounds: A Method for Approximately Optimal Algorithm Configuration

Data Summarization at Scale: A Two-Stage Submodular Approach

Hierarchical Text Generation and Planning for Strategic Dialogue

Not to Cry Wolf: Distantly Supervised Multitask Learning in Critical Care

Efficient end-to-end learning for quantizable representations

Online Linear Quadratic Control

Kronecker Recurrent Units

Celer: a Fast Solver for the Lasso with Dual Extrapolation

WHInter: A Working set algorithm for High-dimensional sparse second order Interaction models

Learning Longer-term Dependencies in RNNs with Auxiliary Losses

Been There, Done That: Meta-Learning with Episodic Recall

Learning Implicit Generative Models with the Method of Learned Moments

Kernelized Synaptic Weight Matrices

Generative Temporal Models with Spatial Memory for Partially Observed Environments

Configurable Markov Decision Processes

Noisy Natural Gradient as Variational Inference

Improving the Gaussian Mechanism for Differential Privacy: Analytical Calibration and Optimal Denoising

Canonical Tensor Decomposition for Knowledge Base Completion

Characterizing and Learning Equivalence Classes of Causal DAGs under Interventions

Bilevel Programming for Hyperparameter Optimization and Meta-Learning

Iterative Amortized Inference

Efficient Model-Based Deep Reinforcement Learning with Variational State Tabulation

Deep Bayesian Nonparametric Tracking

Learning a Mixture of Two Multinomial Logits

Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demonstrations

Understanding the Loss Surface of Neural Networks for Binary Classification

Max-Mahalanobis Linear Discriminant Analysis Networks

Budgeted Experiment Design for Causal Structure Learning

Locally Private Hypothesis Testing

Closed-form Marginal Likelihood in Gamma-Poisson Matrix Factorization

Optimizing the Latent Space of Generative Networks

Mixed batches and symmetric discriminators for GAN training

Binary Classification with Karmic, Threshold-Quasi-Concave Metrics

State Space Gaussian Processes with Non-Gaussian Likelihood

K-means clustering using random matrix sparsification

Stochastic Variance-Reduced Policy Gradient

DCFNet: Deep Neural Network with Decomposed Convolutional Filters

Learning to search with MCTSnets

Tropical Geometry of Deep Neural Networks

Gradient Coding from Cyclic MDS Codes and Expander Graphs

Causal Bandits with Propagating Inference

Learning Hidden Markov Models from Pairwise Co-occurrences with Application to Topic Modeling

First Order Generative Adversarial Networks

Limits of Estimating Heterogeneous Treatment Effects: Guidelines for Practical Algorithm Design

Crowdsourcing with Arbitrary Adversaries

Accurate Inference for Adaptive Linear Models

Feasible Arm Identification

Distributed Nonparametric Regression under Communication Constraints

CRAFTML, an Efficient Clustering-based Random Forest for Extreme Multi-label Learning

Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

Ranking Distributions based on Noisy Sorting

Recurrent Predictive State Policy Networks

Yes, but Did It Work?: Evaluating Variational Inference

AutoPrognosis: Automated Clinical Prognostic Modeling via Bayesian Optimization with Structured Kernel Learning

Learning Registered Point Processes from Idiosyncratic Observations

Markov Modulated Gaussian Cox Processes for Semi-Stationary Intensity Modeling of Events Data

Bandits with Delayed, Aggregated Anonymous Feedback

Learning Binary Latent Variable Models: A Tensor Eigenpair Approach

Nonconvex Optimization for Regression with Fairness Constraints

Beyond 1/2-Approximation for Submodular Maximization on Massive Data Streams

Lightweight Stochastic Optimization for Minimizing Finite Sums with Infinite Data

Approximation Algorithms for Cascading Prediction Models

Towards Fast Computation of Certified Robustness for ReLU Networks

Partial Optimality and Fast Lower Bounds for Weighted Correlation Clustering

Improved nearest neighbor search using auxiliary information and priority functions

Spurious Local Minima are Common in Two-Layer ReLU Neural Networks

Analysis of Minimax Error Rate for Crowdsourcing and Its Application to Worker Clustering Model

Nonparametric variable importance using an augmented neural network with multi-task learning

Learning Independent Causal Mechanisms

Programmatically Interpretable Reinforcement Learning

SparseMAP: Differentiable Sparse Structured Inference

To Understand Deep Learning We Need to Understand Kernel Learning

Path-Level Network Transformation for Efficient Architecture Search

The Dynamics of Learning: A Random Matrix Approach

Gradient-Based Meta-Learning with Learned Layerwise Metric and Subspace

Katyusha X: Simple Momentum Method for Stochastic Sum-of-Nonconvex Optimization

GAIN: Missing Data Imputation using Generative Adversarial Nets

Structured Output Learning with Abstention: Application to Accurate Opinion Prediction

Black-Box Variational Inference for Stochastic Differential Equations

Optimization Landscape and Expressivity of Deep CNNs

Spotlight: Optimizing Device Placement for Training Deep Neural Networks

Faster Derivative-Free Stochastic Algorithm for Shared Memory Machines

A Simple Stochastic Variance Reduced Algorithm with Fast Convergence Rates

Stability and Generalization of Learning Algorithms that Converge to Global Optima

Variance Regularized Counterfactual Risk Minimization via Variational Divergence Minimization

RadialGAN: Leveraging multiple datasets to improve target-specific predictive models using Generative Adversarial Networks

Measuring abstract reasoning in neural networks

Curriculum Learning by Transfer Learning: Theory and Experiments with Deep Networks

Composite Functional Gradient Learning of Generative Adversarial Models

Discrete-Continuous Mixtures in Probabilistic Programming: Generalized Semantics and Inference Algorithms

NetGAN: Generating Graphs via Random Walks

SADAGRAD: Strongly Adaptive Stochastic Gradient Methods

Deep Linear Networks with Arbitrary Loss: All Local Minima Are Global

An Efficient Semismooth Newton based Algorithm for Convex Clustering

Accelerated Spectral Ranking

Communication-Computation Efficient Gradient Coding

Unbiased Objective Estimation in Predictive Optimization

Local Convergence Properties of SAGA/Prox-SVRG and Acceleration

Detecting non-causal artifacts in multivariate linear regression models

Let’s be Honest: An Optimal No-Regret Framework for Zero-Sum Games

Large-Scale Cox Process Inference using Variational Fourier Features

Adaptive Exploration-Exploitation Tradeoff for Opportunistic Bandits

Dynamic Regret of Strongly Adaptive Methods

Least-Squares Temporal Difference Learning for the Linear Quadratic Regulator

Comparison-Based Random Forests

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

Variable Selection via Penalized Neural Network: a Drop-Out-One Loss Approach

Meta-Learning by Adjusting Priors Based on Extended PAC-Bayes Theory

Learning to Reweight Examples for Robust Deep Learning

Synthesizing Programs for Images using Reinforced Adversarial Learning

Semi-Amortized Variational Autoencoders

Fast Information-theoretic Bayesian Optimisation

K-Beam Minimax: Efficient Optimization for Deep Adversarial Learning

Rectify Heterogeneous Models with Semantic Mapping

The Power of Interpolation: Understanding the Effectiveness of SGD in Modern Over-parametrized Learning

Learning Semantic Representations for Unsupervised Domain Adaptation

Best Arm Identification in Linear Bandits with Linear Dimension Dependency

The Uncertainty Bellman Equation and Exploration

Black Box FDR

Deep Asymmetric Multi-task Feature Learning

PIPPS: Flexible Model-Based Policy Search Robust to the Curse of Chaos

Dimensionality-Driven Learning with Noisy Labels

Quickshift++: Provably Good Initializations for Sample-Based Mean Shift

Generalized Robust Bayesian Committee Machine for Large-scale Gaussian Process Regression

Learning to Explain: An Information-Theoretic Perspective on Model Interpretation

Policy Optimization with Demonstrations

Asynchronous Byzantine Machine Learning (the case of SGD)

MentorNet: Learning Data-Driven Curriculum for Very Deep Neural Networks on Corrupted Labels

Bayesian Coreset Construction via Greedy Iterative Geodesic Ascent

Adaptive Sampled Softmax with Kernel Based Sampling

Graphical Nonconvex Optimization via an Adaptive Convex Relaxation

Spectrally Approximating Large Graphs with Smaller Graphs

Tight Regret Bounds for Bayesian Optimization in One Dimension

Dependent Relational Gamma Process Models for Longitudinal Networks

Fast Stochastic AUC Maximization with $O(1/n)$-Convergence Rate

Large-Scale Sparse Inverse Covariance Estimation via Thresholding and Max-Det Matrix Completion

Augment and Reduce: Stochastic Inference for Large Categorical Distributions

Learning to Explore via Meta-Policy Gradient

Geodesic Convolutional Shape Optimization

Out-of-sample extension of graph adjacency spectral embedding

A Unified Framework for Structured Low-rank Matrix Learning

Learning Compact Neural Networks with Regularization

Binary Partitions with Approximate Minimum Impurity

PDE-Net: Learning PDEs from Data

Understanding Generalization and Optimization Performance of Deep CNNs

Learning the Reward Function for a Misspecified Model

Learning Representations and Generative Models for 3D Point Clouds

Stochastic Proximal Algorithms for AUC Maximization

Coordinated Exploration in Concurrent Reinforcement Learning

Video Prediction with Appearance and Motion Conditions

On the Spectrum of Random Features Maps of High Dimensional Data

Batch Bayesian Optimization via Multi-objective Acquisition Ensemble for Automated Analog Circuit Design

Fast Maximization of Non-Submodular, Monotonic Functions on the Integer Lattice

Neural Inverse Rendering for General Reflectance Photometric Stereo

Parallel Bayesian Network Structure Learning

Implicit Regularization in Nonconvex Statistical Estimation: Gradient Descent Converges Linearly for Phase Retrieval and Matrix Completion

Beyond Finite Layer Neural Networks: Bridging Deep Architectures and Numerical Differential Equations

On the Power of Over-parametrization in Neural Networks with Quadratic Activation

Junction Tree Variational Autoencoder for Molecular Graph Generation

Goodness-of-fit Testing for Discrete Distributions via Stein Discrepancy

Scalable Deletion-Robust Submodular Maximization: Data Summarization with Privacy and Fairness Constraints

Gradient Descent Learns One-hidden-layer CNN: Don't be Afraid of Spurious Local Minima

Information Theoretic Guarantees for Empirical Risk Minimization with Applications to Model Selection and Large-Scale Optimization

MSplit LBI: Realizing Feature Selection and Dense Estimation Simultaneously in Few-shot and Zero-shot Learning

Towards Binary-Valued Gates for Robust LSTM Training

Improved Training of Generative Adversarial Networks Using Representative Features

Message Passing Stein Variational Gradient Descent

Bayesian Quadrature for Multiple Related Integrals

Approximation Guarantees for Adaptive Sampling

End-to-end Active Object Tracking via Reinforcement Learning

Safe Element Screening for Submodular Function Minimization

Topological mixture estimation

Spatio-temporal Bayesian On-line Changepoint Detection with Model Selection

Semi-Supervised Learning on Data Streams via Temporal Label Propagation

Exploring Hidden Dimensions in Accelerating Convolutional Neural Networks

Asynchronous Stochastic Quasi-Newton MCMC for Non-Convex Optimization

Nonoverlap-Promoting Variable Selection

Do Outliers Ruin Collaboration?

Parallel and Streaming Algorithms for K-Core Decomposition

Stochastic Video Generation with a Learned Prior