Poster
in
Workshop: DataWorld: Unifying data curation frameworks across domains

Multimodal-Guided Dynamic Dataset Pruning for Robust and Generalizable Data-Centric Learning

Suorong Yang · Peijia Li · Yujie Liu · Xu Zhiming · Peng Ye · Wanli Ouyang · Furao Shen · Dongzhan Zhou

Keywords: Dynamic dataset pruning data-centric learning

Project Page [ OpenReview]

Abstract

Modern deep models are trained on huge datasets of real-world data, where data quality varies and redundancy is common. Data-centric approaches such as dataset pruning have shown promise in improving training efficiency and model performance. However, most existing methods rely on static heuristics or task-specific metrics, limiting their robustness and generalizability across domains.In this work, we introduce a dynamic dataset pruning framework that adaptively selects training samples based on both task-driven difficulty and cross-modality semantic consistency.By incorporating supervision from pretrained multimodal foundation models, our approach captures training dynamics while effectively filtering out uninformative samples.Our work highlights the potential of integrating cross-modality alignment for robust sample selection, advancing data-centric learning toward more efficient and robust practices across application domains.

Chat is not available.