SmolDocling datasets - a HuggingFaceM4 Collection

HuggingFaceM4 's Collections

SmolDocling datasets

From screenshots to HTML

🐶 IDEFICS 🐶

OBELICS 📚🔍

SmolDocling datasets

updated Jul 31, 2025

Datasets used to train SmolDocling

HuggingFaceM4/DoclingMatix

Viewer • Updated Jul 31, 2025 • 1.27M • 4.8k • 48
docling-project/SynthFormulaNet

Viewer • Updated Jul 31, 2025 • 6.45M • 1.13k • 17
docling-project/SynthChartNet

Viewer • Updated Jul 15, 2025 • 1.98M • 1.27k • 14
docling-project/SynthCodeNet

Viewer • Updated Jul 16, 2025 • 9.33M • 4.22k • 11
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

Paper • 2503.11576 • Published Mar 14, 2025 • 125
docling-project/SmolDocling-256M-preview

Image-Text-to-Text • 0.3B • Updated Sep 17, 2025 • 53.8k • 1.6k