FineData

community

AI & ML interests

We release large pre-training datasets to accelerate open LLM development. Part of the Hugging Face Science team (hf.co/science)

Recent Activity

joelniklaus updated a Space 6 days ago

HuggingFaceFW/finephrase

joelniklaus updated a bucket 6 days ago

HuggingFaceFW/finephrase-checkpoints

joelniklaus new activity about 1 month ago

HuggingFaceFW/finephrase:Intrinsic quality evaluation of 3000 examples using LLM-as-judge

View all activity

Papers

FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language

The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale

View all Papers

HuggingFaceFW 's datasets 35

HuggingFaceFW/finepdfs

Viewer • Updated Apr 3 • 476M • 20.3k • 876

HuggingFaceFW/finephrase

Viewer • Updated Mar 31 • 1.02B • 494k • 125

HuggingFaceFW/finepdfs_edu_50BT-dclm_30BT-fineweb_edu_20BT-shuffled

Viewer • Updated Mar 2 • 56.1M • 2.62k

HuggingFaceFW/finepdfs_edu_50BT-dclm_30BT-fineweb_edu_20BT

Viewer • Updated Mar 2 • 56.1M • 4.84k

HuggingFaceFW/finepdfs_50BT-dclm_30BT-fineweb_edu_20BT-shuffled

Viewer • Updated Mar 2 • 62.1M • 375 • 3

HuggingFaceFW/finepdfs_50BT-dclm_30BT-fineweb_edu_20BT

Viewer • Updated Mar 2 • 62.1M • 1.94k • 1

HuggingFaceFW/finepdfs_edu_100BT-shuffled

Viewer • Updated Mar 2 • 17.8M • 514

HuggingFaceFW/finepdfs_edu_100BT

Viewer • Updated Mar 2 • 17.8M • 1.71k

HuggingFaceFW/finepdfs_100BT-shuffled

Viewer • Updated Mar 2 • 14.6M • 557

HuggingFaceFW/finepdfs_100BT

Viewer • Updated Mar 2 • 29.9M • 2.42k

HuggingFaceFW/fineweb_edu_100BT-shuffled

Viewer • Updated Mar 2 • 102M • 50.3k

HuggingFaceFW/fineweb_edu_100BT

Preview • Updated Mar 2 • 1.23k • 1

HuggingFaceFW/fineweb_100BT-shuffled

Viewer • Updated Mar 2 • 161M • 479

HuggingFaceFW/fineweb_100BT

Viewer • Updated Mar 2 • 161M • 270 • 2

HuggingFaceFW/dclm_100BT-shuffled

Viewer • Updated Mar 2 • 89.3M • 1.9k • 1

HuggingFaceFW/dclm_100BT

Viewer • Updated Mar 2 • 89.3M • 1.77k

HuggingFaceFW/finetranslations-edu

Viewer • Updated Jan 9 • 109M • 4.85k • 29

HuggingFaceFW/finetranslations

Viewer • Updated Jan 9 • 3.33B • 10.8k • 294

HuggingFaceFW/admin

Viewer • Updated Jan 9 • 18 • 16.5k • 3

HuggingFaceFW/CommonsenseQA

Viewer • Updated Dec 30, 2025 • 1k • 23 • 1

HuggingFaceFW/MMLU-Redux-2.0-Generative

Viewer • Updated Dec 30, 2025 • 5.43k • 1.43k • 2

HuggingFaceFW/ARC-Generative

Viewer • Updated Dec 30, 2025 • 7.79k • 56

HuggingFaceFW/finepdfs-edu

Viewer • Updated Nov 11, 2025 • 49.5M • 11.5k • 89

HuggingFaceFW/fineweb-2

Viewer • Updated Oct 27, 2025 • 4.48B • 62k • 817

HuggingFaceFW/finewiki

Viewer • Updated Oct 22, 2025 • 61.6M • 9.43k • 303

HuggingFaceFW/clean-wikipedia

Viewer • Updated Oct 21, 2025 • 61.2M • 7.16k • 24

HuggingFaceFW/finepdfs_lang_classification_tmp

Updated Oct 21, 2025 • 6

HuggingFaceFW/ocr-annotations

Viewer • Updated Oct 20, 2025 • 1.62k • 140 • 18

HuggingFaceFW/finepdfs_lang_classification

Viewer • Updated Oct 17, 2025 • 3.08M • 27.1k • 4

HuggingFaceFW/finepdfs_eng_Latn_labeled

Viewer • Updated Oct 6, 2025 • 1.3M • 332 • 3