Úvod
Pro datového vědce jsou základní výrobní nástroj data. Hodně dat. Fakt hodně moc dat...
Zde jsou odkazy na některé zdroje dat, od malých, až po opravdu velké.
Data, data a zase data
Sbírka dat, které se používají v různých kurzech a tutoriálech. Jedná se o malé soubory, které jsou upravené pro výuku.
UC Irvine Machine Learning Repository je repozitář datových souborů pro machine learning
Vládní data
zde si můžete prohédnout, analyzovat a projít malý zlomek informací, které o nás vlády sbírají. Toto jsou ty nejméně kontroverzní...
Databáze vlády USA, která je velmi obsáhlá, ale nefunguje, když se prezident hádá se senátem, kdo ho má většího.
Databáze vlády jejího Velíčenstva je menší, přesto na hraní stačí.
NASA má hadně zajímavých dat. A kdo první najde mimozemšťana, bude slavnější než Einstein.
FBI má data pro příznivce detektivek.
Světová banka zase pro milovníky velkých peněz.
OSN má také svoje/naše velká data.
Vyčištěná data
KDnuggets poskytuje skvělý výběr datových souborů ze všech možných oblastí - vesmír, hudba, knihy atd.
Data Science Central má také mnoho volně dostupných datových souborů