Suurte korrapäratute andmestike töötlemine ei ole triviaalne ülesanne, vaid oluline käsitööoskus.
Raamat keskendub andmestumise kui ühe viimaste aastate olulisima ning vastuolulisema nähtuse uurimisele. Raamatu keskmes on erinevad meetodid ja metodoloogilised võtted, mida rakendatakse uurimaks andmestumist kui sotsiaalset protsessi, mille käigus igapäevased tegevused ja ühiskondlikud protsessid teisendatakse arvulisteks andmeteks.
Kogumikust leiavad kasulikku lugemist kõik, kes soovivad andmestumisega kaasnevaid protsesse paremini mõista – nii andmetega iga päev töötavad või seda teha soovivad analüütikud, eksperdid ja otsustajad, andmetega tööd alustavad bakalaureuse- või magistritaseme üliõpilased kui ka juba kogenud eksperdid, kes soovivad oma analüütilist repertuaari laiendada.
Andmestuvat maailma aitavad raamatus mõtestada 38 eri distsipliinide esindajat, eksperti, õppejõudu ja praktikut Tartu Ülikoolist, Tallinna Ülikoolist ja Tallinna Tehnikaülikoolist ning mitmest teadus- ja arendusasutustest, eraettevõtetest ja välisülikoolidest.
Koostanud ja toimetanud Anu Masso, Katrin Tiidenberg, Andra Siibak
Mõned väljanopped:
Andmete analüüs hakkab alati mingi huvi või küsimusega: kas soovime midagi teada saada, midagi kinnitada või ümber lükata või siis avastada midagi, mida peaks põhjalikult uurima.
Andmete kogumise viis, töötlus- ja analüüsivahendid mõjutavad otseselt tulemusi.
Sageli on andmed killustatud, mitte ilmtingimata vajalikus mahus kättesaadavad ja nende korrastatuse aste varieerub. (Lk 285)
Masinõpe
Suurandmetest sisukate teadmiste ammutamiseks kasutatakse masinõppe meetodeid.
Need on meetodid, kus masinad (arvutid) õpivad iseseisvalt andmetest vajalikke seoseid ning loovad mudeli, millele uusi sarnaseid andmeid töötlemiseks andes on võimalik saada ennustusi. (Lk 241)
Masinõpe on kogum meetodeid, mis kasutavad arvutites käitatavaid õppimisalgoritme andmetest varjatud struktuuri ja seoste leidmiseks ning uute väärtuste ennustamiseks. (Lk 247)
Suurandmete töötlemise metoodika
CRISP-DM (2003) – suurandmete töötlemise kuuest astmest koosnev andmekaeve metoodika.
Vastavalt probleemi tüübile rakendatakse sobivat meetodit:
- Ennustamine, kui on vaja ette arvata pideva nähtuse järgmisi andmepunkt.
N: väärtpaberiturul hindade ennustamine ehk kui on vaja prognoosida nähtusega seotud väärtuse muutumist
- Klassifitseerimine – kui on vaja tuvastada tunnuste alusel, millisesse klassi näide kuulub
- Segmenteerimine, kui on vaja jagada andmed sisukatesse rühmadesse
Andmete kogumine ja ettevalmistamine on protsessi kõige ajamahukam tegevus.
Masinõppe tulemusrikkaks rakendamiseks on vaja omada kvaliteetseid andmeid , sest mudelite treenimisel ebakvaliteetsete andmetega saadakse kaheldavad tulemused.
Masinõppes kasutatavad andmed on tavaliselt esitatud tabelis, kus iga rida moodustab nähtust iseloomustavaid tunnuseid (feature) koondava andmepunkti (data point).
Tavaliselt on andmed esitatud tabelis nii, et andmepunktid asuvad ridades ja tunnused veergudes. (Lk 243)

Autorid:
Anto Aasa, Mare Ainsaar, Mai Beilmann, Marju Himma-Kadakas, Indrek Ibrus, Olle Järv, Aleksei Kelli, Toomas Kirt, Mare Koit, Irene Kull, Andres Kuusik, Ragne Kõuts-Klemm, Liisi Laineste, Innar Liiv, Liina Lindström, Anu Masso, Jaan Masso, Kadri Muischnek, Maria Murumaa-Mengel, Kerli Müürisepp, Maarja Ojamaa, Hembo Pagi, Kristian Pentus, Maili Pilt, Pille Pruulmann-Vengerfeldt, Ave Roots, Leno Saarniit, Andra Siibak, Siiri Silm, Indrek Soidla, Marek Tamm, Kuldar Taveter, Katrin Tiidenberg, Kristel Uiboaed, Anna Veremchuk, Triin Vihalemm, Age Värv, Haldur Õim.