Liigu edasi põhisisu juurde
poisike kümne ekraani ees

Suurandmed ehk big data - mis need on?

Kaido Jõesaar

Termini big data ehk suurandmete ümber on palju suminat. Nimetus viitab väga suurtele andmehulkadele. Sellistele, mille majutamiseks ei piisa sageli ühest serverist. Kuid termini taga peitub midagi enamat kui ainult andmemaht.

 

Et teema on popp, tuleb sageli ette ka selle termini väär- või kuritarvitamist. Näiteks kui ettevõtte mainib, et nad kasutasid big datat, et tuvastada kümme enim müünud toodet, siis tegelikult ei pruugi tegemist olla big data metoodikate kasutamisega. Isegi kui on tegemist väga suurte müügimahtudega, on sellisel juhul pigem tegemist tavalise andmeanalüüsiga.

 

Big data metoodikaid rakendatakse andmekoguste peal, mille puhul traditsioonilistest andmetöötluse meetoditest jääb vajaka, et järeldusi teha. Need andmekogumid võivad olla aga väga väärtuslikud sisaldades potentsiaalselt peidetud mustreid, seoseid ja trende. 

 

Näiteks on võimalik tuvastada tarbijatüübi käitumismuster, kes eelistab osta pesupulbrit A, kuigi pesupulber B asub nähtavamal kohal ja on odavam, tuvastada tema ostukorvi sisu nädalate kaupa ja nii hallata efektiivsemalt laoseisu. Suurandmed võimaldavad pakkuda tarbijatüübile tema käitumismustri põhjal teisigi tooteid, mille vahel ehk ei paista olevat silmnähtavat seost. Big data analüüs võimaldab aga selle tuvastada.
 

Suurandmete definitsioon

 

Kuigi kaugeltki mitte kõik eksperdid sellega ei nõustu, on kõige laialdasemalt aktsepteeritud Doug Laney 2000. aastate alguses sõnastatud definitsioon, mis tugineb kolmele kategooriale: maht, kiirus ja mitmekesisus.

 

1. Maht

Varem oli andmete kogumine aeglane ja töömahukas ning andmete salvestamine kallis. Tehnoloogilise arengu tulemusena langeb 1TB andmete salvestamise hind iga aastaga. Asjade interneti (Internet of Things, IoT) võidukäik on suurendanud kogutavate andmete mahtu mitmekordselt.

 

2. Kiirus

Andmed saabuvad erinevatest allikatest ja erineva kiirusega. Klassikaline analüüs näeb ette, et kogutakse kindel hulk andmeid ja hakatakse neid analüüsima. Olukorras, kus andmed saabuvad näiteks sotisaalmeediast ja IoT seadmetest, võib ärieesmärgist lähtuvalt olla vajalik teha neist järeldusi reaalajas.

 

3. Mitmekesisus

Varem määrati eesmärgid, mille põhjal andmeid koguti. Kogutud andmed kategoriseeriti ja puhastati. Täna kogutakse kõike, mida kätte saadakse ja hiljem süvenetakse sellesse, kuidas andmeid kasutada saab.

 

Hiljem on lisatud Laney definitsioonile tõepärasuse mõõde, et anda aimu, kui palju müra on andmetes. Big data metoodikate poolt kasutatavad andmekogumid koosnevad tihti erineva struktuuriga andmetest, mille hulgas on ka andmemüra.
 

Miks on big data kasulik?

 

-  Aitab vähendada organisatsioonide kulusid

-  Hõlbustab kiiresti kohaneda muutustega klientide tarbimisharjumustes

-  Aitab juhtidel tuvastada probleeme organisatsiooni struktuurides ja protsessides

-  Kiirendab ja toetab juhtide otsuse langetamise protsesse

 

Mõned näited:

 

Aafrika mobiilioperaatorid kasutavad big datat alateenindatud turuosade kindlaks määramiseks ja uute toodete ning teenuste väljatöötamiseks.

 

Amazon kasutab suurandmeid oma ladude varustatuse kontrollimiseks.

 

Toidukaupade jaemüügikett Whole Foods kasutab suurandmeid kiiresti riknevate kaupade aegumisest tekkiva kao vähendamiseks.

 

Suured personalifirmad kasutavad big datat uute töötajate leidmiseks.

 

Taastuvenergiat tootvad firmad kasutavad suurandmeid tuulegeneraatorite tööprotsesside optimiseerimiseks.

 

Lennufirmad kasutavad suurandmeid, et vähendada kütuse kulu, pakkuda ka turistiklassis reisijatele personaalsemat lähenemist ja nõudluse hindamiseks lennuliinidele päevade lõikes.

 

Ameerika Ühendriikide maksuamet kasutab big data metoodikaid, et ennetada, avastada ja lahendada maksude maksmisest eemale hoidmise juhtumeid.

 

Lõuna-Korea strateegia on kasutada big datat, et luua kogu avaliku sektorit hõlmav analüütiline võrgustik mis näiteks aitab optimeerida sotsiaalabi teenuste ja toetuste jõudmist puudust kannatavate isikuteni ja ennetada looduskatastroofe.

 

Konsultatsioonifirma Mckinsey hinnangul on firmad, kes kasutavad big data analüüsi metoodikaid, võimelised oma kasumit kasvatama kuni 60 protsenti. Samuti on suurandmete roll väga oluline avalikus sektoris.

 

Suurandmete metoodikad

 

Kolm peamist big data metoodikat suurte andmehulkade töötlemiseks: 

 

Andmekaeve ehk Data mining'u käigus kasutatakse teada olevat informatsiooni ja andmeanalüüsi, et tuvastada andmetes peidetud või tärkavaid mustreid, et nende abil kirjelda mõnda nähtust. Data miningut kasutatakse kõige sagedamini, et klassifitseerida, järjestada ja kirjeldada andmeid.

 

Tehisnärvivõrk ehk Artificial neural network (ANN) meetodid on ehitatud matkima inimese aju. ANN mudelid matkivad inimese aju, et klassifitseerida andme sisendeid, eesmärgiga teha ennustusi tuleviku kohta, vähendada info müra ja klassifitseerida sündmusi. ANN mudeli väljund on teadlaste arvates sarnane otsuste langetamise protsessile inimeste ajus.

 

Masinõppe ehk Machine learning (ML) mudelid õpivad kasutades olemasolevaid andmekogusid ja tuvastades seal leiduvaid mustreid. ML mudelid otsivad seoseid ja korrelatsioone, et nende põhjal ennustada tulevikku. ML mudelid õpivad ka mineviku vigadest ja uuendavad algoritme, et neid vältida. Kõrgetasemelised ML mudelid on võimelised pakkuma reaalajas soovitusi otsuse langetajatele.

 

Teises osas räägime sellest, kuidas suurandmete pealt raha teenida.

 

Kasutatud allikad:

  1. Walker, R. (2015) From Big Data to Big Profits: Success with Dataand Analytics.
  2. Baesens, B. (2014) Analytics in a big data world : the essential guide to data science and its applications.
  3. Ohlhorst, F. (2013) Big data analytics: turning big data into big money.
  4. Schmarzo, B. (2013) Big data : understanding how data powers big business.
  5. Schmarzo, B (2016) Big data MBA : driving business strategies with data science.
  6. https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/big-data-analytics-should-be-driven-by-business-needs-not-technology
  7. Marr, B. (2015) Big data : using smart big data, analytics and metrics to make better decisions and improve performance.
  8. https://www.mckinsey.com/business-functions/marketing-and-sales/our-insights/the-case-for-crafting-a-big-data-plan
  9. http://www.fortune.com/2014/06/19/big-data-airline-industry/
  10. https://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-data-the-next-frontier-for-innovation
  11. Davenport, T. H. (2014) Big Data at Work: Dispelling the Myths, Uncovering the Opportunities.
  12. https://www.windpowerengineering.com/mechanical/sensors/big-data-improve-windpower-efficiency-profits/
  13. Grover, V., Chiang, R.H.L., Liang, T.-P., Zhang, D. (2018) Creating Strategic Business Value from Big Data Analytics: A Research Framework, Journal of Management Information Systems, Vol. 35, No. 2, 388–423.
  14. Grable, J. E., Lyons, A. C. (2018) An Introduction to Big Data, Journal of Financial Service Professionals, Vol. 72, No. 5, 17-20.
  15. Lehrer, C., Wieneke, A., Brocke, J. V., Jung, R., Seidel, S. (2018) How Big Data Analytics Enables Service Innovation: Materiality, Affordance, and the Individualization of Service, Journal of Management Information Systems, Vol. 35, No. 2, 424–460.
  16. Ogrean, C. (2018) Relevance of Big Data for Business and Management. Exploratory Insights (Part I), Studies in Business and Economics, Vol 13, No. 2, 153-163.
  17. Provost, F. (2013) Data science for business : what you need to know about data mining and data-analytic thinking.
  18. Kim, G., Trimi, S., Chug, J. (2014) Big Data Applications in the Government Sector: A Comparative Analysisamong Leading Countries, Communications of the ACM, Vol. 57, No. 3,  78-85.