Liigu edasi põhisisu juurde
pildil on kujutatud rohelistes ja sinistes toonides ristkülikukujulised säbruliste servadega elemendid musta värvi taustal. Need on paigutatud ringikujuliselt ja tähistavad andmeid.

Tehisintellekt üksi ei päästa – miks andmehaldus on edu võti?

Kristin Meriniit

AI on olnud populaarne teema juba mõnda aega – sellest kirjutatakse palju ning üha rohkem otsitakse viise selle rakendamiseks. Koos AI arenguga ja selle toel pööratakse suuremat tähelepanu ka andmeanalüüsile, mis on juba aastaid aidanud avastada uusi suundi ja optimeerida protsesse. 

 

Masinõppe algoritmid on lahutamatu osa sellest ökosüsteemist, moodustades koos AI ja analüütikaga võimsa tööriistakomplekti. Ka meie oleme nende kasutamisest varasemalt kirjutanud artiklites Kuidas BI (ärianalüütika) ja AI (tehisintellekt) aitavad äri veelgi efektiivsemaks muuta? ning Millist kasu toovad ettevõttele masinõppe projektid?

 

Kõiki neid ühendab aga üks oluline tegur: andmed. Siin kehtib vana tõde – kui andmed on kehvad, ei maksa ka tulemustelt palju oodata. Prügi sisse, prügi välja.

 

Seega, et AI-st, analüütikast ja masinõppest maksimaalset kasu saada, tuleb pöörata tähelepanu andmete kvaliteedile ja andmehaldusele nii igapäevaprotsessides kui ka tarkvaraarenduses. Lõppude lõpuks on isegi kõige nutikam algoritm vaid nii hea, kui seda toitev andmestik.

 

Andmehaldus on lai ja keerukas valdkond, kus iga organisatsioon peab leidma endale sobiva strateegia. Olen siinkohal kokku pannud mõned põhilised andmehalduse põhimõtted, mis on universaalselt kasulikud – olenemata sellest, kas sinu organisatsioon on andmehalduse teekonna alguses või juba kogenud selles valdkonnas. 

 

Need soovitused põhinevad minu kui analüütiku isiklikel kogemustel ning Data Management Body of Knowledge (DAMA-DMBoK®) parimatel tavadel ja põhimõtetel. Kuigi andmete turvalisus on kahtlemata andmehalduse oluline osa, ei käsitle ma seda siin, kuna see on omaette ulatuslik ja detailiderohke teema, mis väärib eraldi tähelepanu.

 

Trinidad Wisemanis aitame ettevõtetel maksimeerida andmete väärtust läbi ärianalüütika, andmehalduse ja masinõppe lahenduste. Viime läbi süsteemianalüüsi, kasutaja- ja turu-uuringuid äri- ja eelanalüüsi protsesside parendamiseks. Loe kodulehelt lähemalt meie uuringute ning ärianalüütika ja masinõppe teenuste kohta ja võta meiega ühendust.

 

 

Andmed kui vara

Sageli ei käsitleta andmeid varana – ja see on viga. Kui andmed ei ole ametlikult varana defineeritud, võivad jääda varjatuks nii andmetega seotud kulud kui ka võimalikud tulud. 

 

Võib küll olla teada, kui palju kulub andmete hoidmiseks vajaliku riistvara peale, kuid sageli jäävad märkamata kulutused, mis tekivad andmekvaliteedi probleemidest. Samuti puudub selge arusaam, kui palju ressursse tuleks suunata andmehaldusele, et lahendada olemasolevaid probleeme ja ennetada uute tekkimist.

 

Kui andmeid käsitleda varana, muutuvad nähtavaks nii nende haldamise kulud, kui ka potentsiaalne kasu, mida kvaliteetsed andmed organisatsioonile toovad. Andmete varana defineerimisel on keeruline täpselt hinnata nende tulusid ja kulusid, kuid alljärgnevalt toon välja mõned olulised aspektid, millele mõelda:

 

  • Andmete hankimise ja säilitamise kulud: kui palju maksavad serverid, infosüsteemide haldus või inimressursid, mis kuluvad andmete kogumiseks ja haldamiseks? Mõnikord hõlmavad need kulud ka andmete kogumist väljaspool infosüsteeme.
  • Andmevigadest tulenev otsene kulu: vigaste andmete sisestamine süsteemi võib põhjustada märkimisväärseid finantskahjusid. Näiteks võib üks eksimus tuua ettevõttele miljonieurose kahju. Kuigi kiire reageerimisega on võimalik kahju vähendada, ei saa seda tavaliselt täielikult vältida.
  • Andmevigadest tulenev kaudne kulu: vigade parandamisele kuluv aeg ja ressursid võivad kiiresti kuhjuda. Siia kuuluvad näiteks:

- klienditeenindajad, kes peavad tegelema andmevigadest tingitud kaebustega;

- arendajad, kes peavad parandama andmetega seotud vigu ja kohandama koodi;

- andmeanalüütikud, kelle tööaeg kulub andmete puhastamisele ja vigade tuvastamisele, mitte väärtusliku analüüsi tegemisele.

 

  • Seadusest tulenevad kulud: siia alla kuuluvad erinevad seaduste rikkumisest tingitud trahvid. Näiteks võib Andmekaitse Inspektsioon määrata trahve isikuandmete kaitse nõuete rikkumise eest. Lisaks tekib kaudne kulu, kuna organisatsioon peab eraldama inimressursse, et nendele teemadele tähelepanu pöörata ja nõuetele vastavust tagada.
  • Andmeanalüüsi tulemusel saadud tulu: andmetest saadava tulu hindamine on keerulisem kui kulude määramine, kuid üks võimalus on jälgida andmeanalüüsi põhjal tehtud otsustest või initsiatiividest saadud rahalist kasu.

 

Selle loetelu eesmärk ei ole anda ammendavat ülevaadet kõigist andmete väärtuse määratlejatest, vaid näidata, et andmehaldusega tegelemine avaldab otsest ja mõõdetavat mõju organisatsiooni eelarvele. Kui andmete haldamise mõju teadlikult ei hinnata, võib jääda kasutamata oluline võimalus organisatsiooni parendamiseks ja efektiivsuse suurendamiseks.

 

 

Andmehalduse strateegia ja juhtkonna toetus

Andmehaldus ei toimu iseenesest. Selleks, et see toimiks ja tooks organisatsioonile reaalset kasu, peab see olema integreeritud organisatsiooni eesmärkidesse ja protsessidesse. Selle eelduseks on aga tugev juhtkonna toetus. 

 

Olen küll kuulnud, et paljud ettevõtted ootavad töötajatelt initsiatiivi ja rohujuuretasandi algatusi, kuid ka parimad ideed ei saa kasvada ega püsima jääda ilma juhtkonna poolse toeta. Kui andmehalduse jaoks ei ole eraldatud vajalikke ressursse ega ole juhtkonna selget toetust, jääb see sageli tagaplaanile või jäetakse hoopis tegemata.  

 

Andmehalduse strateegia määratleb üldised eesmärgid ja suunad, mille poole püüelda. See võib olla lihtne ja minimalistlik või põhjalik ja detailne – sõltuvalt organisatsiooni vajadustest ja ambitsioonidest.

 

Lihtsama lähenemise korral võib strateegia määrata, et andmehaldus on osa erinevate rollide igapäevasest tööst ning eesmärk on parandada andmekvaliteeti tavapäraste tööülesannete raames. Teisalt võib strateegia ette näha spetsiaalsed rollid või tiimid, kelle fookuses on organisatsiooni andmekvaliteedi tõstmine ja protsesside täiustamine.

 

Lõppkokkuvõttes peab strateegia olema täpselt nii keeruline või lihtne, kui on vajalik organisatsiooni vajaduste ja eesmärkide saavutamiseks. Pole mõtet ehitada keerukaid süsteeme, kui sama probleemi saab lahendada lihtsamalt ja tõhusamalt.

 

 

Andmekvaliteedi nõuded ja kontrollid

Kui soovid, et su andmed oleksid enamat kui lihtsalt "arvud ja tähed andmebaasis", tuleb panustada andmekvaliteeti. See tähendab selgete andmekvaliteedi nõuete määratlemist ja regulaarselt kontrollimist, kas need nõuded on täidetud.

 

Infosüsteemides on andmekvaliteedi nõuete defineerimine ja kontrollimine lihtsam. Näiteks saab tarkvaraarenduses juba varakult kirja panna andmekvaliteedi nõuded ning need siis süsteemi arendamisel ellu viia.  

 

Pilt

 

Näited andmekvaliteedi nõuetest:

  • Kohustuslike väljade täitmise nõuded – määratleb, millised väljad peavad alati olema täidetud.
  • Lubatud väärtuste nõuded – määratleb, millised väärtused on väljade jaoks kehtivad (nt loendist valitavad valikud).
  • Minimaalsete ja maksimaalsete väärtuste nõuded – seab piirangud andmete sisestamisel, näiteks vanuse või hinna vahemikud.
  • Andmeobjektide piirangud – kehtestab reeglid objektide unikaalsuse ja lubatud seoste kohta. Näiteks: ühe kliendi kohta võib olla korraga ainult üks aktiivne leping.

Kui süsteem on kasutuses, saab regulaarselt läbi viia andmekvaliteedi kontrolle – kas ettevõttesiseste vahenditega või spetsialistide kaasabil. See aitab ennetada mitmeid võimalikke andmeprobleemidest tingitud kulusid ja riske.

 

Mida saab andmekvaliteeti kontrollides jälgida?

  • Kas päeva, kuu või muu perioodi jooksul summeeritud summad jäävad lubatud/oodatud piiridesse.
  • Kas päevases, kuises või muus ajaühikus olev ridade arv vastab lubatud/oodatud vahemikule.
  • Kas summade või ridade arvu kasv või langus võrreldes eelneva ajaühikuga on lubatud/oodatud piirides.

 

 

Metaandmete kogumine ja kasutamine

Metaandmed on andmeid kirjeldavad andmed, mis annavad ülevaate sellest, kus andmed asuvad, kuhu neid liigutatakse ja kuidas neid transformeeritakse. 

 

Kui organisatsioonil on oma metaandmetest selge ülevaade, muutuvad nii andmetega seotud projektid kui ka tarkvaraarendus kiiremaks ja tõhusamaks. Lisaks aitab see vältida andmete dubleerimist, mis omakorda vähendab nii ajakulu kui ka rahalisi kulutusi.  

 

Metaandmetest saavad kasu kõik:

  • Andmeanalüütikud, et leida andmeid, mida on vaja analüüsida.
  • Tooteomanikud, selleks, et saada aru kas neile vajalikud andmed on organisatsioonis juba kusagil olemas või tuleb need luua.
  • Süsteemianalüütikud ja arendajad, et kirjeldada ja arendada teiste süsteemidega ühilduvaid infosüsteeme.
  • Ärianalüütikud, et saada ülevaade võimalikest protsessimuudatustest ja vajalikest täiendustest andmestikus.

Ideaalis peaks metaandmete kogumine ja esitamine olema automatiseeritud, kuid see pole alati võimalik. Seetõttu tuleb läbi mõelda, millised metaandmed on organisatsiooni parendamiseks vajalikud ja kuidas neid koguda.

 

Pilt

 

Näiteid metaandmetest:

  1. Kontseptuaalne organisatsiooni andmemudel: kõigi organisatsiooni andmeobjektide ja nende detailide koondamine ühele joonisele on keeruline, kuid võimalik on koostada kontseptuaalne andmemudel, mis kaardistab organisatsioonis kasutusel olevad andmeobjektid nime tasemel ning vajadusel sisaldab täpsemaid viiteid nende kohta. 

     

    Eesmärgiks on luua üldpilti organisatsioonis olemas olevatest andmetest ja nende vahelistest seostest ning seda saab võtta aluseks uutele ärianalüüsidele ja tarkvaraarendustele. Kuna sellist mudelit ei ole võimalik täielikult automatiseerida, on oluline, et vastutavad isikud seda regulaarselt uuendaksid ja korrastaksid.

     

  2. Organisatsioonis kasutusel olevate süsteemide füüsilised andmemudelid: kirjeldavad tarkvarasüsteemis olevate andmete hetkeseisu. Seda kasutatakse tarkvara uuendamisel, uute süsteemidega liidestamisel ja andmeanalüüsiks. 

     

    Selleks, et mudelit saaks edukalt kasutada, peavad andmeobjektid ja atribuudid olema selgelt määratletud ning varustatud ärilise tähenduse ja päritolu kirjeldustega. Enamasti saab füüsilisi andmemudeleid andmebaasidest automaatselt genereerida ning see peaks olema regulaarne praktika iga tarkvarasüsteemi puhul.

     

  3. Liidestuste kirjeldused: määratlevad, millistest süsteemidest ja millistel tingimustel andmeid liigutatakse ning kuidas neid muudetakse. See on oluline selleks, et mõista andmevooge ja andmete transformatsioone, aidates nii süsteemianalüütikuid kui ka arendajaid teiste süsteemidega liidestumisel. Kuigi liidestuste dokumentatsioon koostatakse enamasti analüüsifaasis, võib see mõnel juhul jääda tegemata. 

     

    Liidestuste arendamise tööriistad (Swagger jt) enamasti võimaldavad automaatselt genereerida dokumentatsiooni, kuid minu kogemuse põhjal ei ole need alati piisavad – sageli puudub sealt oluline teave selle kohta, millistel tingimustel väljad täidetakse ja kust pärinevad algandmed. Kui dokumentatsioonis puudub see kriitiline info, muutub see praktiliselt kasutuks.

     

  4. Andmesõnastik: tööriist, mis seob ärilised mõisted nende tehnilise esinemiskohaga erinevates süsteemides. Enamasti olen näinud, et tihti kasutatakse puhtalt ärilisi andmesõnastikke, kuid nende kasutusala on piiratud. Kui sõnastikus on lisaks ärilistele mõistetele ka sünonüümid ja viited andmebaasi tabelitele, muutub see kasulikuks kõigile, kes töötavad andmetega – andmeanalüütikud saavad seda kasutada andmete leidmiseks, analüütikud ja arendajad aga tarkvaraarenduse ja ärianalüüsi toetamiseks. 

     

    Kuna andmesõnastiku käsitsi ajakohasena hoidmine on ajamahukas, tuleks võimalusel uurida automatiseerimise võimalusi. Näiteks võib uurida variante, kus äriliste mõistete järgi päritakse erinevatest andmebaasidest metaandmeid ning nende järgi täidetakse sõnastikku.

 

Siin on toodud vaid mõned metaandmete näited, kuid igal organisatsioonil on unikaalsed vajadused. Seetõttu tasub analüüsida, millised metaandmed on just sinu ettevõtte jaoks kõige olulisemad ja panna kokku vajalik metaandmete komplekt.

 

 

Põhiandmete (Master Data) ja viiteandmete (Reference Data) defineerimine

Põhiandmed ja viiteandmed on kaks tähtsat, kuid sageli segamini aetud mõistet. Selguse huvides defineerin need alljärgnevalt:

 

Põhiandmed (Master Data)  

Organisatsiooni jaoks ainus tõene ja autoriteetne versioon teatud andmetest. Näiteks võivad isikuandmed olla salvestatud mitmes erinevas süsteemis, kuid ainult ühes süsteemis peaks paiknema õige ja ajakohane versioon, mille põhjal teistes süsteemides olevaid andmeid uuendatakse.  

 

Andmehalduse mõistes on oluline, et põhiandmeid sisaldav süsteem oleks selgelt defineeritud ning see informatsioon kõigile kättesaadavas kohas olemas. Kuna isiku täisnime muutumine on võrdlemisi tavapärane, siis on oluline teada, milline süsteem sisaldab korrektset versiooni. Lisaks aitab põhiandmete olemasolu lahendada ka erinevatesse süsteemidesse dubleeritud andmete konflikte.

 

Tuleb meeles pidada ka seda, et põhiandmete olemasolu on midagi, mida tuleb organisatsioonis iga natukese aja tagant uuesti kommunikeerida, sest inimeste tavatöö käigus kipuvad infokillud ikka ja jälle kaduma minema.

 

Viiteandmed (Reference Data)  

Standardiseeritud andmekogumid, mida saab kasutada kogu organisatsioonis. Need on stabiilsemad ja muutuvad harvem kui põhiandmed. Näiteks on Eesti aadressiandmete süsteem (ADS) laialdaselt kasutatav viiteandmete kogum. Organisatsioonides võivad viiteandmeteks olla ka müüdavate toodete või teenuste klassifikatsioonid.  

 

Suure tõenäosusega on paljud viiteandmed juba organisatsiooni siseselt olemas ja määratletud, kuid nendest kasu saamiseks on oluline tagada, et need oleksid lihtsalt kättesaadavad, kasutatavad ja teistele osapooltele jagatavad. 

 

Ei piisa sellest, kui viiteandmed on salvestatud ühte faili, mida e-kirja teel ringi saadetakse. Läheb ainult natuke aega, kuni keegi on sellest koopia teinud, siis varsti tehakse koopiast koopia ja lõpuks ei ole keegi päris kindel, mis see täpne seis oli ning tuleb otsast alustada.

 

Viiteandmeid tuleb hoida ühes keskses hoidlas ning viiteandmete muutmise tingimused ja õigused peavad olema selgelt kirjeldatud. Tarkvaraarenduses on oluline määratleda selged protsessid, kuidas viiteandmeid erinevates süsteemides kasutatakse – kas need pärinevad ühest keskandmeallikast või rakendatakse teisi lahendusi nende haldamiseks ja kasutamiseks.

 

 

Kokkuvõte

Kokkuvõttes on AI, masinõppe ja andmeanalüüsi edukas rakendamine otseselt seotud andmete kvaliteediga. Kui andmete kvaliteet on madal, ei suuda ka kõige võimekamad algoritmid pakkuda usaldusväärseid ja väärtuslikke tulemusi. Seetõttu on kriitilise tähtsusega, et andmete kogumine, säilitamine ja haldamine oleks süsteemne ja eesmärgistatud.

 

Organisatsioonide jaoks tähendab see läbimõeldud andmehalduse strateegiat, mis hõlmab andmekvaliteedi nõuete määratlemist, regulaarset kontrolli, metaandmete tõhusat haldamist ning põhi- ja viiteandmete selget defineerimist. 

 

Lisaks on määrava tähtsusega juhtkonna pühendumus ja ressursside eraldamine, et andmehaldus muutuks ettevõtte igapäevaseks ja süsteemseks tegevuseks. Tugev andmehaldus loob kindla aluse, millele tuginedes saavad AI ja andmeanalüütika tuua organisatsioonile reaalset ja mõõdetavat väärtust.