STACC keskendub ettevõttesisese andmeteaduse ja -analüütika kompetentsi arendamisele ning teisendab selle äriliseks väärtuseks oma klientidele ja partneritele. Oleme määratlenud neli teadussuunda vastavalt rakendusvaldkondadele:

Andmeanalüütika tarkvara ja süsteemide optimeerimiseks

Kaasaegsed tarkvarasüsteemid toodavad arvestataval mahul sündmuste logisid ja vooge, mis kajastavad väärtuslikku teavet rakenduse sisemise toimimise ja kasutuse kohta, kuid need andmed ei leia sageli rakendust, kuna puuduvad skaleeritavad ja täpsed meetodid nende analüüsimiseks ja praktilise arusaama eraldamiseks. Kasutamaks seda võimalust, arendame me reaalajalisi ennustava andmeanalüütika meetodeid, et optimeerida suuremahulisi tarkvarasüsteeme, kasutades selleks logidest ja voogudest pärit informatsiooni. Meie teadustöö adresseerib optimeerimist kolmel, üksteist täiendaval tasandil: a) rakenduse jõudluse optimeerimine, mille puhul me arendame meetodeid, et analüüsida instrumenteeritud tarkvararakenduste logisid jõudluse kitsaskohtade ja võimalike lahenduste identifitseerimiseks; b) üksikkasutaja ja rakenduse vahelise suhtlemise optimeerimine, mille puhul me arendame meetodeid, et analüüsida käivitusfaasis ja prognoosivalt üksikkasutaja ja tarkvararakenduse omavahelist suhestumist, pidades silmas üksikülesannete täitmist; c) infosüsteemi poolt toetatud äriprotsesside optimeerimine, mille puhul me arendame meetodeid, et mõista, ennustada ja kontrollida soovimatuid kõrvalekaldeid äriprotsessides, kasutades selleks ettevõtte infosüsteemidest (näiteks CRM ja ERP süsteemid) eraldatud protsessilogisid. Erinevate tasanditega paralleelselt tegelemine võimaldab meil jagada välja töötatud kompetentsi ja meetodeid tasanditevaheliselt.

Suurandmed ja küberturvalisus

Suurandmed on oma olemuselt seotud erinevate turvaküsimuste ja -nõuetega. Antud teadussuunas keskendume me kahele konkreetsele aspektile: suurte privaatsete andmekogumite analüüsiprotsesside turvagarantiide parendamisele ja Internetis olevate andmete efektiivsele kasutamisele (riiklike) julgeolekueesmärkide saavutamiseks. Esiteks kipuvad suured andmekogumid üldjuhul sisaldama privaatset või tundlikku informatsiooni üksikisikute ja ettevõtete kohta, näiteks andmeid isikute tervise või finantsseisu kohta. Taoline teave võib esineda andmekogudes otseselt (näiteks isiku igakuine palk) või kaudselt (näiteks üksikisiku ostude nimekiri). Nendel põhjustel on juurdepääs taolistele andmekogudele tavaliselt piiratud. Kuid sellised piirangud piiravad omakorda ka analüüsivõimalusi ja seega takistavad saamast maksimaalset kasu taoliste andmekogude eksisteerimisest. Üheks näiteks sedalaadsest olemuslikust vastuolust on avatud andmete liikumine, mis on ajendatud avalikkust survest saada üldine ligipääs riiklikele registritele. Teisest küljest pole pärast registrite avalikustamist kuidagi võimalik kontrollida andmete (kuri)tarvitamist. Siit tulebki vajadus alternatiivseteks meetmeteks andmete kasutamisel, tekitamata ohte privaatsusele. Me käsitleme seda probleemi, parendades turvalise ühisarvutuse rakenduste poolt tulenevat tõhusust ja turvagarantiisid ning testides arendatud meetodeid päriselulistes kasutuslugudes. Suurandmete ja turvalisuse vahel on ka teist tüüpi seos, mis pakub nii uusi väljakutseid kui ka võimalusi. Interneti ilmumine on fundamentaalselt muutnud viisi, kuidas inimesed vahetavad, toodavad ja töötlevad informatsiooni. Oma tegevusest jäetakse jäljed maha nii foorumites, blogosfäärides, sotsiaalmeedias, online-uudiste kommentaariumis jne ning mõnedel nendest jälgedest on suur mõju riigikaitsele (näiteks on ründajad kasutanud foorumeid, et mobiliseerida tavainimesi osalema küberrünnakus). Seega käsitleb teine osa meie teadustööst digitaalse meedia kaevet ja seiret, et väljund viiks parenenud teadlikkuseni olukorrast ning teadlike otsuste langetamiseni (riigi)kaitses.

Aeg-ruumiliste andmete analüüs

Antud teadussuunas keskendume me aeg-ruumiliste andmete kaeve jaoks vajalike tehnikate ja algoritmide arendamisele. Sellised andmed sisaldavad väärtuslikku informatsiooni asukoha ja liikumiste kohta, mida saab rakendada mitmetel aladel, alustades turundusest ja targa linna lahendustest ning lõpetades ohutus- ja turvalisusvaldkondadega. Taoliste andmete kasutuslugude arv kasvab üha kiirenevas tempos. Tuginedes varasemale uurimistööle, turuvajaduste analüüsile ja oma partnerite tugevustele, oleme me seadnud oma fookuse a) suurte andmekogude uurimise ja analüüsi valdkonnale, milles uurime, analüüsime, modelleerime ja kaevame aeg-ruumilisi andmeid, et leida, mis on ettevõttele paremaks otsuste langetamiseks tähendusrikas ja asjakohane; ja b) suurte andmekogude visualiseerimise valdkonnale, milles omandame suurte aeg-ruumiliste andmete kohta paremat arusaama, kasutades intelligentset automaatiliste süsteemide ja interaktiivse visualiseerimise kombinatsiooni. Antud teadussuuna väljundiks on platvorm analüüsimiseks inimeste liikumisi linnaruumides. Meie partnerid tootestavad ja kommertsialiseerivad saadud platvormi kolmes valdkonnas: linnaplaneerimine, asukohapõhine turundus ja telekommunikatsioonivõrkude optimeerimine, mille tulemusena paraneb kliendikogemus ja väheneb kliendivoolavus.

E-tervis ja personaalne meditsiin

Terviseandmete maht kasvab iga päevaga järjest kiiremini. Arst ei ole enam üksinda võimeline sellist infohulka läbi analüüsima ning seetõttu on arvutisüsteemid muutunud meditsiinipraktika loomulikuks osaks. Arvutid analüüsivad patsientide tervise- ja geeniandmeid, samal ajal võtavad arvesse ka patsiendi enda poolt kodus kogutud andmeid ning juhivad arsti tähelepanu just nendele asjaoludele, mis on vastaval ajahetkel selle patsiendi jaoks kõige olulisemad. Seda nimetatakse personaalmeditsiiniks. Selliste süsteemide loomiseks on vaja suurepäraselt tunda olemasolevaid terviseandmestikke ja nende omavahelisi ühendamisvõimalusi. Lisaks on vaja erioskusi, et töötada tõeliselt suurte andmemahtudega või hoopis teadmisi bioloogiast, et analüüsida geeniandmeid. STACCis töötav meeskond ühendab erinevaid bioinformaatika spetsialiste: arendajaid, andmekogujaid, terviseteenuse osutajaid ja teadlasi. Eestis ei ole keegi teine teinud sellises mahus terviseandmete analüüsi. Me oleme analüüsinud kahe aasta kõiki Digiloo epikriise ja kõiki 2,5 aasta Haigekassa raviarved. Selliste mahukate analüüside läbiviimine nõuab erivahendeid – vaja on nutikaid algoritme, et olulist infot ning seoseid tuvastada ja seejärel ka visualiseerida. STACCil on olemas vajalik infrastruktuur sellises mahus andmete turvaliseks käitlemiseks ja analüüsimiseks. Analüüsimiseks on loodud seeria täiesti uusi töövahendeid. Näiteks oleme me loonud algandmete anonümiseerimisvahendi, algandmete korrastusvahendid, tööriistad andmetel erinevate mudelite rakendamiseks (nt erandlike juhtude tuvastamiseks, infarkti täpse liigi tuvastamiseks) ja erinevad andmete visualiseerimistööriistad.

Ravikulude maksumus (analüüs)  |  Tervishoiu finantsandmed (raport)