TEXTA

Suur osa tänapäeva suurandmetest on vabatekstilised, mistõttu üha enam räägitakse nende analüüsimisel loomuliku keele töötlemise (LKT) rakendamisest. Vabatekstidest küllastunud valdkondade hulka kuulub näiteks meditsiin, kus arstide töö käigus tekib suurel hulgal kirjeldusi patsientide ravist ja käekäigust.

LKT tehnoloogiate kasutamine vabatekstiliste andmete analüüsimiseks on maailmas küllaltki levinud.  Olemasolevate lahenduste kasutamine  on tihti raskendatud, sest välja töötatud lahendused on enamasti keelespetsiifilised, puuduvad valdkondlikud leksikaalsed ressursid (sõnastikud, tesaurused), mille alusel andmeid analüüsida või ei kohandu välja töötatud vahendid piisavalt andmemahtudele, et neid efektiivselt suurandmete analüüsil kasutada.

Eeltoodud  puuduste kõrvaldamiseks lõime me TEXTA Toolkit´i, mis võimaldab tekstikorpustest ekstraheerida korpuses esindatud valdkonnale omast oskussõnavara, koostada selle alusel mõistepõhiseid terminoloogilisi ressursse, tuvastada tekstidokumentidest mõistetele viitavaid tekstifragmente ning visualiseerida tulemusi andmestikus leiduvate andmeväljade lõikes. TEXTA tööriistakomplekt on valdkonnast sõltumatu, mistõttu saab seda kasutada erinevates (all)keeltes esitatud andmestike töötlemiseks. Väljatöötatud tarkvara kohaneb hästi ka andmemahtudega: selle töökindlus võimaldab reaalajalistes analüüsides kasutada sadu miljoneid tekstidokumente.

VAATA LISAKS:

Skype

Tarkvara TAK-i teadlased koostöös Microsoft/Skype’iga on välja töötanud meetodeid hiigelsuurte graafide lühima tee arvutamiseks.

Demograft

STACC aitas luua Demograft platvormi, mis võimaldab koguda ja analüüsida andmemahukaid mobiilsideoperaatorite süsteemides käideldavaid passiivse positsioneerimise sündmusi.

Plumbr

Tarkvara TAK uurimisprojekti tulemite alusel töötas Plumbr välja unikaalse jõudlusprobleemide automaatse tuvastamise algoritmi Java rakenduste jaoks.

Anonümiseerija

STACC lõi anonümiseerimis töörista, mis võimaldab erinevate dokumentide umbisikustamist.