Satoja miljoonia rivejä tekstiä: miten tunnistetiedot poistetaan järkevästi?

Kun arkaluonteinen tieto on peitetty luotettavasti, tekstiaineistoja voidaan hyödyntää tutkimuksessa ja tekoälyn kehityksessä lainmukaisesti.

Simo Ihalainen / 20. huhtikuuta, 2026

Monissa organisaatioissa merkittävä osa kriittisistä tiedoista on edelleen vapaamuotoisissa teksteissä, kuten sosiaali- ja terveydenhuollon kertomusteksteissä sekä viranomaisten päätöksissä, lausunnoissa ja asiakaspalautteissa.

Tekstiaineistot sisältävät henkilöiden tunnistamisen mahdollistavia suoria (nimet, osoitteet, henkilötunnukset) ja epäsuoria (ammatit, tapahtumapaikat, tapahtuma-ajat) tunnistetietoja. Monissa tapauksissa pelkkien epäsuorien tunnisteiden yhdistelmä, kuten esimerkiksi ammatti ja paikkakunta, riittävät yksilöimään tekstissä esiintyvän henkilön.

Tekoälymenetelmien kehittyminen on avannut laajamittaisen tekstiaineistojen hyödyntämisen tiedolla johtamisen, tutkimuksen, palvelujen tehostamisen ja uusien innovaatioiden kehittämisen käyttöön. Samalla EU:n tietosuoja-asetus (GDPR), eurooppalainen terveystietoalueen asetus (EHDS) ja toisiolaki asettavat tiukat vaatimukset vastuulliselle ja tietoturvalliselle sensitiivisen tekstiaineiston käsittelylle:

Dataa saa käyttää vain tarkkaan ennalta määriteltyihin tarkoituksiin.
Identifioiva tieto on minimoitava ennen analytiikkaa ja käyttöä tekoälymenetelmien kehityksessä.

Tutkimus- ja tekoälyprojekteissa on perinteisesti jätetty tekstiaineisto joko hyödyntämättä tai käytetty identifioivaa tietoa sisältävää tekstiä säädösten vastaisesti samaan perusteeseen vedoten: tekstien automaattinen tunnisteellisen tiedon poisto ei ole ollut mahdollista suurten tekstiaineistojen tapauksessa. Tämä peruste ei kuitenkaan enää pidä paikkaansa. Organisaatiot voivat halutessaan varmistaa tekstiaineistojen lainmukaisen käytön eri tutkimus- ja tekoälyprojektien käyttötapauksissa.

Oikeat työkalut suurten tekstimassojen käsittelyyn

Manuaalinen ihmisen tekemä tunnistetietojen peittäminen on hidasta, kallista ja monissa tapauksissa mahdotonta, kun tekstimassoja on jopa satoja miljoonia rivejä. Valtavien tekstimassojen tapauksessa myös laajoilla kielimalleilla toteutettu ratkaisu on laskentakustannuksiltaan liian kallis ja suoritusajaltaan liian hidas.

Ongelman ratkaisemiseksi Tieto Caretech on kehittänyt oman, tunnisteellisen tiedon löytämiseen erikoistuneen ratkaisun. Ratkaisu pohjautuu synteettisellä sosiaali- ja terveydenhuollon alan tekstimateriaalilla koulutettuun pieneen kielimalliin, mikä on opetettu löytämään ja poistamaan suoria ja epäsuoria tunnistetietoja vapaamuotoisesta tekstistä.

Lisäksi ratkaisu tuo mukanaan merkittäviä etuja:

Suorat ja epäsuorat tunnistetiedot löydetään korkealla tarkkuudella.
Suuret tekstiaineistot voidaan käsitellä kustannustehokkaasti ja nopeasti.
Pieni kielimalli ei hallusinoi, vaan toimii suoraviivaisesti peittämistehtävässä.

Tämä tekee identifioivan tiedon peittämisestä skaalautuvaa ja realistista myös suurille tekstimassoille.

Suurten tekstiaineistojen käsittelyssä laajojen kielimallien kustannukset nousevat moninkertaiseksi pieniin kielimalleihin verrattuna.

Suurten tekstiaineistojen käsittelyssä laajojen kielimallien kustannukset nousevat moninkertaiseksi pieniin kielimalleihin verrattuna.

Turvallisempi data avaa ovet tekoälyn hyödyntämiseen

Kun arkaluonteinen tieto on poistettu tai peitetty riittävän luotettavasti, organisaatiot voivat hyödyntää suuria tekstiaineistoja turvallisesti ja lainmukaisesti. Tämä mahdollistaa:

tekstiaineistojen laajemman tutkimuskäytön
tekoälymallien vastuullisemman kehittämisen
viranomaisten päätösten ja muiden virallisten dokumenttien julkaisemisen
asiakaspalautteiden ja muiden tunnisteellisten tekstien vapaamman hyödyntämisen organisaatioissa
uusien palveluiden ja innovaatioiden kehittämisen aineistoilla, joissa henkilöiden tunnistamisen mahdollisuus on minimoitu.

Onko organisaatiossasi tarve hyödyntää arkaluontoisia tekstiaineistoja? Mietityttääkö tekstiaineistojen tämänhetkinen käsittely? Ota yhteyttä, pyrimme jatkuvasti kehittämään ja laajentamaan tarjontaamme erityyppisten tekstiaineistojen käsittelyyn.

Lue lisää

Vaikuttavaa tiedolla johtamista ja edistynyttä analytiikkaa

Hyvinvointialueiden kehittyvät tietotarpeet: kuinka vastata muuttuviin haasteisiin?

Simo Ihalainen

Senior Data Scientist, PhD, Tieto Caretech

Simo Ihalaisella on vahva kokemus tekoälyratkaisujen ja tekstianalytiikan menetelmien kehittämisestä. Hän on biomekaniikan tohtori ja data-analytiikan asiantuntija ja työskennellyt erityisesti suurten tekstiaineistojen automaattisen käsittelyn parissa. Hän kehittää menetelmiä ja malleja arkaluonteisen tekstidatan tunnistetietojen minimointiin.

Haluatko kuulla lisää?

Simo Ihalainen

Senior Data Scientist, PhD, Tieto Caretech

Lue lisää

Vaikuttavaa tiedolla johtamista ja edistynyttä analytiikkaa

Lue lisää aiheesta

Digitalization / Kalle Vuorinen / 15.4.2026

Satoja miljoonia rivejä tekstiä: miten tunnistetiedot poistetaan järkevästi?

Monissa organisaatioissa merkittävä osa kriittisistä tiedoista on edelleen vapaamuotoisissa teksteissä, kuten sosiaali- ja terveydenhuollon kertomusteksteissä sekä viranomaisten päätöksissä, lausunnoissa ja asiakaspalautteissa.

Oikeat työkalut suurten tekstimassojen käsittelyyn

Turvallisempi data avaa ovet tekoälyn hyödyntämiseen

Haluatko kuulla lisää?

Lue lisää

Lue lisää aiheesta

Vähemmän kirjaamista, enemmän kohtaamista: tekoäly soten dokumentoinnissa

Jäähallista voi ansaita mitaleita – tai rahaa

Kun arki ratkaisee

Palvelut

Ohjelmistot

Satoja miljoonia rivejä tekstiä: miten tunnistetiedot poistetaan järkevästi?

Monissa organisaatioissa merkittävä osa kriittisistä tiedoista on edelleen vapaamuotoisissa teksteissä, kuten sosiaali- ja terveydenhuollon kertomusteksteissä sekä viranomaisten päätöksissä, lausunnoissa ja asiakaspalautteissa.

Oikeat työkalut suurten tekstimassojen käsittelyyn

Turvallisempi data avaa ovet tekoälyn hyödyntämiseen

Haluatko kuulla lisää?

Jaa blogi verkostollesi

Lue lisää

Lue lisää aiheesta

Vähemmän kirjaamista, enemmän kohtaamista: tekoäly soten dokumentoinnissa

Jäähallista voi ansaita mitaleita – tai rahaa

Kun arki ratkaisee