Satoja miljoonia rivejä tekstiä: miten tunnistetiedot poistetaan järkevästi?
Kun arkaluonteinen tieto on peitetty luotettavasti, tekstiaineistoja voidaan hyödyntää tutkimuksessa ja tekoälyn kehityksessä lainmukaisesti.
Monissa organisaatioissa merkittävä osa kriittisistä tiedoista on edelleen vapaamuotoisissa teksteissä, kuten sosiaali- ja terveydenhuollon kertomusteksteissä sekä viranomaisten päätöksissä, lausunnoissa ja asiakaspalautteissa.
Tekstiaineistot sisältävät henkilöiden tunnistamisen mahdollistavia suoria (nimet, osoitteet, henkilötunnukset) ja epäsuoria (ammatit, tapahtumapaikat, tapahtuma-ajat) tunnistetietoja. Monissa tapauksissa pelkkien epäsuorien tunnisteiden yhdistelmä, kuten esimerkiksi ammatti ja paikkakunta, riittävät yksilöimään tekstissä esiintyvän henkilön.
Tekoälymenetelmien kehittyminen on avannut laajamittaisen tekstiaineistojen hyödyntämisen tiedolla johtamisen, tutkimuksen, palvelujen tehostamisen ja uusien innovaatioiden kehittämisen käyttöön. Samalla EU:n tietosuoja-asetus (GDPR), eurooppalainen terveystietoalueen asetus (EHDS) ja toisiolaki asettavat tiukat vaatimukset vastuulliselle ja tietoturvalliselle sensitiivisen tekstiaineiston käsittelylle:
- Dataa saa käyttää vain tarkkaan ennalta määriteltyihin tarkoituksiin.
- Identifioiva tieto on minimoitava ennen analytiikkaa ja käyttöä tekoälymenetelmien kehityksessä.
Tutkimus- ja tekoälyprojekteissa on perinteisesti jätetty tekstiaineisto joko hyödyntämättä tai käytetty identifioivaa tietoa sisältävää tekstiä säädösten vastaisesti samaan perusteeseen vedoten: tekstien automaattinen tunnisteellisen tiedon poisto ei ole ollut mahdollista suurten tekstiaineistojen tapauksessa. Tämä peruste ei kuitenkaan enää pidä paikkaansa. Organisaatiot voivat halutessaan varmistaa tekstiaineistojen lainmukaisen käytön eri tutkimus- ja tekoälyprojektien käyttötapauksissa.
Oikeat työkalut suurten tekstimassojen käsittelyyn
Manuaalinen ihmisen tekemä tunnistetietojen peittäminen on hidasta, kallista ja monissa tapauksissa mahdotonta, kun tekstimassoja on jopa satoja miljoonia rivejä. Valtavien tekstimassojen tapauksessa myös laajoilla kielimalleilla toteutettu ratkaisu on laskentakustannuksiltaan liian kallis ja suoritusajaltaan liian hidas.
Ongelman ratkaisemiseksi Tieto Caretech on kehittänyt oman, tunnisteellisen tiedon löytämiseen erikoistuneen ratkaisun. Ratkaisu pohjautuu synteettisellä sosiaali- ja terveydenhuollon alan tekstimateriaalilla koulutettuun pieneen kielimalliin, mikä on opetettu löytämään ja poistamaan suoria ja epäsuoria tunnistetietoja vapaamuotoisesta tekstistä.
Lisäksi ratkaisu tuo mukanaan merkittäviä etuja:
- Suorat ja epäsuorat tunnistetiedot löydetään korkealla tarkkuudella.
- Suuret tekstiaineistot voidaan käsitellä kustannustehokkaasti ja nopeasti.
- Pieni kielimalli ei hallusinoi, vaan toimii suoraviivaisesti peittämistehtävässä.
Tämä tekee identifioivan tiedon peittämisestä skaalautuvaa ja realistista myös suurille tekstimassoille.

Suurten tekstiaineistojen käsittelyssä laajojen kielimallien kustannukset nousevat moninkertaiseksi pieniin kielimalleihin verrattuna.
Turvallisempi data avaa ovet tekoälyn hyödyntämiseen
Kun arkaluonteinen tieto on poistettu tai peitetty riittävän luotettavasti, organisaatiot voivat hyödyntää suuria tekstiaineistoja turvallisesti ja lainmukaisesti. Tämä mahdollistaa:
- tekstiaineistojen laajemman tutkimuskäytön
- tekoälymallien vastuullisemman kehittämisen
- viranomaisten päätösten ja muiden virallisten dokumenttien julkaisemisen
- asiakaspalautteiden ja muiden tunnisteellisten tekstien vapaamman hyödyntämisen organisaatioissa
- uusien palveluiden ja innovaatioiden kehittämisen aineistoilla, joissa henkilöiden tunnistamisen mahdollisuus on minimoitu.
Onko organisaatiossasi tarve hyödyntää arkaluontoisia tekstiaineistoja? Mietityttääkö tekstiaineistojen tämänhetkinen käsittely? Ota yhteyttä, pyrimme jatkuvasti kehittämään ja laajentamaan tarjontaamme erityyppisten tekstiaineistojen käsittelyyn.
Lue lisää
Vaikuttavaa tiedolla johtamista ja edistynyttä analytiikkaa
Hyvinvointialueiden kehittyvät tietotarpeet: kuinka vastata muuttuviin haasteisiin?
Simo Ihalaisella on vahva kokemus tekoälyratkaisujen ja tekstianalytiikan menetelmien kehittämisestä. Hän on biomekaniikan tohtori ja data-analytiikan asiantuntija ja työskennellyt erityisesti suurten tekstiaineistojen automaattisen käsittelyn parissa. Hän kehittää menetelmiä ja malleja arkaluonteisen tekstidatan tunnistetietojen minimointiin.