Miksi keinotekoinen data on parempaa kuin oikea data?

Julkaistu 18 toukokuuta 2018

GDPR kiinnittää huomiomme siihen, miten voimme suojella oikeaa henkilödataa. Yksi selkeä kohdealue on järjestelmien kehitys- ja testiympäristöt. Niissä on edelleen usein oikeaa henkilödataa, vaikka käytännössä testit voitaisiin suorittaa ilmankin. Me Tiedossa halusimme ratkaista tämän ongelman kerralla kaikille asiakkaillemme tuomalla keskitetyn synteettisen datan palvelun markkinoille.

Datan anonymisointiin menee paljon aikaa, eikä tuloksesta ole takeita

Datan anonymisointi tuotantodatasta on vaikeaa tehdä luotettavasti. Se on tie, jota tällä hetkellä moni koettaa kuitenkin edetä. Haasteena on esimerkiksi se, että koskaan ei voida olla täysin varmoja, onko tehty riittävästi anonymisointitoimenpiteitä, ja onko joku henkilö vielä kuitenkin tunnistettavissa.

GDPR kieltää henkilön tunnistamisen myös sekundäärisen datan avulla. Kiellettyjä ovat esimerkiksi erilliset listat, esim. kuka kukin on maskatussa datasetissä, pseudonymisointikaavat, jotka ovat tulkittavissa myös toiseen suuntaan tai henkilöiden tunnistaminen ilman varsinaisia ID-tietoja.

Jälkimmäinen on haasteellisin, koska henkilöiden tallennetut muut tiedot, käytöskaavat, työnantaja, sijainti ja vaikkapa sukupuoli voivat paljastaa henkilön identiteetin. On siis turvallisinta vaihtaa kokonaan näkökulmaa ja tutkia miten keinotekoinen eli synteettinen data voi auttaa sovellusten laadunvarmistuksessa.

Uusi näkökulma synteettisen datan avulla

Sen sijaan että piilottaisimme oikeaa tuotantodataa, voimme keskittyä tekemään dataa, joka on parempaa kuin tuotantodata. Tuotantodatassa on useita rajoituksia: se on mahdollisimman virheetöntä ja rajoittuu vain senhetkisiin tapauksiin. Käytännössä virhetilanteet (negatiivinen testaus), erilaiset erikoistapaukset ja tiedossa olevat tulevat muutokset olisi kuitenkin testattava ennakkoon.

Synteettisen, eli keinotekoisen datan avulla voidaan laajentaa testien kattavuutta. Voidaan testata enemmän mahdollisia erikoistapauksia ja vähemmän perustapauksia, sillä datan ei tarvitse perustua tuotantoon, kun vain mielikuvitus ja erilaisten vaihtoehtojen määrä ovat rajana. Kannattaa toki keskittyä ensin tekemään perustestitapauksien tarvitsema materiaali, jota voidaan täydentää tulevina vuosina.

Koska kehitys- ja testiympäristöt ovat usein yhteisiä monille projekteille, datan tulee olla soveltuvaa kaikille projekteille ja sovelluksille. Testidatan tulee olla kontrolloitavissa siten, että voidaan esimerkiksi aloittaa testikierros aina ”puhtaalta pöydältä” eli testidata on aina samassa lähtötilanteessa. Tällöin saadaan parhaat tehot irti testiautomaatiosta. Kun testidata on kontrollissa, voidaan myös miettiä, miten voitaisiin ketjuttaa eri sovellusalueiden testiautomaatioskriptejä ja siten laajentaa end-to-end -testausta.

Keskitetty ratkaisu säästää tekemisen vaivaa ja laajentaa testauksen kattavuutta

Tiedon rakentama synteettisen datan ratkaisu palvelee kaikkia toimialoja. Sen sijaan, että jokainen yritys kuluttaisi aikaa soveltuvan testidatan tekemiseen, teemme keskitetyn ratkaisun, josta dataa saa valmiina.

Ratkaisussa hyödynnämme Tiedon 50 vuoden laajaa tuntemusta eri toimialoilta. Ratkaisu sisältää keinotekoista henkilö- ja yritysdataa sekä Suomesta että muista Euroopan maista. Henkilödata ei ole pelkkää perustietoa, vaan teemme synteettisestä datasta myös realistista ja sisällytämme henkilöprofiileihin liiketoimintadataa, eli ”elämänhistoriaa” eri toimialoilta.

Ota yhteyttä, niin kerromme lisää!

Tuija Tamghart

Manager, Quality Assurance and Testing Services, Tieto

tuija.tamghart@tieto.com

Palvelut Lue lisää

Ajankohtaista

Ohjelmistot Lue lisää

Lue lisää

Pikalinkit

Lue lisää Lue lisää

Miksi keinotekoinen data on parempaa kuin oikea data?

Datan anonymisointiin menee paljon aikaa, eikä tuloksesta ole takeita

Uusi näkökulma synteettisen datan avulla

Keskitetty ratkaisu säästää tekemisen vaivaa ja laajentaa testauksen kattavuutta