noun_Email_707352 noun_917542_cc Map point Play Untitled Retweet Group 3 Fill 1

Tietoaltaat ja tietovarastot: Azure Synapse -näkökulma

Azure Synapse Analytics -ympäristö tarjoaa useita työkaluja pakettiratkaisuna yhdessä käyttöliittymässä. Mitä etua sen käytöstä on datan analysoinnin paletissa?

Timo Aho / 2. kesäkuuta, 2021

Käsittelen tässä artikkelissa Microsoftin julkaisemaa Azure Synapse Analytics -ympäristöä erityisesti tietovarasto- ja tietoallasparadigmajaottelun näkökulmasta. Oman kokemukseni perusteella Synapse-paketointi tuo uusia hyötyjä analytiikkaratkaisun rakentajalle.

Kirjoitin aiemmin pilven analytiikan komponenteista vertaillen tietoallas- (data lake) ja tietovarastolähtöisiä (data warehouse) tuotteita. Käytin esimerkkeinä tietoallaslähtöistä Databricks-työkalua ja tietovarastolähtöistä Snowflake-ratkaisua. Jos data ja analytiikka-alustat kiinnostavat, suosittelen lukemaan tuon kirjoituksen ensin.

Tarkastelemme tässä blogiartikkelissa melko uutta tuotetta, joka tuo aiheeseen hieman uutta kulmaa. Microsoft on julkaissut Azure-pilvipalveluunsa Azure Synapse Analytics -ympäristön. Miten tämä ympäristö sopii analytiikan komponenttien jaotteluun?

”Otetaanko Snowflake, Databricks vai Synapse?” on kysymys, johon on vaikea antaa yhtä vastausta. Tämän artikkelin luettuasi ymmärrät, miksi!

imagehqup.png

Azure Synapse kokoaa useita pilvipalvelun tuotteita yhden käyttöliittymän alle

Yllä on kuvattu Synapsen toiminnallinen kattavuus data-analytiikka-alustan eri vaiheissa. Sininen väri tarkoittaa tallennusratkaisua ja vihreä laskentaa – muista kuvassa näkyvistä alustan vaiheista sekä Snowflakesta ja Databricksistä voit lukea tarkemmin aiemmasta artikkelista.

Tarkalleen ottaen Synapse on yksittäisen tuotteen sijasta paketoitu ratkaisu, jossa tarjotaan useita erillisiä työkaluja komponentteina. Yhden nimikkeen ja käyttöliittymän alle on koottu siis useampia pilvipalvelun tuotteita, joilla katetaan koko pilven analytiikka-alusta. Synapse sisältää rakennuspalikat niin tietovaraston käyttöönottoon kuin tietoallaslähtöiseen kehitykseen.

Synapse-ympäristöä pohtiessa herää luonnollinen kysymys, onko brändäämisestä yhden nimikkeen alle lopulta mitään hyötyä – olisihan komponentteja voinut käyttää myös erikseen. Alan itse kuitenkin vakuuttua, että aitoja hyötyjä on. Palaamme tähän hieman myöhemmin, kunhan olemme perehtyneet Synapseen tarkemmin.

Azure Synapse Analytics -ympäristön komponentit

Azure Synapse Analytics -ympäristö tarjoaa seuraavia komponentteja:

  • Graafinen ELT-/ETL-työkalu Pipelines-palvelun datan lukemiseen ja käsittelyyn. Käytännössä komponentti on sama kuin aiemminkin saatavilla ollut Azure Data Factory -palvelu.
  • SQL Provisioned Pool tietovaraston datan organisointiin. Lanseerausvaiheessa Microsoftille sattui kömmähdys ja he rinnastivat tämän tietovarastokomponentin kattamaan koko Synapse-ympäristön. Edelleen törmään väärinkäsitykseen, että Synapse tarkoittaa ainoastaan tietovarastokomponenttia.
  • Ohjelmointipohjaiset Apache Spark Pool ja SQL On-Demand Pool datakyselyihin ja prosessointiin pilvessä. Nämä komponentit ovat täysin uusia ja saatavilla vain Synapse-ympäristössä.

Näiden lisäksi ympäristö tarjoaa seuraavia komponenttien välisiä ominaisuuksia:

  • Keskitetyn pilvipohjaisen käyttöliittymän, jolla kaikkiin työkaluihin pääsee käsiksi
  • Kevyen visualisointityökalun ja integroinnin Power BI -raportointiin
  • Kaikista työkaluista käytettävän yksinkertaisen tauluorganisoinnin tietoaltaan datalle
  • Luonnollisen yhteyden Azure Data Lake Gen2 -pilvitallennuspalveluun ja Azuren oikeuksienhallintaan

Tietääkseni vastaavaa ratkaisua ei toistaiseksi ole saatavilla muilta pilvipalveluntarjoajilta.

Mitä uutta Azure Synapsen komponentit tuovat analytiikan palettiin?

Osa komponenteista, erityisesti Data Factory ja tietovarasto, oli saatavilla myös ennen Synapse-ympäristöä, joten ne eivät varsinaisesti tuo markkinoille mitään uutta. Komponentteja voi, ja saattaa olla järkevää, myös jatkossa käyttää erikseen muiden ratkaisujen osana.

Kuitenkin esimerkiksi SQL On-Demand Pool on erinomainen lisä big data -palettiin. Kyse on SQL-kyselytyökalusta, joka tarjotaan aidosti palveluna: työkalu ei tarvitse minkäänlaista pystytystä, on välittömästi käytettävissä ja maksaa vain käytön mukaan. Paras muiden pilvipalvelutoimittajien vertailukohta on AWS-pilvipalvelun Athena. Apache Spark Pool taas on työkalu, jonka voisi kuvata Databricks-tuotteen kevytversioksi.

Paketointi ja yhden käyttöliittymän taakse vieminen tuovat hyötyjä

Onko Synapse-paketoinnista lopulta hyötyä? Oman kokemukseni perusteella vastaus on varovaisen myönteinen. Ensinnäkin komponenttien väliin on saatu aitoa yhteiskäyttöisyyttä. On esimerkiksi mahdollista määritellä yhteiskäyttöisiä tietokantamaisia taulurakenteita, jotka ovat käytössä useammasta työkalusta.

Toisaalta yhden käyttöliittymän taakse vieminen helpottaa käyttöä. Kehittäjän ei tarvitse tuntea useita Azuren työkaluja, vaan ne kaikki löytyvät samalta tiskiltä. Komponenttien integraatio on myös jossain määrin parantunut. Arvioisin, että kaiken kaikkiaan Synapse-ympäristö on ollut teknisestä näkökulmasta verrattain onnistunut panostus Microsoftilta.

Eräs kiinnostava yksityiskohta on, kuinka aiemmassa artikkelissa esitelty tietoallas- ja tietovarastoerottelu näkyy Azure Synapse-ympäristön hinnoittelussa. Synapse SQL Provisioned Pool -tietovarastoa lukuun ottamatta muut tuotteet on hinnoiteltu vain käytön mukaan tietoallasparadigman mukaisesti. Näissä prosessointityökaluissa on automaattinen sammutus, jolloin myös käytön laskutus päättyy. Jos siis kokeilet Synapse-ympäristöä itse, pidä huolta että suljet tietovaraston lopetettuasi. Kaikki muut palvelut sulkeutuvatkin sitten itsestään.

Azure Synapse on ympäristönä ainutlaatuinen siinä mielessä, että yhteen pakettiin on kerätty sekä relevanteimmat tietoallastyökalut että tietovarastoratkaisu. Työkaluja voi toki käyttää myös erikseen, mutta Synapse-ympäristö yksinkertaistaa käyttöä ja tuo etuja. On kiinnostava nähdä, miten Synapse-ympäristö kehittyy ja miten muut pilvipalvelutarjoajat tähän vastaavat.

Lue myös: APIs: what are they and why they are important to your business? 

Oletko kiinnostunut analytiikkaratkaisuista? Ota yhteyttä!

Timo Aho
Cloud Data Expert, Tietoevry Create

Timo is a cloud data expert (PhD) with over a decade of experience in modern data solutions. He enjoys trying out new technologies and is particularly interested in technologies of storing, organizing and querying data efficiently in cloud environments. He has worked in big data roles both as a consultant and in-house.

Haluatko kuulla lisää?

Timo Aho

Cloud Data Expert, Tietoevry Create

Jaa Facebookissa Jaa Twitterissä Jaa LinkedInissä