Tänä päivänä yritykset keräävät paljon dataa: asiakastietoja, myyntidataa ja niin edelleen. Kaikkea tätä dataa on tärkeä osata käsitellä oikein, jotta sitä voidaan hyödyntää liiketoiminnan kehittämisessä. Datan visualisoinnilla voidaan selkeyttää datan sisältöä ja täten helpottaa sen tutkimista uuden tiedon löytämiseksi. Datan visualisointiin on saatavilla monenlaisia tekoälysovelluksia, joista käyttäjä voi valita itselleen sopivimman osaamisensa sekä käyttötarpeidensa mukaan. Tässä tekstissä käsitellään Google Colabia, joka voi olla sopivampi niille käyttäjille, joilta löytyy aiempaa kokemusta ohjelmoinnista.


Datan visualisointi ja sen hyödyt

Mitä datan visualisointi on käytännössä? Teknologiayhtiö IBM:n mukaan datan visualisoinnilla tarkoitetaan datan esittämistä erilaisten graafisten materiaalien, kuten kaavioiden, tilastojen ja infokuvien, kautta. Datan visualisointia käytetään usein ideoinnin tukena, esimerkiksi ideoiden luomisessa ja havainnollistamisessa.  Visualisointi auttaa myös analyytikkoja ja tutkijoita löytämään trendejä sekä kuvioita datasta.

Datan visualisoinnista on monenlaista hyötyä. Se tekee datasta helpommin luettavaa sekä ymmärrettävää. Sen avulla voidaan nähdä uusia yhteyksiä eri datapisteiden välillä, jotka ovat saattaneet jäädä aiemmin huomaamatta. Visualisointi voi myös auttaa nostamaan datasta esille tärkeitä arvoja. Hieno ja selkeä visualisointi tekee datasta miellyttävämmän näköistä käyttäjälle.

Google Colab ohjelmoinnin tukena

Colab on Googlen tarjoama ohjelmointiympäristö, joka mahdollistaa Python-ohjelmakoodin kirjoittamisen ja ajamisen verkkoselaimessa ilman erillistä asennusta. Kaksi suosittua käyttökohdetta Colabille ovat koneoppiminen sekä datankäsittely. Colabissa ohjelmakoodia ja tekstiä voidaan kirjoittaa yhteen tiedostoon, erillisiin lohkoihin. Tekstilohkoja voidaan käyttää yleisten muistiinpanojen kirjoittamiseen tai esimerkiksi selkeyttämään ohjelmakoodin sisältöä ja toimintaa.

Ohjelmakoodilohkot voidaan ajaa erikseen tai yhtenä kokonaisuutena, ylhäältä alaspäin. Näitä tiedostoja kutsutaan Jupyter notebookeiksi, toisin sanoen ”muistikirjoiksi”. Colabia käytetään Google-tunnuksilla, ja sillä luodut tiedostot tallentuvat automaattisesti käyttäjän Google Drive -kansioon. Nämä tiedostot voidaan jakaa muille käyttäjille, mikä mahdollistaa yhtenäisen työskentelyn. Esimerkkinä voisi toimia tilanne, jossa yritys tekee yhteistyötä ulkopuolisen ohjelmistokehittäjän kanssa. Yrityksen työntekijät voivat kirjoittaa tarpeensa ohjelman toiminnalle notebookin tekstikenttiin, minkä perusteella ohjelmistokehittäjä voi kirjoittaa ohjelmakoodin saamansa ohjeistuksen mukaisesti. Lisäksi osapuolet voivat käyttää tekstikenttiä kommenttien jättämiseen.


Datan visualisointi Colabissa

Datan visualisointi Colabilla aloitetaan lisäämällä tarvittavat moduulit ohjelmakoodiin. Nämä moduulit ovat Python-ohjelmointikielen kirjastoja, jotka mahdollistavat ohjelmakoodissa tarvittavan toiminnallisuuden. Ohjelmoinnissa kirjastolla tarkoitetaan ennalta ohjelmoituja toimintoja, joita voidaan käyttää siten, että niitä ei tarvitse rakentaa aina alusta alkaen. Kirjasto voidaan kuvitella työkalupakkina ja sen sisältämiä toimintoja työkaluina. Tässä esimerkissä käytetään seuraavia moduuleja: Seaborn, Matplotlib ja Pandas. Näistä moduuleista tälle esimerkille relevantein on Seaborn, joka rakentuu Matplotlibin päälle ja integroituu Pandasin datarakenteisiin. Seaborn mahdollistaa tilastollisen grafiikan luomisen Python-ohjelmointikielellä. Moduuli osaa lukea sille annettua dataa ja piirtää kaavioon vain sen datan, jota siltä pyydetään ohjelmakoodissa.

Moduulien lisäämisen jälkeen valitaan data, jota halutaan visualisoida. Tätä dataa kutsutaan datasetiksi. Tässä esimerkissä käytetään Seabornin sisälle rakennettua datasettiä, mutta Colabiin voidaan lisätä dataa myös ulkoisista lähteistä. Tähän esimerkkiin valittu datasetti sisältää dataa Dow Jones Industrial Average -indeksin kehityksestä vuosilta 1914–1968.

Esimerkin ohjelmakoodi on melko yksinkertainen. Tarvittavien moduulien lisäämisen jälkeen Seabornia pyydetään lataamaan valittu datasetti. Tämän jälkeen Seabornia ohjeistetaan luomaan pistekaavio annettujen parametrien mukaisesti. X-akselille sijoitetaan aika ja y-akselille hinta. Tämän jälkeen pistekaavio muutetaan viivakaavioksi. Kuviossa 1 näkyy tämän esimerkin kokonainen Python-ohjelmakoodi.

Kuvio 1. Colabilla kirjoitettu Python-ohjelmakoodi


Lopputuloksena on kuvion 2 mukainen visualisointi, joka esittää viivakaaviona Dow Jones Industrial Average -indeksin kehitystä. Tämä on yksinkertainen esimerkki, mutta se näyttää, kuinka suhteellisen vaivattomasti Colabilla voidaan tehdä datan visualisointia.

Kuvio 2. Valmis visualisointi


Mahdollisuuksia datan sisältä

Tässä esimerkissä tehtiin yksinkertainen visualisointi valmista datasettiä käyttäen. Mahdollisuudet laajemman datan käsittelyn ja näyttävämmän visualisoinnin tekemiselle on suuret. Erilaisilla datan käsittely- sekä visualisointimenetelmillä voidaan löytää datan sisältä mahdollisuuksia liiketoiminnan kehittämiseen. Esimerkiksi asiakasdatan visualisoinnilla saatetaan löytää asiakaskanta, jota ei olla aiemmin huomattu. Google Colab tarjoaa mahdollisuuden testata datan visualisointia suhteellisen matalalla kynnyksellä.

Kirjoittaja:
Iikka Ryynänen, asiantuntija, Lapin ammattikorkeakoulu