Puzzelen naar de relevante data

Door de blogs van enkele collega’s ben ik geënthousiasmeerd geraakt om mijn gedachtes ook met zwart op wit te vereeuwigen. Ik ben Jari Marijnissen, Data Scientist bij Smart Profile en onderdeel van het Smart Profile Labs team. Vandaag leg ik je graag uit waarom ik data zo interessant vindt.

Zo’n 9 jaar geleden werd het befaamde artikel gepubliceerd in de Harvard Business Review, Data Scientist: The Sexiest Job of the 21st Century. Destijds zat ik nog met een Binas in mijn handen, zwetend de gemiddelde snelheid van een voertuig te berekenen om mijn eerste SET natuurkunde te halen.

Enkele jaren later bleek dat ik data toch sexier vind dan de snelheid van een Fiat Multipla. Voor menig jongeman zijn auto’s natuurlijk veel interessanter dan wat cijfertjes en letters die op je scherm staan. Dus ik hoor je denken: “Jari, wat maakt data nou zo leuk?”. Leuk dat je het vraagt!

Puzzelen

Het begon allemaal tijdens de tweede periode van het tweede jaar van mijn HBO-studie Informatica. Na een kleine anderhalf jaar code kloppen, kwam daar de periode waar we data gingen analyseren. Iets dat ik hierna vergelijk met een puzzel.

De alom bekende Contoso demodataset werd ondersteboven gekeerd om de onontdekte feitjes te ontdekken. Eerst werden de ‘bekende’ feitjes in beeld gebracht, de hoekjes en randen van de puzzel, om vervolgens aan de hand van deze informatie de unknown unknowns te achterhalen, de effen gekleurde puzzelstukjes.

Naast de data van Contoso werd er ook nog gevraagd naar inzichten op basis van externe data. Zie het als een uitbreidingsset van 500 stukjes. De 500 stukjes die ons net het inzicht gaven, waardoor er meer waarde gehaald kon worden uit de data. Super tof!

Externe data

Deze uitbreidingsset kan van allerlei verschillende domeinen zijn, wil je bijvoorbeeld weerdata toevoegen of toch demografische data om een ander inzicht te creëren? Dit is op zichzelf al een opdracht of een, je raadt het al, puzzel. Afhankelijk van de vraag, wordt het internet doorkruist op zoek naar die ene relevante dataset. Maar wat ik minstens zo leuk vind is om te pionieren naar een dataset die onverwachts toch waarde kan toevoegen aan een project.

Zo kwam ik ooit een open source bron (OpenAdresses) tegen waarin de geo-coördinaten zijn vastgelegd van diverse landen in de wereld. Waaronder Taiwan en Chili, om maar een paar exotische voorbeelden te noemen. Deze data kon gebruikt worden om bedrijven binnen een bepaalde radius te vinden van een locatie, bijvoorbeeld een kantoor van een organisatie. Hiermee kan de markt van een bepaald kantoor in beeld gebracht worden.

Een ander leuk aspect van de externe data vind ik het ontsluiten van deze nieuwe databron. Waar je af en toe een relevante Excel- of CSV-sheet vindt van het CBS of Statbel, vind je op andere momenten een API, waar je een script moet schrijven om hiervan de data te verkrijgen. Wederom is het hier puzzelen om de data te bemachtigen. Van dit proces is de hiervoor genoemde bron ook een mooi voorbeeld. Er kan een bestand worden bemachtigd van de website of je kan een volledige set ophalen via de API. Er leiden meerdere wegen naar Rome.

De puzzel naar zowel de relevante data als het ontsluiten van deze data is voor mij een van de aspecten die het werken met data zo leuk maakt. ‘Een van de’ inderdaad. Er zijn nog zoveel andere toffe dingen die je kan doen en maken met data. Wat te denken van een grafiek van de snelheid van een Fiat Multipla.

Vond je dit blog van Jari interessant? Kom met hem in contact via LinkedIn, of schrijf je in voor de nieuwsbrief om op de hoogte te blijven van de laatste nieuwtjes.