Dit zijn de 15 meest gebruikte begrippen in data-analytics

Oftewel het vakjargon dat data scientists gebruiken (en marketeers dus ook zouden moeten begrijpen).

Blog
30 November 2015
Jan Kuper

- 0
- 0

Helaas hebben we niet meer de rechten op de originele afbeelding

adformatie

Binnen elke directiekamer wordt tegenwoordig gesproken over big data. It’s new, hot and entertaining. Cases tonen aan dat inzet van big data-analytics enorme concurrentievoordelen geeft. Ook wordt menig seminar gewijd aan het onderwerp en geven de goeroe’s voorbeelden hoe de inzet van geavanceerde algoritmen leidt tot omzetgroei.

De beroepsgroep die verantwoordelijk is voor deze explosie aan nieuwe datatoepassingen zijn de data scientist/data miners/analisten. En deze professie heeft zijn eigen termologie die ver afstaat van de hedendaagse marketeer. Dit leidt vaak tot verwarring. In dit deze blog beschrijf ik 15 frequent gebruikte begrippen in de hedendaagse wereld van de data scientist/miner/analist.

1. Big Data:
Een ieder heeft het over het begrip Big Data. Maar wat is Big Data. Is het een excelsheet van 80 Mb met vragen uit een onderzoek, of zijn het alle data die Google of Facebook heeft verzameld? Wat maakt data big data?

Wikipedia schrijft hierover het volgende:

Men spreekt van big data wanneer men werkt met een of meer datasets die te groot zijn om met reguliere databasemanagementsystemen onderhouden te worden. De hoeveelheid data die opgeslagen wordt, groeit exponentieel. Dit komt doordat we steeds meer data opslaan in de vorm van bestanden, foto's en films (bijvoorbeeld op Facebook of YouTube) maar ook doordat er steeds meer apparaten zelf data verzamelen, opslaan en uitwisselen (het zogenaamde internet der dingen) en er steeds meer sensordata beschikbaar zijn. Niet alleen de opslag van deze hoeveelheden is een uitdaging. Ook het analyseren van deze data speelt een steeds grotere rol.

Persoonlijk vind ik de definitie te weinig de nadruk legt op inspanning die nodig is om allerlei vormen van data te ontsluiten. De definitie gehanteerd door Benjamin Franklin en Thomas Siebel (Berkeley) is eenduidiger. Franklin en Siebel definiëren Big Data als:

Data that’s is expensive to manage and hard to extract value from.

Volume is dus niet de key issue in de definitie van Franklin en Siebel, maar variety.

2. De 3 V’s van Gartner:
De hype rond Big Data is rond 2001 ontstaan doordat Math Laney van het gerenommeerd bureau (Meta Group) - nu Gartner- een onderzoeksrapport presenteerde met de mogelijkheden van data. Laney beschreef dat er een explosie van data zou plaatsvinden op het gebied van Volume van data, Verscheidenheid aan data als de Vluchtigheid van data. De 3 V’s.

Bedrijven zouden enorme concurrentievoordelen kunnen behalen door in te spelen op deze ontwikkeling. Tegenwoordig beschrijven we data op basis van de volgende eigenschappen, Volume, Variëteit, Snelheid, Verscheidenheid, Kwaliteit, Complexiteit.

In de praktijk van alle dag zie je echter dat de meeste analisten nog steeds modeleren zoals dit 10 of 20 jaar geleden gebeurde. De data worden verzameld, gemanipuleerd en getransformeerd. Vervolgens worden een of meerdere algoritmen toegepast om data zo goed mogelijk te kunnen onderscheiden. Tijdens dit proces besteed je weinig tot geen aandacht aan het verdelen van de rekencapaciteit over de kernen. Big data-analisten zijn daarentegen voortdurend bezig met het zoeken naar methodieken om de performance te verhogen. Daartoe is een uitgebreide kennis noodzakelijk van de verschillende talen maar ook de werking van besturingssystemen.

3. Gestructureerde en ongestructureerde data:

cms-structured-data_resized.jpg

Tegenwoordig maken analisten/data scientists steeds vaker het onderscheid tussen gestructureerde en ongestructureerde data. De vorm van data die in de meeste bedrijven wordt gebruikt om informatie te ontginnen is gestructureerde data. Deze vorm van data ligt vaak opgeslagen in operationele databases, spreadsheets, etc. Kolommen (velden) zijn voorgedefinieerd. Eveneens zijn de links (sleutels) tussen de velden goed gedefinieerd. Met relatief weinig inspanning kunnen relaties worden gelegd en analysebestanden worden gevormd. Door middel van ontdubbelingsslagen zijn BI-afdelingen in staat de kwaliteit van de data verhogen.

Echter houden we ook allerlei data vast in documenten, e-mail, klachten, twitter, internetsites, etc . Deze data is niet direct toepasbaar in analyses. Voordat er een analyse kan worden gedaan op de bestaande data, moeten de afzonderlijke waarden of reeksen van woorden (n-grams) worden geconverteerd naar kolommen in een analysebestand. Dit betekent dat tekstdata moeten worden genormaliseerd. Je moet hierbij denken aan het uniformiseren van hoofd- en kleine letters, stopwoorden te verwijderen als de stam te definiëren. Het proces dat zich hier mee bezig houdt, heet natural language processing (NLP). Ongestructureerde data is vanuit zijn oorsprong dus niet zo gestructureerd.

Naast data uit documenten kunnen we tegenwoordig ook ongelofelijk veel data halen uit allerlei apparaten. Denk aan smartfones, telematica in auto’s en controle mechanismen in huizen. Deze informatie wordt vaak in lange strings opgeslagen. Vanwege de grote hoeveelheid data is een belangrijke proces het herkennen van patronen in strings. Met name systeembiologen en microbiologen maar ook procesanalisten hebben allerlei algoritmen ontwikkeld om dit proces te stroomlijnen.

Kortom de hoeveel ongestructureerde data is vele malen groter dan de hoeveelheid gestructureerde data.

4. Datamining vs data science:

Euclidean_algorithm_running_time_X_Y.png

Het zijn twee gevleugelde begrippen die worden gebruikt om het proces van het modeleren van data te beschrijven. Het begrip datamining was vooral een buzz-begrip in het begin van deze eeuw. Allerlei software-ontwikkelaars ontwikkelden programma’s met als doel patronen te herkennen als predictive analytics te bedrijven. Voorbeelden zijn IBM/SPSS Modeler, SAS Miner, KNEX, etc. Via een grote variëteit aan ingebouwde algoritmen is de analist in staat zijn data te modeleren. Naast modellen beschikken deze tools vaak ook over de mogelijkheden data te manipuleren en transformeren. De algoritmen/modellen zijn echter vaak voorgeprogrammeerd. Dit levert veel gebruiksgemak op. Nadeel is dat je modellen moeilijker kunt tunen.

Eind van de jaren negentig van de vorige eeuw als het begin van deze eeuw beweerden bepaalde dataminingtools zelfs dat de rol van analist overbodig zou worden. De marketeer was met hulp van deze software in staat modellen op te stellen en constatering te maken. Dit bleek echter een illusie. De vraag aan analisten is groter dan ooit. Tegenwoordig is datamining meer een synoniem voor patroonherkenning (zie frequency item algoritmen) en het opstellen van voorspellingen. De hedendaagse dataminer heeft vaak een achtergrond in de statistiek als de econometrie.

Het begrip data science is voor het eerst gebruikt begin jaren zestig van de vorige eeuw. Het was een synoniem voor computer science. In 1997 werd meer lading gegeven aan het begrip tijdens de inauguratiespeech van C.F. Jeff Wu getiteld "Statistics = Data Science?". Wu legde de nadruk op data collection, data modeling & analysis, and decision making. Data science was statistical learning. Vanaf 2000 werd het begrip data science meer en meer geassocieerd met het verkrijgen en verwerken van grote hoeveelheid ongestructureerde data.

De rol/baan van datascientist werd in 2008 voor het eerst geïntroduceerd binnen Facebook en Linkedin. In tegenstelling tot de dataminer programmeert de data scientist vaak zelf zijn model. Op deze wijze kan hij/zij de parameters beter tunen. Matrixberekeningen, programmeerkennis en algoritme kennis behoren tot de kerncompetenties van de data scientist.

De scheidslijn tussen dataminer en data scientist is flinterrun. In mijn optiek zullen dataminers eerder een business insteek hebben terwijl de data scientist meer kennis heeft van ICT en BI processen.

5. Supervised en Unsupervised Learning:
Twee begrippen die frequent worden gebruikt door de hedendaagse analist zijn Supervised en Unsupervised Learning dit in tegenstelling tot marketeers hebben het vaak over segmentatiemodellen en scoremodellen. Supervised learning komt in hoge mate overeen met het scoren/voorspellen van een model. Je probeert zo accuraat mogelijk een binary waarde (ja/nee of 0/1) of een continue waarde te voorspellen. De eerste wordt door de hedendaagse data scientist/machine learner classificatie genoemd de laatste wordt vaak aangeduid als regressie. Een verdiepingsslag van supervised learning in deep learning.

Unsupervised Learning komt in hoge mate overeen met het samenvoegen van waarden of kenmerken. Het komt overeen met begrippen als clustering, factor analyse, correlaties, etc. In het geval van Unsupervised Learning voorspellen we dus geen waarde.

Naast Unsupervised Learning en supervised learning kennen we ook de begrippen reinforcement learning, online learning en active learning.

6. Opkomst gebruik free software: R, python, en Java:
Bijna een iedere marketeer heeft tijdens zijn opleiding een of meerdere cases moeten uitwerken in het software pakket SPSS/IBM. Nadeel is echter dat de mogelijkheden van een pakket als SPSS beperkt zijn tot de functionaliteiten die door de leverancier worden aangeboden. De hedendaagse data scientist wenst zo veel mogelijk flexibiliteit binnen zijn pakket om allerlei berekeningen (lees matrix calculaties) uit te kunnen voeren. Softwarepakketten als R, Python en Java bieden deze mogelijkheden wel. Daarnaast hebben deze pakketten als voordeel dat de nieuwe ontwikkelingen direct kunnen worden geïmplementeerd binnen de software en niet afhankelijk zijn van releases. Nadeel is vaak dat dergelijke software-architecturen nog niet worden ondersteund binnen bedrijven.

7. Scraping:
Om een model te maken heb je data nodig. Voorheen was het zo dat de meeste data afkomstig was uit operationele bedrijfsdatabases. Tegenwoordig wordt data gedolven uit allerlei verschillende bronnen. Maar met name het internet is een bron van data voor de hedendaagse data scientist/analist. Het proces van het delven van de internetdata noemt men scraping. Scraping is een discipline op zich. De kunst van het scrapen is het verwijderen van alle tags en alleen de plain tekst te bewaren. Een belangrijk aandachtspunt om te komen tot tidy data (Jef Leek) is het normaliseren van de data. Omdat de hoeveelheid ongestructureerde data enorm is, is het zaak processen te ontwikkelen die het transformeren van ongestructureerde data naar kolommen zo efficiënt mogelijk doet. Hierbij spelen technieken als Map Reduce een belangrijke rol.

8. Machine Learning/Deep learning vs statisitical learning:

ArtificialFictionBrain.png

Een ieder die wel eens een artikel heeft gelezen over het begrip Big Data zal in het artikel ook de woorden Machine Learning (ML) of Deep Learning (DL) zijn tegengekomen. De vervolgvraag die menig marketeer zich dan stel is, in welke mate onderscheidt ML en DL zich van de traditionele modelbouw (zoals deze wordt besproken tijdens de studie) en data mining. Allereerst dient gezegd te worden dat beide werkgebieden niet zo verschillend van elkaar zijn. Doel is het opstellen van een model om voorspellingen te maken over niet bekende waarden.

De basisprincipes van beide werkvelden komen dan ook grotendeels overeen. Grote verschil is dat de traditionele statisticus (statistical learning) zijn houvast zoekt in hypothesetesten (inference) middels het bekijken van de p-waarden. Daarnaast is het uitgangspunt van de traditionele statisticus vaak de onderliggende kansverdeling. De data scientist die gebruik maakt van ML technieken of DL technieken onderzoekt eerder de algemene generaliseerbaarheid van de data. Dit doet de data scientist door te kijken naar cross-validatie en generalization technieken. Degene die meer wil weten over de strijd tussen statistical learning en machine learning adviseer ik de blogs van Brandon O’Conner te lezen.

9. Recommending systems:
Recommending systems en recommandation, een ander gevleugeld begrip in het hedendaagse wereld van de data scientist. Recommandation is het geven van een advies welke product/film/artiest iemand leuk vindt op basis van voorkeuren. Grofweg kun je twee methoden van recommandations onderscheiden, namelijk content based filtering en collabrative filteren. In het geval van collaborative filtering is het model gebaseerd op basis van de gedrag van de gebruiker. In het geval van content based filtering kijken we meer naar de voorkeuren van de gebruiker. Content based filtering heeft zijn oorsprong in de information retrieval and information filtering research.

Recommandation systems maken vaak gebruik van Machine Learning-technieken om tot een oplossing te komen. De moeilijkheid van het goed voorspellingen van cases wordt veroorzaakt doordat een groot gedeelte van de data niet gevuld is. Data scientist maar ook statistici spreken over een sparse matrix. Naast het feit dat de data vaak slecht gevuld zijn hebben dergelijke systemen vaak problemen in het geval van het opstarten van het algoritme als het schalen binnen systemen. Cold start-problemen. Immers dan is eerst geen gegeven bekend.

Bedrijven die veelal gebruik maken van recommandation systems zijn Netflix, Amazone, Google, etc.

10. Map Reduce en Hadoop:
Map Reduce is een door Google geïntroduceerd framework voor het in korte tijd uitvoeren van berekeningen over zeer grote hoeveelheden data.

MapReduce kan in korte tijd veel data verwerken doordat het een grote taak opsplitst in deeltaken. Allereerst worden de taken opgedeeld in deeltaken die worden gedistribueerd over de verschillende machines/services. In de 2de stap worden deze deeltaken wederom samengevoegd.

De kracht van deze methodologie is het feit dat als een van de computers tijdens het uitvoeren van zijn deeltaak begeeft, die deeltaak automatisch door een andere computer wordt overgenomen. Dit maakt het systeem zeer robuust.

Map Reduce wordt door Google onder andere gebruikt voor het indiceren van grote hoeveelheden documenten voor zijn zoekmachine en het analyseren van bezoekersaantallen en bezoekersgedrag van websites (Google Analytics).

Hadoop is een op MapReduce geïnspireerd opensource Java-framework voor de bouw van data-intensieve gedistribueerde applicaties. Een bekende toepassing van een Hadoop toepassing is het Azure platform van Microsoft.

Map Reduce is met name het speelveld van de BI-er die zich bezig houdt met het transformeren van grote hoeveelheden data.

Pure_Data_with_many_patches_open_showing_netpd_project.png

11. Visualisation:
Naast het verwerken en analyseren van grote hoeveelheden data, zie je tegenwoordig een boost in visualisatiemogelijkheden. De tijden van het maken van lijn- en staafgrafieken in Excel lijken voor goed voorbij. Tools als R (Rcharts, ggplot, GoogleVis) en python (D3) beschikken over uitgebreide mogelijkheden om data te kunnen visualiseren. Maar ook pakketten als Gephi, Pajek hebben uitgebreide mogelijkheden om netwerken weer te geven.

Visualisatie is meer dan het maken van overzichten om inzicht te krijgen in datastructuren. De tijden van datavisualisatiegoeroe Tufte lijken ook voorbij. Wil je meer weten over het opbouwen van een visuals is het raadzaam de grammer of graphics van Wilkinson te lezen.

Naast inzichten tijdens het data-exploratieproces wordt visualisatie meer en meer het proces van weergave om een storyline te vertellen. Infographic is hiervan een voorbeeld. Maar visuals worden ook steeds interactiever. Ze communiceren met de gebruiker. Om deze visuals te maken is een behoorlijke kennis van programmeren nodig.

12. (Social) Netwerkanalyse:
Een ander werkveld dat momenteel een revival doormaakt, is het vakgebied netwerk analyse en gaming theorie. Alhoewel dit vakgebied nog weinig wordt toegepast binnen intelligence afdelingen. In onze huidige modelbouw gaan we er vaak van uit dat gedrag een op zich zelf staand fenomeen is welke niet wordt beïnvloed door de gedragingen van je relaties. Dit is enigszins naïef. Ons gedrag wordt namelijk in hoge mate beïnvloed door de uitkomsten/gedragingen van relaties (het netwerk) in je omgeving. Netwerkanalyse is de wetenschap van het weergeven van de onderlinge relaties (edges genaamd) tussen objecten (nodes genaamd). Netwerkanalyse bestudeert de aard waarop informatie door het netwerk vloeit, gegeven de structuur van het netwerk. Gamingtheorie bestudeert vervolgens de wijze waarop we gedragingen doen op basis van het netwerk. Een pionier op dit gebied was Nash.

13. NOsql:
NOsql is een mechanisme om van opslag en ontsluiting van data. Binnen de Nosql-structuur maakt men eerder gebruik van lange kolom gewijze opbouw van de database itt de meer relationele databases. Afhankelijk van het soort vraagstuk zal Nosql soms sneller of trager een antwoord geven op een query.

NOsql wordt al sinds de jaren ’60 gebruikt. Mede door de komst van big data companies als Google, Amazone, Facebook werd deze methodiek meer en meer gebruikt. Deze Big Data organisaties zijn nl. op zoek naar mechanismen die snel een antwoord op een zoek vraag kunnen geven. Met traditionele databasesystemen was dit niet mogelijk. Men ging op zoek naar andere wijzen van opslag en retrival en vond het antwoord op basis van het Nosql mechanisme. Veel gebruikte systemen op basis van Nosql zijn Cassandra, Druid, HBase, Vertica, Apache CouchDB, MarkLogic en MongoDB.

14. Textmining, Sentimentanalyse en NLP:
Met de komst van grote hoeveelheden ongestructureerde data werd de roep naar methoden om deze data te analyseren steeds groter. Textmining en natural language processing (nlp) houdt zich bezig het verkrijgen van informatie uit teksten. Woorden of groepen van woorden worden geclassificeerd als variabelen om bijvoorbeeld het sentiment te bepalen en te voorspellen. De moeilijkheid van tekst mining is het omgaan met frequente en niet frequente woorden als de meervoudige betekenis van woorden. Om dit probleem op te lossen zijn er allerlei algoritmen ontwikkeld.

15. Kaggle cups, Hackaton’s en meetups:
Naast een tal aan nieuwe begrippen, is ook de wijze van kennisdeling aan het veranderen. De hedendaagse analist is niet meer de grijze muis die men aan het liefst in de kelder van het gebouw plaats waar hij of zij ongestoord door de data scrolt. De hedendaagse analist doet tegenwoordig mee aan wedstrijden (Kaggle cups) om op zoek te gaan naar het beste model en zich te meten met andere collega’s. Daarnaast worden ook talrijke hacketon’s en meetups georganiseerd om kennis te delen. Via een hacketon gaat men in een korte tijd gezamenlijk met een aantal collega’s een probleem oplaossen. Het liefst in een informele setting. Meetup’s zijn bijeenkomsten waar men de kennis deelt. Voorbeelden zijn Big data Donderdag, Data Science Amsterdam of Data Science Utrecht.