Categorieën
Article

Big Data: kort en simpel

Ik voelde toch enige opluchting, toen op een congres voor data scientists bleek dat ook daar niet iedereen het erover eens was wanneer ‘gewone’ data eindigt en ‘Big Data’ begint. En wat voor de ene organisatie gewoon data is, betekent voor een kleinere organisatie misschien big.

Enerzijds kan je Big Data op een kwantitatieve manier definiëren. Zo hoorde ik een definitie: ‘wanneer je het niet meer gewoon in een database kan stoppen en er een SQL query op loslaten, is het Big Data’. Dat betekent met andere woorden dat data met pakweg 650,000 records prima bruikbaar zijn en dus gewone data. Maar een dataset met 18.908.000.000 records, zoals de Event Database van het Google GDELT project, is niet langer benaderbaar met klassieke tools en machines. Grootte bepaalt dus of data Big is of niet.

Maar niet alleen omvang maakt dat data Big is. De complexiteit van data en de kracht van data om er correcte en relevante conclusies en voorspellingen uit te halen, maken evenzeer of het label Big van toepassing is. Het onderwerp van de data en de daaraan gekoppelde voorspellende kracht bepalen dus ook in welke mate die data als Big beschouwd kunnen worden. Een ontzettend grote hoop losse gegevens waar je onmogelijk conclusies of voorspellingen uit kan berekenen blijven een grote hoop en dus geen Big Data.

Om het kort samen te vatten: Big Data zijn extreem grote data sets die door computer analyse informatie over patronen kunnen blootleggen en trends kunnen voorspellen.

Categorieën
Article

To Explore or to Explain?

In onze vorige post legden we uit wat de buzzwords Big Data nu eigenlijk betekenen. Deze keer willen we het even hebben over hoe je om kan gaan met die Big Data. Hierbij is visualisatie heel erg belangrijk. Een datavisualisatie kan enerzijds een tool zijn die je helpt om data te analyseren, maar het kan anderzijds ook het resultaat zijn van die analyse.

De manier waarop je visualisatietechnieken gebruikt hangt af van wat je met de data wil doen: to explore or to explain?

Datavisualisatie als tool bij data-analyse: to explore

Om een dataset visueel te kunnen analyseren, wordt er vaak een interface ontworpen waar de dataset wordt ingegoten. Via deze interface kan je je weg vinden in je eigen of in andermans data. Je kan het zien als een tool om de data te verkennen. Er wordt niet voorgesteld wat je uit de data kan afleiden, er wordt enkel een manier aangeboden om de data makkelijker onder de loep te nemen. Je duikt in de onbekende dataset en gaat zelf op zoek naar context, gelijkenissen, relaties en inzicht… Hierbij helpt het visualiseren van de data om de onderlinge relaties veel sneller op te sporen. Interactiviteit en manipulatiemogelijkheden zijn hierbij van groot belang: de gebruiker is baas over de dataset.

Voorbeelden hiervan zijn:

  • een tool die de human resources data van een bedrijf visualiseert. Hierdoor werd de uitwerking en monitoring van talent management strategieën aanzienlijk vergemakkelijkt. http://dataveyes.com/#!/en/case-studies/outil-rh
  • een webapplicatie die omgaat met een enorme hoeveelheid data over bossen wereldwijd. Hier kan je nagaan of beschermde gebieden effectief hun bossen behouden, wat de belangrijkste trends in je eigen land zijn en waar er bomen verloren gingen in de afgelopen week. http://www.vizzuality.com/projects/global-forest-watch

Datavisualisatie als resultaat van analyse: to explain

Bij een datavisualisatie die ‘explanatory’ is, wordt er een visueel verhaal verteld met de resultaten van de data-analyse. Bij storytelling met data weet je dus al wat er in de dataset zit en wil je een gefocuste visualisatie maken die je bevindingen naar de lezer/gebruiker communiceert.

Voorbeelden hiervan zijn

Het visualiseren van data is zeker geen absolute keuze, de meeste datavisualisaties bevinden zich ergens op het continuüm tussen exploratory en explanatory. Aan de ene kant van het continuüm moet de gebruiker zelf zijn weg doorheen de data te vinden en heeft hij alle touwtjes in handen; aan de andere kant wordt de lezer meer in een bepaalde richting geduwd en beslist de auteur wat de lezer/gebruiker te zien krijgt. Het is belangrijk om hier per project de beste balans in te vinden. Hulp of inspiratie nodig in data visualisatie? Kom eens langs!