Leugens, grove leugens en statistieken in talent acquisition

Written by: Corné Corné
Blog

(Lees in: English)

 ‘Er zijn leugens, grove leugens en statistieken.’ Misschien ken je de uitspraak maar waar slaat deze eigenlijk op? Zijn we niet de de informatie-eeuw beland waarin (big) data, machine learning en statistieken ons juist nieuwe inzichten brengen in plaats van leugens? Ja, data kan zeker gebruikt worden om nieuwe inzichten te verkrijgen maar het kan ook misleidend zijn als de data en statistieken verkeerd worden geïnterpreteerd. Handelen naar misleidende statistieken kan grote gevolgen hebben, zoals we hebben gezien tijdens de economische crisis van 2008. De statistieken die financiële instituten gebruikten om het risico van investeringen te schatten zaten er compleet naast, met als gevolg een economische crisis met grote consequenties.quote-Mark-Twain-there-are-lies-damned-lies-and-statistics-100601_1Alhoewel misleid worden door statistieken niet volledig kan worden voorkomen, kan kennis op dit gebied er wel voor zorgen dat veelgemaakte fouten worden voorkomen. Om die reden geef ik een aantal fictieve voorbeelden van misleidende statistieken die ik tegenkwam tijdens het analyseren van recruitmentprocessen. Ook zal ik manieren aanreiken waarop de misinterpretatie voorkomen kan worden.

Misleid door diagrammen

In figuren 1 en 2 zien we het aantal sessies (paginabezoeken) op een recruitmentwebsite over tijd. Alhoewel beide figuren gebaseerd zijn op dezelfde data, is de opwaartse trend veel beter zichtbaar in figuur 2. Daarnaast zijn ook de fluctuaties duidelijker in figuur 2. Kortom, het veranderen van de vorm van een diagram verandert onze perceptie ervan. Hoe platter de grafiek, des te constanter lijkt de lijn, terwijl een hoge grafiek juist trends en fluctuaties overdrijft. Figuur 3 laat een voorbeeld zien van een grafiek zoals wij die in Google Analytics tegenkomen: een vrij platte grafiek waarin de trends en fluctuaties slechter zichtbaar zijn. Hou hier rekening mee als je inzicht wilt krijgen in het verkeer op je recruitmentwebsite. Verander de breedte en hoogte van de grafiek om trends en extreme waarden beter inzichtelijk te maken. Daarnaast kun je methodes als regressie- of tijdreeks-analyse gebruiken om inzichten die je van de grafiek krijgt te toetsen.

trend1 Figuur 1: Wekelijkse sessies op website - platte grafiek

trend2 Figuur 2: Wekelijkse sessies op website - hoge grafiek

Figuur 3: Sessies zoals in Google Analytics

 

Misleid door geluk

Stel we gebruiken een Google AdWords campagne om het verkeer naar de recruitmentwebsite te stimuleren en deze levert de volgende resultaten op:

Screen Shot 2016-02-12 at 15.33.59

Alhoewel de AdWords campagne goed liep, willen we het verkeer nog verder stimuleren. Natuurlijk willen we hierbij gebruik maken van de data die we verzameld hebben tijdens de eerdere campagne. Om die reden kiezen we ervoor om de eerste drie zoekwoorden te gebruiken in combinatie met een agressievere bod-strategie. Hieruit verkrijgen we de volgende resultaten:

Screen Shot 2016-02-12 at 15.40.39

De conversiepercentages zijn volledig ingezakt! Als gevolg hiervan heb je minder sollicitanten dan tijdens de eerdere campagne en mogelijke tegen hogere kosten. Wat is er gebeurd? Je hebt een beslissing gemaakt op basis van te weinig observaties. Deze situatie is vergelijkbaar met het volgende: stel je gooit drie keer met een dobbelsteen en deze komt driemaal op 6, zou je dan aannemen dat als je honderd keer gooit je ook honderd keer 6 gooit? Hoe meer observaties je hebt hoe meer de conversie naar het werkelijke gemiddelde zal gaan die hoort bij het gegeven zoekwoord. Alleen op basis van dit gemiddelde zou je een keuze moeten maken tussen bod-strategieën.

Het Bill Gates-effect

Een lastige vraag om te beantwoorden is hoeveel observaties (in dit geval aantal clicks) je nu nodig hebt. Nassim Taleb legt dit probleem uit in zijn boek 'The Black Swan' met het volgende voorbeeld. Stel dat we een stadion vullen met 100 personen en van deze personen de gemiddelde lengte meten, met als uitkomst 1.75 meter. Nu voegen we de langste persoon op aarde (2.51 meter) aan deze groep toe. Wat gebeurt er met de gemiddelde lengte? Deze stijgt met slechts 0.4% naar een gemiddelde van 1.757. Dus een steekproef van 100 personen is voldoende om de gemiddelde lengte te schatten.

Nu stoppen we nogmaals 100 personen in het stadion maar dit keer meten we het vermogen wat uitkomt op 35.000 US Dollar. Nu voegen we Bill Gates toe, met een vermogen van 73 miljard. Wat gebeurt er met het gemiddeld vermogen? Deze stijgt met 20856.14% tot een gemiddelde van 72.2 miljard! Een steekproef van 100 personen is dus zeker niet voldoende om het gemiddeld vermogen te meten.

Als we dit vergelijken met conversiepercentages, kan het zo zijn dat je op een bepaalde dag een zeer hoog conversiepercentage behaalt. Wat we ons nu moeten afvragen is of, gegeven het aantal clicks dat we tot dusver hebben gemeten, dit een "Bill Gates-effect" zal hebben op het gemiddelde conversiepercentage of niet. Zo ja, dan hebben we meer observaties nodig om een voorspelling te doen van het toekomstige aantal clicks.

What gets measured, gets done

In de afgelopen 10 jaar is recruitment steeds meer gaan lijken op marketing. Dit zie je terug in de tools die we gebruiken om werkzoekende aan te trekken: deze zijn voor een groot deel dezelfde als binnen marketing. Er is echter een belangrijk verschil tussen het verkopen van producten en het aantrekken van personeel: het contract tussen de werkgever en werknemer is veeleisender dan het contract tussen verkoper en koper. Dit verschil zou ook terug moeten komen in de tools die we gebruiken om het recruitmentproces te analyseren. Deze tools zouden een combinatie moeten laten zien van kwantiteit (dus hoeveel sollicitanten of aangenomen personeel) en kwaliteit (hoe performen deze personen in de organisatie). Echter, omdat de analyse-tools die gebruikt worden veelal van andere bedrijfsprocessen komen (zoals marketing) mist in veel gevallen de kwaliteitsindicator. Als gevolg wordt door het ‘what gets measured, gets done’ principe ook met name gestuurd op kwantiteit: het verhogen van het aantal sollicitanten. Wat daarbij de gevolgen zijn voor kwaliteit blijft onduidelijk.

Het integreren van kwaliteits- en kwantiteitsindicatoren in recruitment analyse-tools is van groot belang om een volledig overzicht te krijgen van de effectiviteit van het recruitmentproces. In het bijzonder zouden organisaties data moeten gaan bijhouden welke voorspellingen zij doen als het gaat om het potentieel van een kandidaat en deze voorspellingen naast de werkelijkheid moeten leggen. Het combineren van deze kwaliteitsindicator met de kwantiteitsindicator kan veel inzicht bieden in de effectiviteit van het recruitmentproces.

In de toekomst zullen we meer en meer tijd spenderen aan het analyseren en interpreteren van data. Gelukkig worden de tools die we hiervoor gebruiken ook steeds beter in het leveren van inzichten. Echter moeten wij ons ervan bewust zijn op welke manier data en statistieken ons een verkeerd beeld kunnen geven. Dit kan gedaan worden door gezond verstand, jezelf bewust zijn van veelvoorkomende fouten en het vragen van advies aan experts.

Als laatste kan ik een aantal boeken aanraden die dieper ingaan op misleidende statistieken, dit zijn onder andere:

  1. The Black Swan en Fooled By Randomness van Nassim Taleb
  2. The Goal van Eliyahu Goldratt
  3. Thinking Fast and Slow door Daniel Kahneman


Ook zijn op internet talloze voorbeelden te vinden waarop statistiek ons in de maling neemt, zoals 'Misuse of statistics' en 'Misleading graph'.