You are here

Chocola, de Nobelprijs en statistiek

Hoe meer data, hoe lastiger het voor een onderzoeker is om oorzaak en gevolg te herkennen. Promotiestudent Sara Magliacane ontwikkelde methodes om de computer causale verbanden te leren herkennen. Zo komt de ‘Holy Grail’ van haar onderzoeksveld - ‘het volledig automatiseren van het statistische gedeelte van de wetenschap’ - steeds dichterbij. door Reineke Maschhaupt

‘Het vinden van causale verbanden ligt aan de basis van de wetenschap’, zo begint Sara Magliacane de samenvatting van haar thesis. Als je de causale verbanden tussen variabelen kent, dan kun je de verschillende acties in een systeem gaan voorspellen.

De Italiaanse Magliacane studeerde cum laude af in Computer Engineering in Milaan en Turijn. Tijdens haar promotie aan de Vrije Universiteit van Amsterdam bewoog ze toch weer een beetje in de richting haar oude liefde wiskunde. Magliacane: ‘Het onderwerp van causale verbanden gaat over het begrijpen van de wereld, dat vind ik toch interessanter dan computer engineering, waar het vooral gaat over een praktische oplossing vinden voor een probleem.’

Proteïne-kettingen
Voor haar onderzoek werkte Magliacane met datasets uit biologische experimenten, waarin biologen kijken hoe een cel op verschillende stoffen reageert. Magliacane: ‘Een cel communiceert met andere cellen door chemische stoffen uit te wisselen, geholpen door verschillende eiwitten. Biologen proberen uit te vinden hoe deze reacties precies in elkaar zitten door elke keer iets te veranderen aan een cel. Ze voegen een chemische stof toe en kijken dan wat er gebeurt.’

Magliacane: ‘Bij een grote hoeveelheid data is het menselijk brein niet in staat om alle causale verbanden tussen deze cellen en de chemische stofjes te zien. Door een algoritme op de data los te laten komen er andere causale verbanden naar boven. Deze automatische methode kan de menselijke geest zeker nog niet vervangen, maar kan wel verbanden vinden die niet zo aan de oppervlakte liggen.’

Voorouderrelaties
Magliacane ontwikkelde een nieuwe techniek die gebruik maakt van voorouderrelaties, variabelen die een indirect causaal verband hebben met elkaar. Je gebruikt bijvoorbeeld de volgende variabelen: door het ijs zakken – verkouden worden – niezen. ‘Door het ijs zakken’ veroorzaakt ‘verkouden worden’ en ‘verkouden worden’ veroorzaakt ‘niezen. Dan hebben de variabelen ‘door het ijs zakken’ en ‘niezen’ een indirect causaal verband met elkaar, een voorouderrelatie. De methode heet daarom de Ancestral Causal Inference (ACI).

Magliacane: ‘Omdat deze methode uit alle data alleen deze voorouderrelaties gebruikt is hij een stuk sneller. Met hetzelfde aantal variabelen is hij 1000 keer sneller dan de oude methodes. En met meer variabelen gaat de snelheid exponentieel omhoog.’

De verborgen factor
Knap aan deze methode is dat hij kan omgaan met een ‘verborgen factor’, een variabele die van invloed is op andere variabelen, maar niet voorkomt in de data. Magliacane zit vol met voorbeelden om haar redelijk abstracte onderzoek uit te leggen. ‘Ik moet wel’, zegt ze lachend, ‘het probleem van PhD studenten is dat meestal alleen die drie mensen met wie je samenwerkt echt snappen wat je aan het doen bent. Eén van de valkuilen binnen de statistiek is het door elkaar halen van correlatie en causaliteit. Zo bestaat er een correlatie tussen de hoeveelheid Nobelprijswinnaars in een land en de hoeveelheid chocolade die ze daar eten. Het feit dat die twee een correlatie hebben, betekent niet automatisch dat ze een causaal verband hebben, want het helpt natuurlijk niet als mensen in een land meer chocola gaan eten om meer Nobelprijswinnaars te produceren. Als je weet dat er iets moet zijn dat beide dingen veroorzaakt, maar je weet nog niet wat, dan heb je te maken met een verborgen factor. Ondanks dat de ACI-methode niet weet welke verborgen factor de andere variabelen beïnvloedt, kan hij nog steeds de juiste causale verbanden aanwijzen.’

Bron: https://xkcd.com/552/

Minder experimenteren
‘Het klassieke model van onderzoek doen is experimenteren. Galileo die een steen en een veer van een toren gooit om te kijken hoe ze vallen. In het biologische onderzoek is dat een chemische stofje toevoegen en dan kijken hoe dat de cel beïnvloedt. De ACI-methode maakt gebruik van deze veranderingen – interventies – die aan de data worden toegevoegd. Maar biologisch onderzoek naar cellen is tijdroven en duur. En er zijn simpelweg zoveel verschillende mogelijkheden dat je ze nooit allemaal kan uitproberen. Daarnaast kan het in sommige onderzoeken ook onethisch zijn om te veel veranderingen aan te brengen in de variabelen. Denk aan onderzoek naar medicijnen. Je kunt niet alle mogelijke varianten of hoeveelheden van een bepaald medicijn aan mensen toedienen om te kijken wat het beste werkt. We wilden dus een methode ontwikkelen die met minder interventies toch evenveel causale verbanden kan vinden.’

Uitslag van de ACI-methode van de werking van de chemische stoffen die toegevoegd zijn aan de cellen. Groen geeft aan dat er wel en rood geeft aan dat er geen causale verbanden tussen die twee stoffen bestaan.

Magliacane en haar mede-onderzoekers kwamen met de Joint Causal Inference (JCI), die ook goed werkt met minder interventies. Waar het ACI-algoritme alleen de voorouderrelaties gebruikt, gebruikt het JCI-algoritme alle data uit het experiment, vandaar ook de naam ‘joint causal inference’. En hij kan verschillende datasets met elkaar combineren. Deze methode is iets langzamer, maar vindt meer causale verbanden dan de ACI-methode en geeft meer zekerheid over de gevonden conclusie.

De JCI-methode kan meerdere datasets met elkaar integreren.

Wantrouwend
Dat klinkt allemaal veelbelovend, maar vooralsnog storten biologen zich nog niet massaal op deze methodes. Magliacane: ‘Veel biologen hebben nog te weinig vertrouwen in het automatiseren van statistiek in hun onderzoek. Soms kunnen we met bepaalde data zeggen dat de uitkomst voor 80 procent betrouwbaar is, maar zij willen 100 procent betrouwbaarheid. Veel methodes kunnen nog verbeterd worden. Daar werken we hard aan.‘

‘In het wetenschappelijke werkveld van statistici zijn deze methodes wel iets meer geaccepteerd. Inmiddels passen we al meer dan twintig jaar dit soort methodes toe op data en heel langzaam beginnen wetenschappers in andere werkvelden er iets meer vertrouwen in te krijgen. Zo loopt er nu een onderzoek binnen de sociale wetenschappen met deze methodes. Een collega kijkt nu naar het causale verband tussen AD (attention deficiency) en HD (hyperactivity disorder).’

En wat is nou die ‘verborgen factor’ in het onderzoek naar chocola en Nobelprijswinnaars? Het meest waarschijnlijke antwoord is volgens Magliacane welvaart. In een land met veel welvaart eten mensen meer chocola en is het opleidingsniveau hoger, zodat ze meer Nobelprijswinnaars voortbrengen. ‘Maar’, zegt ze lachend, ‘er is nog geen onderzoek gedaan in hoeverre het eten van chocola bijdraagt aan het winnen van de Nobelprijs, dus laten we dat nog niet helemaal uitsluiten.’

Op 12 juni 2017 promoveerde Sara Magliacane aan de Vrije Universiteit Amsterdam met het proefschrift ‘Logics for causal inference under uncertainty’. Daarnaast doet ze onderzoek aan de Universiteit van Amsterdam bij de Causality Amsterdam group. Tijdens haar PhD liep ze stage bij Google Zurich en Google Research New York. Ze is nu in gesprek met verschillende bedrijven om verder aan de slag te gaan met haar methodes. Haar PhD onderzoek werd gefinancierd door Commit, binnen het project Data2Semantics.