De missing link bij rekenmodellen

23-10-2017

‘De gebruikte modellen van natuurwetenschappers zijn soms een beetje een zwarte doos: er rolt een getal uit, maar wat er precies van binnen is gebeurd weet je niet’, aldus PhD’er Martine de Vos. Ze ontwikkelde een methode die automatisch een begrijpbare bijsluiter bij een rekenmodel kan geven. door Reineke Maschhaupt

Bij haar vorige baan, het Planbureau voor Leefomgeving (PBL), maakte De Vos met haar collega’s vaak het grapje: stel je voor dat er een van ons morgen onder een tram komt, weten we dan nog wat diegene heeft onderzocht?

De Vos, van huis uit bioloog, zat binnen het PBL in het team dat werkte aan het maken en testen van rekenmodellen – wiskundige berekeningen op de computer - voor onder andere het energieakkoord en klimaatmodellen. Enorm specialistisch werk. De Vos: ‘De onderzoekers weten veel van hun vakgebied, maar zijn niet opgeleid tot software engineers. Ook vergeten ze vaak de stappen te documenteren die hebben geleid tot hun eindresultaat, waardoor het best lastig kan zijn om te zien waar hun uitkomsten vandaan komen als ze er zelf niet zijn om ze toe te lichten.’

‘Ik ben mijn eigen slechte voorbeeld hoor als het gaat om het maken van ondoorzichtige spreadsheets’, grijnst De Vos. ‘In de praktijk is het gewoon heel lastig. Je bent in de eerste instantie bezig met het beantwoorden van je onderzoeksvraag en niet zozeer met het delen van de informatie.’

Virtueel laboratorium
Waarom zijn die rekenmodellen zo moeilijk om te begrijpen? ‘De modellen die natuurwetenschappers gebruiken zijn digitale laboratoria’, legt De Vos uit, ‘een soort denkoefening met de computer. Stel je voor dat je wilt onderzoeken wat er gebeurt als alle bossen in Zuid-Amerika zouden worden gekapt. Je kan dan allemaal dingen bedenken die je meeneemt in je onderzoek: gronderosie, CO2-uitstoot, het veranderde microklimaat en mensen die daardoor weer verhuizen. Het rekenmodel dat daaruit voortkomt is dus de wetenschappelijke kijk op de wereld van die desbetreffende onderzoeker.’

‘Reviewers kijken vervolgens naar de aannames die je gemaakt hebt en of dat wetenschappelijk verantwoord is. Maar dat wetenschappelijke review-proces is bij rekenmodellen heel lastig, en wel net zo belangrijk. En in wetenschappelijke papers is meestal niet genoeg ruimte om alle keuzes uit te leggen. Je hebt eigenlijk nog een soort bijsluiter nodig van de ideeën in het hoofd van de wetenschapper.’

Voorbeeld van een rekenmodel in een spreadsheet

Simpel plaatje
De Vos maakte zo’n bijsluiter: een methode die de modellen automatisch kan interpreteren en ze daardoor beter begrijpbaar en testbaar maakt. Ze richtte zich daarbij op spreadsheets, één van de mogelijkheden om een rekenmodel vorm te geven.

De 'bijsluiter' van Martine de Vos bij een spreadsheet

De Vos: ‘Aan het begin van mijn onderzoek tekende ik een simpele versie van dit plaatje voor mijn professor (zie plaatje hierboven). Ik gebruik hier als voorbeeld het toedienen van mest aan verschillende typen gewassen. Ik wilde een methode ontwikkelen die van een spreadsheet zo’n plaatje kan maken. Uit een spreadsheet komen allerlei getallen, maar wat de onderzoeker precies heeft onderzocht, en welke factoren hij of zij daarin heeft meegenomen wordt op deze manier pas echt duidelijk.’

Vuistregels
Om zo’n plaatje te kunnen maken moet een computer een spreadsheet kunnen interpreteren. ‘Als je als mens naar een spreadsheet kijkt dan zie je de lay-out en de inhoud, en beide dingen vertellen je hoe je de tabel moet begrijpen. Een aanwijzing is bijvoorbeeld hoe de dingen gerangschikt zijn. Als maïs, kool en wortel in een groepje bij elkaar staan, dan hebben ze waarschijnlijk een verband. Als mens zie je dan vrij snel: ‘Oja, dat zijn allemaal gewassen.’ Als er dan kruislings door de tabel allerlei mestsoorten staan dan zie je dat dat waarschijnlijk de mestsoorten zijn die aan de gewassen toegediend worden. Maar een computer weet dat niet, die ziet alleen maar woorden en kent geen achtergrond en betekenis.’

Voor het interpreteren van de lay-out van de tabel stelde De Vos kennisregels, oftewel heuristieken, op. De Vos: ‘Je hebt classificatieregels, die zijn altijd waar. Heuristieken zijn meestal waar, vuistregels dus. Vaak zijn dat dingen die voor mensen heel vanzelfsprekend zijn.’

Woordenboek
Daarnaast heeft een computer achtergrondkennis nodig. Hij moet weten wat wortels, maïs en kool zijn. En dat al die dingen op een rijtje mestsoorten zijn. Om dat de computer aan te leren gebruikte De Vos ontologieën. Ontologieën zijn een soort woordenboeken van vakkennis die naast de betekenis ook aangeven hoe woorden hiërarchisch geordend zijn. Dus: maïs en wortel zijn beide groenten. Een ontologie kan daarnaast ook informatie bevatten over de eigenschappen van dingen. Dus: een wortel bestaat uit de hoofdwortel, wortelharen en het loof. Er bestaan ontologieën met vakkennis uit bepaalde wetenschapsdomeinen, bijvoorbeeld milieukunde, en ontologieën met meer de generieke kennis, zoals over de eenheden en grootheden die gebruikt worden in de natuurwetenschappen.

De Vos programmeerde de gevonden heuristieken en koppelde die aan de ontologieën. ‘Als je een geschikte ontologie gebruikt, krijg je uit mijn methode een overzicht van waar de spreadsheet zo ongeveer over gaat. Het is wel afhankelijk van de spreadsheet in kwestie in hoeverre die geïnterpreteerd kan worden. Maar ook als de spreadsheettabel niet zo compleet is dan nog kan mijn methode veel aanvullende informatie afleiden en een redelijk beeld vormen van wat de wetenschapper in kwestie in zijn hoofd heeft gehad.’

‘Uit mijn onderzoek is – als bonus - ook een set van richtlijnen gekomen. Als je als wetenschappers deze richtlijnen volgt bij het ontwikkelen van een spreadsheet, dan ben je al een heel eind in het expliciet maken van wat je precies in je hoofd had. Door het overzicht van de spreadsheet beschikbaar te stellen als linked data is alles vervolgens ook goed te vinden op het internet en te gebruiken door andere onderzoekers.’

Minieme verschillen
‘Wat ik zou willen is dat de wetenschappers die die rekenmodellen maken praten over wetenschap en niet over technologie. Er bestaan speciale bijeenkomsten voor modelleurs waar verschillende teams werken aan dezelfde onderzoeksvraag. Ze laten daar dan hun eigen rekenmodellen op los. Vervolgens gaat de discussie over de minieme verschillen die ze eruit krijgen. De aandacht van hoe je die rekenmodellen maakt moet verlegd worden naar de vragen die erachter liggen. Dus: waarom betrek jij de poolkappen wel in je onderzoek en jij niet? En niet: waarom krijg jij er 49 en jij er 50 uit? Maar om te weten wat je buurman gedaan heeft moet je in elkaars programmeercode zitten kijken. Dat is niet te begrijpen.’

‘Ik zou dus willen dat je die kennis makkelijker kan delen en samen aan die kennisbasis kan bouwen. Dat hebben we nodig om de milieuproblemen op te lossen. Mijn methode zou kunnen fungeren als missing link tussen het rapport en de spreadsheet. Dan kunnen die modelleurs vooral doen waar ze goed in zijn in plaats van tijd te verkwisten aan te ingewikkelde software.’

De wereld verder helpen
Bij het eScience Center gaat De Vos als e-science research engineer verder met het helpen van wetenschappers op technisch gebied. ‘Ik vind én data-analyse, én programmeren, én schrijven leuk. Dus dit is de perfecte baan voor me’, lacht De Vos. ‘Bij het eScience Center ga ik daar mee door, maar dan met iets meer toegepast onderzoek. Uiteindelijk wil ik het milieu en de wereld verder helpen. Voor mij is technologie een middel en niet een doel.’

Martine de Vos studeerde Biology and Environmental Science aan de Universiteit Wageningen. Op 26 oktober 2017 hoopt ze aan de Vrije Universiteit te promoveren met het proefschrift ‘Interpreting natural science spreadsheets’. Haar onderzoek werd gefinancierd door Commit, binnen het project Data2Semantics.

Description

a Public-private ICT research community

You are here

De missing link bij rekenmodellen

Search form

You are here

De missing link bij rekenmodellen

Deel deze pagina