You are here

Hoe ga je om met grote hoeveelheden data?

We verzamelen steeds meer data. Maar hoe moet je die gegevens verwerken? Astronoom Marco de Vos, managing director bij Astron, het Nederlands instituut voor radio-sterrenkunde, pleit voor het stellen van een gerichte vraag. door Malini Witlox

Interview met astronoom Marco de Vos

Van de boodschappen die we wekelijks doen in de supermarkt tot ons reisgedrag per trein of auto. Overal wordt data van verzameld. Het begon met megabytes (in één megabyte past een lekker dik boek), liep toen op naar gigabytes (één gigabyte is al gelijk aan vijftig boekenplanken vol romans) en nu verzamelen we terabytes aan data (één terabyte is een goede universiteitsbibliotheek). Hoe ga je om met die grote hoeveelheid informatie en hoe scheid je het kaf van het koren?

Astronoom Marco de Vos, managing director bij Astron, het Nederlands instituut voor radio-sterrenkunde, weet als geen ander in Nederland hoe je dit doet. "Data verzamelen is het probleem niet. Het gaat om de vraag wat je met die gegevens doet. Hoe verwerken en interpreteren we gegevens.”

In zijn vak worden grote hoeveelheden data gegenereerd. Astron exploiteert twee radiotelescopen. De Westerborktelescoop deed het naar verhouding nog rustig aan. Met deze telescoop, gebouwd in 1970, werd een gigabyte informatie per seconde binnengehaald. Allemaal informatie over sterrenstelsels, pulsars en magnetische velden in de kosmos. Uiteindelijk leverde dat na 45 jaar gebruik een paar terabyte aan data op, aldus De Vos.

Met behulp van telescopen worden terabytes aan data over het sterrenstelsel vastgelegd. Zo legde de Kitt Peak telescoop de komeet P21/Giacobini-Zinner vast. N.A.Sharp/NOAO/AURA/NSF

Met de Lofartelescoop, in 2012 in gebruik genomen, gaat het verzamelen van data vele malen sneller. In twee jaar tijd werd er drie Petabyte aan data geworven (Op één petabyte past de inhoud van duizend goede universiteitsbibliotheken). “Het zijn dan nog ruwe gegevens,” aldus de astronoom. De data moet nog bewerkt worden tot de informatie die de onderzoekers nodig hebben.

Er wordt anno 2016 zowel in de wetenschappelijke en commerciële wereld veel data verzameld, maar onderzoekers realiseren zich niet wat nodig is om echte kennis en informatie uit die data te halen, meent De Vos. Dat vraagt om kennis van de context: “Het belangrijkste is dat je weet wat je meet en wat je doet. Je kunt bijvoorbeeld wel data van smartphones gebruiken voor een onderzoek naar rijgedrag, maar dan moet je je wel realiseren dat je met die keuze een hele leeftijdsgeneratie buitensluit. Als je je dat niet beseft, baseer je je conclusie op foute informatie. Je moet fouten herkennen.”

Indikken

De sterrenkundigen van Astron zoeken een bepaald signaal uit het heelal en willen een plaatje maken van het sterrenstelsel. “Allereerst worden storingsfactoren (zoals sterrenstof en polariserende signalen vanaf de aarde) gescheiden van de echte data. Tien procent wordt dan weggegooid, daarna volgt de indikkingsfase waarbij bekeken wordt welke data antwoord geeft op de gerichte vraag van de wetenschappers.”

Die gerichte vraag is essentieel, legt De Vos uit. “Je kunt wel alles verzamelen en meten, maar soms zie je net datgene wat je hebben wilt over het hoofd. Beperk je onderzoek, focus je. En verzamel dan alleen de gegevens die je nodig hebt.” De Lofartelescoop ziet doorlopend de hele hemel op een heleboel frequenties. "Als je een overzichtskaart van de hele hemel wilt maken, dan kijk je naar alle richtingen, maar je middelt de frequenties. “Als je één bepaalde pulsar onderzoekt, dan gooi je gegevens uit alle andere richtingen weg, maar bewaar je wel alle frequenties van die ene plek.”

Met behulp van telescopen worden terabytes aan data over het sterrenstelsel vastgelegd. Iedere sterrenwacht heeft een eigen telescoop. Zo staat in Utrecht de Sonnenborgh. Jordi Huisman, Sonnenborgh – museum & sterrenwacht

Er niet meer bij kunnen

De Vos maakt zich zorgen over de verzamelwoede van onderzoekers als het om data gaat. Van een situatie waarbij bijna geen gegevens werden bewaard, gaan we naar een situatie waarbij iedere bit bewaard wordt. Een kostbare zaak.

“Niet alleen aan serverkosten, maar ook aan onderhoudskosten. We moeten bewust de vraag stellen wat beter is: alles bewaren, of af en toe opnieuw meten. In de loop der jaren heb je te maken met veranderende bestandsformaten, besturingssystemen die gemoderniseerd worden. We kennen genoeg voorbeelden waarbij mensen door conversieproblemen niet meer bij de gewenste bestanden kunnen. Als je oude data bewaart, zul je ook oude computerprogramma’s moeten bewaren of iemand aan moeten stellen die deze conversie van oud naar nieuw kan verzorgen.”

Sommige wetenschappers willen oude data bewaren, bijvoorbeeld omdat een arts de scan van een patient in 2016 wil vergelijken met een scan uit 2000. In de astronomie kijken de wetenschappers echter zelden terug. “Je moet jezelf de vraag stellen, welke informatie heb ik straks nodig. Dat is een lastige vraag, je kunt het niet risicovrij maken. Maar er is ook een compromis. Je hoeft niet alle data direct beschikbaar te hebben. Je kunt het offline opslaan of op een server met langzamere verbindingen. Is het echt zo erg dat ik eens per jaar twintig minuten op informatie moet wachten, die ik zelden gebruik? Belangrijker is dat de data vindbaar is.”

De Vos heeft veel aandacht voor duurzaamheid. Het verzamelen en oneindig bewaren van data zorgt voor energieverspilling. Bij datacenters staan servers continu te draaien. “We moeten verantwoord omgaan met gegevens. Aan het begin van onderzoeksprojecten bedenken wat we willen weten, en computers niet lukraak laten rekenen. Ik pleit voor een low energy supercomputer.”

Dit artikel verscheen eerder op kennislink en is onderdeel van het thema: Big Data
Kennislink-partner voor dit thema is COMMIT/