You are here

De diepste geheimen van het deep web

Wanneer een onderzoeksjournalist echt alles te weten wil komen over een persoon, of de belastingdienst achter een bedrijf aan zit en elk document boven water wil krijgen, is een simpele zoekopdracht op Google niet genoeg. Dan moet je gaan zoeken op het deep web. Maar hoe haal je informatie uit die enorme berg data? Promovendus Mohammadreza Khelghati bouwde een oogstmachine: HarvestED. Door Edda Heinsman

Donderdag 2 juni 2016 om 12.40 uur. Over precies vijf minuten zal Mohammadreza Khelghati zijn proefschrift verdedigen voor de promotiecommissie. Iedereen is aanwezig, vrienden, familie, zelfs zijn ouders uit Iran. En dan klinkt plots het alarm in het Waaier gebouw van Universiteit Twente en moet iedereen de zaal verlaten...

Inmiddels kan Khelghati er om lachen. 'Uiteindelijk bleek het om een mislukt experiment in een van de labs te gaan, niks serieus. Maar ik was op dat moment best nerveus!' Een kwartier later dan gepland kon zijn verdediging alsnog doorgaan. 'Na de eerste vraag kwam ik wel in de stemming. Er werden pittige vragen gesteld maar ik kon overal goed op antwoorden, de commissie was zeer tevreden. En vervolgens natuurlijk de ontlading op het feest met iedereen erbij en heel veel cadeaus. Dat was geweldig, het was echt een bijzondere dag.'

Deep versus dark web

Khelghati promoveerde op het ontsluiten van informatie vanuit het deep web, niet te verwarren met het dark web. Op het deep web staat informatie waar zoekmachines geen toegang tot hebben. Niet omdat er slimme technieken zijn gebruikt om toegang af te schermen, zoals bij het dark web het geval is. Bij het dark web gaat het om informatie die uit crimineel of juist veiligheidsoogpunt geheim gehouden wordt. De informatie op het deep web is publiek toegankelijk. Veel organisaties hebben databases vol informatie waarvoor je om toegang te verkrijgen een online formulier moet invullen (webform). Zoekmachines kunnen hier niet eenvoudig bij, en ze kijken alleen naar geïndexeerde webpagina's. 'Vandaar dat een zoekmachine als google slechts het topje van de ijsberg bekijkt. Het deep web is nog wel minstens vier keer groter', aldus Khelghati.

Voor veel zoekopdrachten op internet is zo'n uitgebreide zoektocht ook niet nodig. Zoekmachines als Bing, Yahoo! en Google leveren in minder dan een seconde duizenden of miljoenen resultaten. En toch is er behoefte om dieper te gaan, niet alleen voor de onderzoeksjournalist en belastinginspecteur. 'We hebben bijvoorbeeld voor een vacature-site waar ze een zo compleet mogelijk overzicht willen geven van de beschikbare banen, gezocht op openstaande vacatures. Alles is mogelijk', aldus Khelghati.

Slimmer mechanisme

Er bestaan andere machines die het diepe web doorzoeken. 'Wij presteren minstens net zo goed als hen', zegt Khelghati trots. 'Maar wij zoeken slimmer. We gebruiken een query generation mechanisme, een soort geautomatiseerde manier van vragen stellen aan databases. Commerciële programma's hebben wel een mooie gebruikers interface maar zijn niet zo slim als ons systeem. Wij gebruiken verschillende mechanismes om informatie te oogsten, zij maar één.'

Khelghati noemt zijn 'oogst'-systeem voor diepe data HarvestED, maar is niet zeker of die naam ook gebruikt zal worden voor het uiteindelijke product. 'De rest van de groep gaat verder om de tool gebruiksvriendelijker en meer compleet te maken. We zitten nog in de onderzoeksfase, maar als het goed is duurt het niet lang meer voor het systeem voor iedereen bruikbaar is.'

Iraans netwerk

Als hij terugkijkt op zijn promotietraject vindt Khelghati dat hij een mooie tijd heeft gehad waarin hij veel leerde. 'Eerst kijk je afwachtend naar een ander om te horen wat je moet doen. Uiteindelijk ben jij degene die zegt wat er moet gebeuren en hoe dat moet. Je wordt een meer onafhankelijke denker.'

In het begin maakte hij zich wel zorgen. 'Enschede ligt zo ver van alles, van grote steden in Duitsland en Nederland, was ik hier wel op mijn plek? Maar ik zat in een geweldige onderzoeksgroep en al gauw leerde ik de mensen kennen, maakte ik vrienden. Het hielp dat ik erg actief was buiten het onderzoek om, ik zette binnen de universiteit een Iraans netwerk op (IrNUT) en raakte betrokken bij P-nut, het promovendi netwerk. Dat zou ik echt als tip willen meegeven aan andere onderzoekers: zorg dat je ook activiteiten buiten het onderzoek om blijft doen. Dat maakt het leven een stuk leuker. Anders kijk je na 4 jaar terug op een tijd van alleen papers schrijven.'

Inmiddels werkt Khelghati bij Deloitte. 'Het grootste verschil is de snelheid, het liefst hebben ze hier dat je een opdracht gister klaar had', lacht hij. 'Op de universiteit werk je lang aan een onderwerp, vier jaar maar liefst, daardoor is het soms lastiger om geïnspireerd en gemotiveerd te blijven. Hier werk je een a twee maanden aan een probleem.' Toch ziet Khelghati overlap en sluit hij een toekomst in de wetenschap niet uit. 'Zo veel verschil is er ook weer niet. Ik werk nog steeds met Big Data, doe nog steeds onderzoek. Misschien is het juist goed voor een carriere in de wetenschap om ook te weten hoe het er in het bedrijfsleven aan toe gaat.

Mohammadreza Khelghati (1985) haalde zijn bachelor computer science aan de IASBS University (Iran) en ging voor zijn master Engineering and Management of Information Systems Program naar de KTH University (Zweden). Zijn master onderzoek deed hij aan het I5 Institute van de RWTH Universiteit (Duitsland). December 2011 begon hij zijn promotieonderzoek aan de Universiteit Twente. 2 juni 2016 promoveerde hij daar met het proefschrift Deep web content monitoring. Zijn onderzoek werd deels gefinancierd door Commit, binnen het project INFINITI.