You are here

Computers leren kijken

Zelfrijdende auto's die uitwijken voor een mens, maar niet voor een rondvliegend zakje, vertaalapps die de buitenlandse menukaart met een druk op de knop vertalen en in hetzelfde lettertype weergeven, zorgrobots die niet te hard knijpen in het plastic bekertje dat ze aan de patiënt overhandigen; het wordt steeds belangrijker dat computers net als mensen hun omgeving begrijpen. Daarvoor moeten ze goed kunnen zien. Sezer Karaoglu leert computers kijken. Door Edda Heinsman

Een app vertaalt automatisch wat er staat en geeft dat weer in hetzelfde lettertype als de bron. Ontzettend handig in het buitenland, voor menukaarten, borden langs de weg of de ingrediëntenlijst op een product in de supermarkt. Afbeelding door Alex Heath/Cult of Mac

Zien doe je zonder er bij na te denken. Je ziet diepte, gebruikt verschillende zintuigen, herkent dingen en plaatst ze in een context. Wat eenvoudig is voor een mens, is echter niet eenvoudig voor een machine. 'Maar dat duurt niet lang meer!' zegt Karaoglu enthousiast. 'Overal om je heen wordt al gebruik gemaakt van kunstmatige intelligentie. Dit is de gouden eeuw voor computer vision en objectherkenning en ik ben trots om daar deel van uit te maken.'
Om objecten te herkennen en lokaliseren, ging Karaoglu uit van hoe mensen kijken. 'Het menselijk gezichtsvermogen begint met licht. Uit dat licht haal je heel veel informatie. Niet alleen de kleur van een object, maar bijvoorbeeld ook hoe glimmend iets is, zegt iets over het materiaal. Dat is zeer nuttig. Niemand leert dat bewust, het is iets dat je door te proberen ontdekt. Elke keer dat je een object aanraakt en er tegelijk naar kijkt, pikt je brein dat op.'

Lichtbron
Schaduwen gooien roet in het eten, de donkere vlekken maken het lastiger voor een computer om een object te herkennen. Om die schaduwen goed weg te halen, is het belangrijk om de exacte positie van de lichtbron te weten. Karaoglu liet de computer heel veel afbeeldingen bekijken, elke afbeelding automatisch opdelen in segmenten, en van elk segment berekenen hoe belangrijk het was voor het bepalen van de locatie van de lichtbron. 'Het opdelen in segmenten en daar waarde aan hechten, was echt een gouden greep!' aldus Karaoglu. Dankzij de opdeling in segmenten kon hij de locatie van de lichtbron nauwkeuriger schatten, de foutenmarge ging van 12,9 graden naar 7,1.

Maar het kan nog beter. Vaak heb je meerdere beelden van een zelfde scène, denk maar aan meerdere vakantiekiekjes van een bijzonder kasteel, of frames van een video. Kon Karaoglu hier gebruik van maken om de locatie van de lichtbron nog beter te bepalen? 'We namen aan dat de positie van de lichtbron gelijk blijft, maar dat de afstand van de camera tot het object kon veranderen. Door meerdere afbeeldingen te gebruiken konden we de fout zelfs terugbrengen naar 6 graden.'

Beeldzoekmachine
Voor zijn onderzoek keek Karaoglu niet alleen naar schaduwen en lichtbronnen. Veel objectherkenningssoftware is goed in het vinden van één ding, bijvoorbeeld paarden, voetgangers of auto's. Die software pikt in een bepaalde dataset keurig alle auto's, paarden of voetgangers er uit. Maar heb je een andere dataset, dan werken ze een stuk minder goed. Karaoglu werkte aan een overkoepelende zoekmachine die verschillende beeldzoekmachines combineert. 'Zo kun je ook meteen meer zekerheid geven over je resultaat. Als alle vier de machines een voetganger als voetganger herkennen, kun je er wel van uit gaan dat je er een te pakken hebt.'

Op zoek naar de lichtbron in een afbeelding. Zelfs in deze 23 duizend jaar oude afbeelding uit de grotten van Lascaux, is iets te zeggen over waar de lichtbron zich bevindt.

Karaoglu heeft zijn zoekmachine ook geleerd naar tekst in afbeeldingen te kijken. 'Een wasserette en een restaurant kunnen er aan de buitenkant hetzelfde uitzien, je hebt echt tekst nodig om te begrijpen wat er gebeurt. Tekst en logo's toevoegen aan de zoekmachine lijkt nog een behoorlijke uitdaging, toch zijn we al een behoorlijk eind op weg.' Karaoglu's doel is de zoekmachine uiteindelijk publiek toegankelijk te maken. 'We krijgen steeds betere resultaten, hopelijk uiteindelijk 100%'.

Zoekmachines voor afbeelding worden beter waneer in de afbeelding wordt gezocht op tekst.

Familie
Karaoglu kwam al voor zijn master-onderzoek naar de UvA, naar het Intelligent Systems Laboratory Amsterdam (ISLA). 'Ik wilde per se onderzoek doen op de beste plek. De laatste vijf jaar wint de UvA alle wedstrijden op het gebied van object classificatie, waar ook grote jongens als Google aan meedoen. Het ISLA is wereldwijd een van de beste groepen, ik was ontzettend blij dat ik hier aangenomen werd.'
Theo Gevers begeleidde Karaoglu zowel bij zijn master- als zijn promotie-onderzoek. 'Theo was meer dan een supervisor, het voelt als familie. Een persoon waar ik altijd terecht kan, voor goede inhoudelijke discussies maar ook voor inspiratie. Ik kan hem niet genoeg bedanken.'

3DUniversum
Inmiddels is Gevers niet meer Karaoglu’s begeleider, maar zijn collega. Ze richtten samen het bedrijf 3DUniversum op. 'Het idee ontstond in 2014 toen we op een conferentie in Barcelona waren. Met een cocktail in de hand lagen we op het strand te brainstormen over hoe we 3Dscanning kunnen gebruiken in combinatie met onze eigen expertise op het gebied van objectherkenning.'
Het resultaat is een bedrijf dat nuttige tools maakt, waardoor consumenten zelf kunnen 3Dscannen. Zo werkt Karaoglu aan een app waarmee je brillen kunt uitproberen op een virtueel 3Dmodel van je eigen gezicht. Verder werken ze aan een functie waarmee je heel eenvoudig uit kunt testen of die nieuwe bank leuk zou staan in je woonkamer, en aan een app voor artsen, om eenvoudig op afstand het genezingsproces van wonden te kunnen volgen. 'Er zijn meer systemen op de markt die iets dergelijks aanbieden, maar wij zijn fotorealistisch. Bovendien zijn we heel goed in het detecteren van bepaalde kenmerken, zoals bijvoorbeeld de afstand tussen de ogen. Dat is belangrijk wanneer je  een goede passende bril zoekt.'


Eenvoudig en goedkoop 3D-scannen.

3D-scanners klinken misschien als ingewikkelde apparaten, niet zomaar toegankelijk voor de dagelijkse consument. 'Dat valt mee', aldus Karaoglu. 'Je hebt alleen een afstandssensor nodig. Die zitten al op Intel-laptops en tablets en diverse smartphones.' Karaoglu demonstreert hoe eenvoudig het is om met zijn tablet een persoon te 3D scannen. Je staat stil en Karaoglu loopt om je heen zodat de tablet je van alle kanten in beeld brengt. In minder dan een minuut is het gepiept. 'Je hebt alleen onze -voornamelijk gratis- software nodig. Vervolgens kun je jezelf van alle kanten bekijken, en virtueel diverse modellen brillen uitproberen.' De software lijkt prima te functioneren. Duurt het nog lang voor iedereen thuis aan de slag kan? 'Niet heel lang meer, het scannen van woningen en inrichtingen kan al!'

COMMIT/project: INFINITI (Information retrieval for information services)
Ook dit is een COMMIT/project

Sezer Karaoglu (1985) haalde zijn bachelor telecommunication engineering aan de Istanbul Technical University. Hij deed een dubbele master; de optics, image and vision master aan de Universite Jean Monet (Frankrijk) en de Media technology master aan het Gjovik University College (Noorwegen). Voor zijn master kwam hij naar het Intelligent Systems Laboratory Amsterdam (ISLA). Hij is hier gepromoveerd met het proefschrift 'Recognition and detection of objects using visual and textual cues'. Zijn onderzoek werd deels gefinancierd door Commit.