You are here

De fist bump en high five herkennen in videobeelden

Geeft iemand een fist bump of is hij toch stiekem drugs aan het dealen? Coert van Gemeren houdt zich bezig met automatische detectie van handelingen in videobeelden. door Edda Heinsman

Even goed opletten bij binnenkomst, wat voor handdruk geeft Coert van Gemeren zelf? Lachend schudt hij de hand en geeft toe dat hij daar eigenlijk niet mee bezig is. En dat terwijl hij toch de afgelopen vier jaar onderzoek heeft gedaan naar menselijke interacties.

Dementie 
Waar komt zijn interesse voor handenschudden vandaan? Van Gemeren: 'Het begon met mijn interesse in computer vision; automatisch afbeeldingen bekijken en objecten herkennen. Dat is niet eenvoudig. Het hangt bijvoorbeeld af van welke kant de foto is genomen: een auto ziet er van de voorkant heel anders uit dan van de achterkant. Camerastandpunt, schaduw, licht, het maakt allemaal uit voor het herkennen van objecten. Ik wilde hetzelfde doen, maar dan voor video. Het leek me nuttig en interessant om naar beelden van verzorgingsinstellingen te kijken. Personeel daar kan niet 24 uur per dag alles in de gaten houden. Mijn idee was om bij mensen met dementie niet wenselijk gedrag te herkennen, zoals het geven van een duw. Bij dit soort voorvallen gaat het meestal om interacties tussen twee mensen, dus ging ik daar het eerst mee aan de slag. Kun je uit een berg video de interacties tussen twee mensen halen?

Het bleek lastig die privé-data te verkrijgen. Dus moest Van Gemeren zelf aan de slag. Hij liet 32 studenten elkaar 112 keer ontmoeten en daarbij een handeling uitvoeren: een hand geven, een fistbump, high fiven, enzovoorts. Deze handelingen filmde hij met de kinect, een soort dieptecamera waarmee niet alleen videobeelden worden gemaakt, maar ook de afstanden tot hetgeen je vastlegt worden opgeslagen.  

Data verzamelen van menselijke interacties: handen schudden, iets doorgeven, 'fist bump'.

Van Gemeren deelde de video's op in frames, losse plaatjes. Vervolgens deelde hij elk frame op in kaders en keek hij binnen de kaders naar het contrast. Zo leerde hij herkennen waar in het plaatje iemands hoofd, schouders, armen en handen zich bevonden. 'Stap één geslaagd', aldus Van Gemeren. 'Maar op een stilstaande afbeelding lijkt een hand schudden heel erg op het geven van een fistbump. Terwijl als je de beweging ziet het verschil meteen duidelijk is. We moesten beweging dus ook meenemen: naar een sequentie van afbeeldingen kijken.'

Door het combineren van informatie over positie van lichaamsdelen en beweging ontstaat een specifieke signatuur die typisch is voor een handeling.

Door alle opnames van het geven van een hand over elkaar te leggen, ontstond er een bepaald patroon. 'Het bleek dat elke aparte handeling zijn eigen signatuur heeft. Als je beweging meeneemt, dus kijkt naar ruimte én tijd, is het onderscheid tussen een hand schudden en een fistbump geven heel goed te maken.' Van Gemeren testte zijn bewegingsherkenningssoftware op andere datasets en het bleek goed te werken. 'De software filterde bijna alle interacties uit de beelden. Er zaten ook wel onjuiste interacties bij, maar die kregen een lagere betrouwbaarheidsscore. Ik ben heel tevreden met de resultaten.'

Van Gemerens herkenningssoftware herkent de geleerde handelingen in andere datasets.

Bewakingscamera
Lukt het ook om in willekeurige youtube video's het schudden van een hand te herkennen, of het verschil te zien op een bewakingscamera tussen een vriendschappelijke groet en het dealen van drugs? 'Helaas, dat is nog lastig. Onze software is getraind op beeldmateriaal van goede kwaliteit met twee mensen voor een rustige achtergrond. Veel youtubebeelden zijn echter of van mindere kwaliteit, of er gebeurt te veel op de achtergrond, zoals mensen die door het beeld lopen.'

Om zijn model te verbeteren, en beter te worden in het herkennen van houdingen die het menselijk lichaam aan kan nemen, voerde Van Gemeren zijn systeem met een grote dataset van veertigduizend afbeeldingen van mensen in de meest uiteenlopende posities. 'We hadden slechts 112 eigen gemaakte video's om te analyseren, door deze enorme dataset toe te voegen hoopten we het algoritme beter te maken. Dat bleek echter lastig, de software werd niet superveel beter.' Met een zucht geeft hij toe: 'Maar dat iets niet werkt zoals je zou willen, is op zich ook een resultaat.'

Denken
Van Gemeren begon zijn wetenschappelijke loopbaan met de studie Cognitieve kunstmatige intelligentie aan de filosofie faculteit in Utrecht. 'Het was een hele brede studie. We kregen uiteenlopende vakken: psychologie, taalkunde, wijsbegeerte en informatica. Ik vond vooral het vraagstuk: wat is denken? interessant. En in het verlengde daarvan: Kunnen computers denken? Het is voor mij een wisselwerking, je leert door te kijken naar een computer ook beter hoe mensen denken, en andersom. Toen ik in aanraking kwam met computer vision was ik meteen geprikkeld: hier gebeurt iets wat mij echt interesseert. Visuele perceptie, wat betekent 'zien' voor mensen? Het is een rode draad die nog steeds door mijn onderzoek loopt.'

Coert van Gemeren (1979) haalde zijn bachelor en master Cognitieve kunstmatige intelligentie aan de Universiteit Utrecht. 2013 begon hij daar aan zijn promotieonderzoek en begin 2018 hoopt hij te promoveren. Zijn onderzoek werd gefinancierd door Commit, binnen het project VIEWW.