You are here

Ditto maakt automatisch een samenvatting van je dataset

 

Om een idee te krijgen over de inhoud van een boek kan je op de achterkant de samenvatting lezen. Voor de meeste datasets bestaat zo’n samenvatting helaas niet en is het ook niet eenvoudig om deze te maken. Roel Bertens, promovendus aan de Universiteit Utrecht, zocht naar een manier om een goede samenvatting van een dataset te maken en kwam met Ditto.

Roel Bertens, onderzoeker binnen het COMMIT/project TimeTrails, gaat in augustus naar San Fransisco om Ditto op de Conference on Knowledge Discovery and Data Mining (KDD) te presenteren.

Bertens heeft zijn hersenen flink moeten laten kraken. Want de optie om een dataset samen te vatten door middel van alle frequente patronen gaf een veel te grote samenvatting. Het selecteren van alleen de interessante patronen uit deze enorme set was niet simpel, want hoe bepaal je welke patronen betekenisvol zijn?

Uiteindelijk kwam hij tot Ditto, een algoritme dat automatisch een kleine verzameling van karakteristieke patronen vindt voor je dataset. Een goede samenvatting dus.

Met zulke samenvattingen krijg je snel een beter beeld van de inhoud van je datasets. Hierdoor heb je meer tijd om alleen de meest interessante datasets verder te onderzoeken. Net zoals je samenvattingen gebruikt om de boeken te kiezen de je zou willen lezen.

Waarom heeft de wereld Ditto nodig?

Bertens: ‘Ditto kan worden gebruikt voor anomaly detection. Simpel gezegd is dit het vinden van afwijkingen in je datasets. Omdat Ditto je een samenvatting van je dataset geeft kan je deze gebruiken om te meten hoe goed elk stukje van je dataset op deze samenvatting lijkt. De stukjes die het meest afwijken zijn het meest onverwacht. Dit zijn waarschijnlijk de anomalies, de afwijkingen.’

Heb je hier een voorbeeld van?

‘Je kan denken aan het voorspellen en beschrijven van storingen in machines door middel van de continue beschikbare sensor data. Deze sensoren meten bijvoorbeeld de temperatuur en het stroomverbruik van de machine voor elk punt in de tijd. Met Ditto bouwen we eerst een samenvatting voor deze data wanneer de machine goed werkt en deze kunnen we daarna gebruiken om afwijkingen in de data te vinden. Deze afwijkingen zijn meestal een goede indicatie voor een storing of andere fout.’

Hoe ben je tot Ditto gekomen?

‘Er waren al soortgelijke algoritmes voor andere soort data, maar nog niet voor multivariate sequences. Dat is bijvoorbeeld data waar meerdere sensoren tegelijkertijd data verzamelen. Met Ditto kan je nu ook patronen vinden die de relatie tussen deze sensoren beschrijven. In anomaly detection kan dit bijvoorbeeld van belang zijn wanneer een storing vooraf gegaan wordt door een samenspel van de meetwaarden van meerdere sensoren tegelijkertijd. In de context van het eerdere voorbeeld is bijvoorbeeld een stijging van alleen temperatuur of stroomverbruik misschien nog niet bijzonder, maar wanneer beide tegelijk flink stijgen is er wel echt iets mis.'

En wie gaan er van Ditto profiteren?

'Aangezien er tegenwoordig overal flinke hoeveelheden data worden verzameld, waarvan ook een flink deel als multivariate sequences kan worden gezien, zijn er enorm veel mogelijkheden. Naast het bieden van inzicht en het vinden van anomalies kunnen de samenvattingen ook voor bijvoorbeeld clustering (groeperen van soortgelijke data) en classificatie (indelen in vooraf bekende groepen) gebruikt worden.'

Bekijk hier de film over Ditto. Met genoeg views maakt Bertens kans dat de film voor de hele conferentie in San Francisco wordt vertoond!