Slim algoritme leert van YouTube-filmpjes

Machine learning experts gebruiken ‘how-to’ filmpjes op YouTube om software te laten leren

Door – Sjoerd Wierenga

Machine learning

Bij machine learning worden algoritmen ontwikkeld die in staat zijn om complexe patronen te vinden in enorme hoeveelheden data. We vinden ze terug bij zelfrijdende auto’s, de zoekresultaten van Google en vele andere applicaties. De populariteit van machine learning neemt toe, vanwege de mogelijkheden om aan de toenemende hoeveelheid data zinnige informatie te onttrekken. Ook het feit dat de rekencapaciteit van computers toeneemt maakt de toepassing van machine learning steeds toegankelijker.

‘How to’ filmpjes

Het idee dat de onderzoekers van dit onderzoek hadden was vrij rechtlijnig: het gebruiken van ‘how to’ filmpjes op YouTube om een slim algoritme de stappen te leren voor verschillende handelingen. Er wordt gebruik gemaakt van dergelijke ‘how to’ filmpjes omdat deze vaak een bepaalde logica bevatten: een introductie, een aantal te volgen stappen en het eindresultaat. Hierbij kan je denken aan het koken van het perfecte ei, het bakken van je biefstuk of het strikken van een strikje.

Het laatste voorbeeld is te vertalen naar de zoekopdracht: ‘how to tie a bowtie’. Wanneer deze opdracht wordt ingevoerd in YouTube resulteert dit in 231.000 resultaten. Niet alle resultaten zijn hierbij relevant, maar een heel aanzienlijk aantal wel. Meer dan voldoende om het algoritme mee te ‘voeden’.

Ontleden van filmpjes

Het algoritme is zo ontworpen dat het de filmpjes ontleedt in visuele en auditieve deeltjes, ‘atomen’ genoemd. Om dit te organiseren worden de filmpjes opgedeeld in losse frames, waarbij objectherkenning wordt toegepast om te duiden wat zich precies in elk frame afspeelt. De auditieve ‘atomen’ ontstaan niet door het daadwerkelijk beluisteren van de video’s, maar worden ontleend aan de ondertitels die bij veel van de video’s beschikbaar zijn.

Het mooiste aan het stuk programmeerwerk is dat de visuele en auditieve ‘atomen’ uiteindelijk worden gecombineerd tot zinnige informatie. Omdat het algoritme gebruik kan maken van een veelvoud aan filmpjes kan er een rode draad ontdekt worden: een werkwijze die bij benadering in alle filmpjes min of meer hetzelfde is. ‘How to’ filmpjes lenen zich hier, zoals eerder gesteld, uitstekend voor.

Bredere toepassing

In het onderzoek wordt reeds aangehaald dat het algoritme mogelijkerwijs succesvol kan worden toegepast op andere video’s. Hierbij gebruikten de onderzoekers de zoekopdracht ‘Travel San Francisco’. Het algoritme wist video’s te analyseren en kwam met suggesties voor het bezoeken van de beroemde trams die de heuvels van San Francisco berijden, de bekende hangbrug de Golden Gate Bridge en het Golden Gate Park.

De toepassing voor het algoritme lijkt dus breed te zijn. Maar wanneer het enkel zo is dat het algoritme ‘how to’ video’s kan omzetten tot een stapsgewijze handleiding (die uiteindelijk zelfs door een robot kan worden uitgevoerd), is het werkelijk al knap genoeg. Het is hoe dan ook een stap in een heel interessante richting, zeker als je bedenkt dat de hoeveelheid en de variatie van de voorlichtingsfilmpjes op YouTube onvoorstelbaar groot is.

Sta bijvoorbeeld eens stil bij het feit dat de zoekopdracht ‘how to insulin’ ook 164.000 resultaten oplevert. Een slim algoritme dat in staat is zichzelf op basis van YouTube filmpjes aan te leren hoe insuline gespoten moet worden, het klinkt toch behoorlijk science fiction.

Daarbij is het ook maar zeer de vraag hoe wenselijk het is, want welke kwaliteit kan er behaald worden? En daarbij: een algemeen stappenplan voor het spuiten van insuline biedt nog geen enkele garantie voor het omgaan met eventuele complicaties. Het is al met al een opmerkelijke en knappe stap in het onderzoek naar lerende software, die tegelijkertijd ook enkele prangende vragen oproept.