Robots leren taken door mensen op video’s te bekijken

door Pieter Werner 22 juni 2023

geschreven door Pieter Werner 22 juni 2023

Een recente doorbraak van Carnegie Mellon University (CMU) maakt het mogelijk voor robots om huishoudelijke taken te leren door naar video’s van mensen te kijken die dagelijkse klusjes in hun eigen huizen uitvoeren. Het onderzoek belooft de bruikbaarheid van robots in huis te vergroten, waarbij ze mensen kunnen helpen met taken zoals koken en schoonmaken. Twee robots slaagden erin 12 taken te leren, waaronder het openen van een lade, ovendeur en deksel; het van het fornuis halen van een pot; en het oppakken van een telefoon, groente of blik soep.

“De robot kan leren waar en hoe mensen interacteren met verschillende objecten door naar video’s te kijken,” zegt Deepak Pathak, universitair docent aan het Robotics Institute van de School of Computer Science van CMU. “Met deze kennis kunnen we een model trainen dat twee robots in staat stelt om vergelijkbare taken uit te voeren in uiteenlopende omgevingen.”

Huidige methoden om robots te trainen vereisen ofwel de handmatige demonstratie van taken door mensen, ofwel uitgebreide training in een gesimuleerde omgeving. Beide zijn tijdrovend en gevoelig voor mislukking. Eerder onderzoek door Pathak en zijn studenten toonde een nieuwe methode aan waarbij robots leren door te observeren hoe mensen taken voltooien. Echter, WHIRL (In-the-Wild Human Imitating Robot Learning) vereiste dat de mens de taak uitvoerde in dezelfde omgeving als de robot.

Pathak’s nieuwste werk, de Vision-Robotics Bridge (VRB), bouwt voort op en verbetert WHIRL. Het nieuwe model elimineert de noodzaak van menselijke demonstraties, evenals de noodzaak voor de robot om in een identieke omgeving te werken. Net als bij WHIRL, heeft de robot nog steeds oefening nodig om een taak te beheersen. Het onderzoek van het team toonde aan dat het een nieuwe taak kan leren in slechts 25 minuten.

“We konden robots over de hele campus nemen en allerlei taken laten uitvoeren,” zegt Shikhar Bahl, een doctoraatsstudent in de robotica. “Robots kunnen dit model gebruiken om nieuwsgierig de wereld om hen heen te verkennen. In plaats van zomaar zijn armen te zwaaien, kan een robot gerichter interacteren.”

Om de robot te leren hoe hij met een object moet interacteren, paste het team het concept van affordances toe. Voor VRB definiëren affordances waar en hoe een robot mogelijk met een object kan interacteren op basis van menselijk gedrag. Bijvoorbeeld, terwijl een robot een mens een lade ziet openen, identificeert het de contactpunten – de handgreep – en de richting van de beweging van de lade – recht uit de startpositie. Na het bekijken van verschillende video’s van mensen die lades openen, kan de robot bepalen hoe elke lade geopend moet worden.

Het team gebruikte video’s uit grote datasets zoals Ego4D en Epic Kitchens. Ego4D bevat bijna 4.000 uur aan egocentrische video’s van dagelijkse activiteiten van over de hele wereld. Onderzoekers van CMU hielpen bij het verzamelen van een deel van deze video’s. Epic Kitchens bevat vergelijkbare video’s van koken, schoonmaken en andere keukentaken. Beide datasets zijn bedoeld om computer vision modellen te trainen.

“We gebruiken deze datasets op een nieuwe en andere manier,” zegt Bahl. “Dit werk zou robots kunnen in staat stellen te leren van de enorme hoeveelheid internet- en YouTube-video’s die beschikbaar zijn.”

Foto: Carnegie Mellon University