Robotontwikkelaars zoeken steeds vaker naar alternatieven voor teleoperatie als manier om veelzijdigere robots te trainen. Skild AI werkt aan een benadering waarbij robots nieuwe vaardigheden aanleren door videobeelden van mensen te bekijken, in plaats van vooral afhankelijk te zijn van handmatig aangestuurde demonstraties.
Volgens het bedrijf loopt de roboticasector tegen een groeiend dataprobleem aan. Waar grote taalmodellen zijn getraind op enorme hoeveelheden tekst van het internet, is robottraining grotendeels gebaseerd op teleoperatie—waarbij mensen robots direct aansturen om trainingsdata te verzamelen. Skild AI stelt dat deze methode niet schaalbaar genoeg is om basismodellen voor robotica te ondersteunen.
Het bedrijf noemt twee belangrijke beperkingen van teleoperatie. Ten eerste is de diversiteit van data beperkt, omdat robots meestal worden getraind in gecontroleerde omgevingen zoals laboratoria of vaste testlocaties. Daardoor missen ze de brede variatie aan situaties waarmee ze in de praktijk te maken krijgen. Ten tweede is teleoperatie tijdsintensief: elke demonstratie gebeurt in real time, wat het lastig maakt om op grote schaal data te verzamelen zoals bij taal- en visiemodellen.
Als alternatief wijst Skild AI op observerend leren—een aanpak die bij mensen heel gebruikelijk is. Mensen leren vaak door anderen te observeren, zonder dat ze expliciete uitleg krijgen over spierkracht, bewegingstrajecten of handelingen. Volgens Skild AI kunnen robots op vergelijkbare wijze leren, door gebruik te maken van het enorme aanbod aan online video’s, zoals instructiefilmpjes en opnames vanuit een eerste-persoonsperspectief.
Werken met video’s brengt wel technische uitdagingen met zich mee. In videobeelden ontbreken fysieke signalen zoals kracht, torsie en tast—belangrijk voor de aansturing van robots. Bovendien is er sprake van een zogenoemde ’embodiment gap’: de fysieke verschillen tussen mensen en robots maken het lastig om handelingen één-op-één over te nemen.
Skild AI denkt dat het met een methode die het “omni-bodied learning” noemt, dit gat kan overbruggen. Volgens het bedrijf kan hun model vooraf worden getraind met alleen videobeelden, aangevuld met een beperkte hoeveelheid robotspecifieke data—soms minder dan een uur. Door de afhankelijkheid van teleoperatie te verkleinen, moet deze aanpak het trainen van robuuste basismodellen voor robotica beter schaalbaar maken.
De aankondiging past binnen een bredere trend in de robotica, waarbij leren op basis van visuele observatie steeds meer wordt onderzocht als manier om vaardigheden sneller aan te leren en kosten van dataverzameling te beperken. Of zulke methodes ook in de praktijk breed toepasbaar zijn, is nog onderwerp van onderzoek.
