Een team van onderzoekers uit Japan en Vietnam heeft een nieuw AI-model ontwikkeld dat veel beter kan inschatten hoe een hand een object vasthoudt. Dit is belangrijk voor toepassingen in robotica, augmented reality (AR) en virtual reality (VR), waar systemen vaak moeite hebben om te bepalen wat er precies in een hand zit en hoe het wordt vastgehouden—vooral als het object deels bedekt is of van vorm verandert.
Het nieuwe model, ontwikkeld aan het Shibaura Institute of Technology en FPT University, combineert slimme beeldanalyse met dieptegegevens uit zogeheten RGB-D-camera’s (die naast kleur ook afstand meten). Waar oudere systemen vaak worstelen met onduidelijke beelden of aparte verwerking voor 2D en 3D, pakt dit model beide soorten informatie tegelijk op in één soepele analyse.
Het systeem werkt op basis van een stemmechanisme: het laat allerlei ‘punten’ op het beeld stemmen over waar belangrijke kenmerken van de hand en het object zitten, zoals hoeken of randen. Daarna bepaalt een slimme algoritme—dat ook begrijpt hoe handen objecten op verschillende manieren kunnen vasthouden—wat de meest waarschijnlijke positie en oriëntatie van het object is.
Bij tests op drie openbare datasets presteerde het model tot wel 15% beter dan bestaande technieken. Het haalt een gemiddelde nauwkeurigheid van bijna 77% en werkt snel genoeg om in realtime gebruikt te worden, bijvoorbeeld in een robotarm of een AR-bril.
Volgens de onderzoekers maakt hun aanpak het mogelijk om robots preciezer objecten te laten oppakken, of om AR- en VR-systemen beter te laten reageren op wat een gebruiker daadwerkelijk in de hand heeft. Denk aan toepassingen in zorg, productie of training—waar het extra belangrijk is dat technologie goed begrijpt wat mensen doen met hun handen.
Foto credit: Credit: Dan Ruscoe