Le prélèvement d'objets disposés de manière aléatoire est une tâche centrale, notamment dans l'automatisation industrielle. Mais les systèmes de bin picking actuels sont souvent rigides et étroitement adaptés aux pièces à prélever. Avec ses projets de recherche, le Groupe d'étude sur les robots promet d'aboutir à une solution, p. ex., avec des robots capables d'apprendre de manière indépendante à prélever des objets jusqu'ici inconnus dans un conteneur. Pour l'apprentissage d'une telle tâche, le robot commence par des tentatives de prélèvement aléatoires, comme le ferait un être humain. Un réseau neural met en relation les images 3D capturées avec les essais de prélèvement qui réussissent et qui échouent. Pour chaque image, le résultat du prélèvement, déterminé par un capteur dans le dispositif de préhension, est sauvegardé. L'intelligence artificielle (IA) utilise les données sauvegardées pour identifier les points de saisie pertinents pour les objets et assurer ainsi l'auto-apprentissage du robot. Comme cela est courant dans les méthodes modernes d'apprentissage par renforcement*, de grandes quantités de données et de nombreux essais de prélèvement sont nécessaires à cet effet. Les chercheurs du KIT ont cependant réussi à diminuer considérablement le nombre de ces essais et à réduire ainsi le temps consacré à l'apprentissage.

Une prise correcte réduit le temps d'apprentissage

Chaque prise est apprise

À la différence des méthodes de prélèvement analytiques (ou basées sur un modèle), le robot ROLE n'a pas besoin d'une description préalable des caractéristiques requises pour la reconnaissance. En revanche, la fréquence à laquelle le système a déjà réussi à saisir un objet avec des images « semblables » joue un rôle important. La prise testée par le robot est déterminante pour assurer un apprentissage plus rapide. Un réseau neuronal permet de prédire les résultats des prélèvements à l'aide des connaissances existantes.

Lars Berscheid, chercheur au KIT et membre du Groupe de recherche sur les robots explique : « Pour un système fonctionnant efficacement, nous avons besoin d'environ 20 000 essais de prélèvement, ce qui correspond à peu près à 80 heures d'apprentissage sur le robot. » Ces chiffres sont des valeurs approximatives et dépendent de nombreux facteurs, tel le taux de prélèvement pour les prises aléatoires, facteurs qui, à leur tour, sont influencés par la géométrie des composants. De même que dans la plupart des systèmes d'apprentissage, la quantité de données disponibles est le facteur limitatif pour les capacités du système. Berscheid poursuit : « Une tâche essentielle pour notre recherche consiste à réduire le nombre d'essais de prélèvement nécessaires. La question scientifique centrale est donc la suivante : quelles prises doivent être essayées pour collecter le maximum d'informations dans le minimum de temps et réduire ainsi le temps d'apprentissage ? »

On utilise également à ce stade « l'apprentissage par transfert » (transfer learning en anglais). Le savoir d'un réseau neuronal déjà formé peut être utilisé pour la reconnaissance d'objets jusqu'ici inconnus. Plus le nombre et l'éventail des objets d'apprentissage du système sont grands, plus celui-ci peut étendre de manière efficace la généralisation aux objets inconnus. Cela pourrait éliminer définitivement la nécessité d'un apprentissage ciblé des objets pour les applications. L'objectif à long terme est un système de commande capable de prélever n'importe quels objets, même inconnus, de manière autonome et flexible, avec une fiabilité industrielle.

Apprentissage sans modèle prédéterminé

C'est là que réside la différence fondamentale par rapport aux solutions de bin picking actuelles. Le système de recherche du groupe ROLE fonctionne sans modèle « appris » préalablement de la pièce à prélever, et, donc, aussi pour les objets inconnus. En principe, il n'existe aucune restriction quant à leur forme et leur nature. Les connaissances des propriétés des matériaux et des surfaces ne sont pas non plus nécessaires ; cet apprentissage se fait de manière implicite. C'est le grand avantage de l'approche sans modèle, qui ne nécessite ni la forme 3D d'un objet ni la modélisation mathématique du processus de prélèvement.

Elle a ainsi pu être utilisée dans l'industrie avec souplesse et avec moins de travail de programmation. L'automatisation de nombreuses applications nouvelles serait possible, de l'intra-logistique à la robotique de service. En même temps, d'autres types de manipulation, comme le déplacement des objets, peuvent être réalisés parallèlement au prélèvement proprement dit. Le robot apprend de façon autonome à déplacer les objets de telle sorte qu'ils puissent être mieux prélevés à l'étape suivante, exactement comme dans le jeu d'adresse « Jenga » de Hasbro. Cela permet de vider complètement une caisse sans autre équipement (p. ex., un plateau à secousses).

L'apprentissage du robot se fait sans aucune intervention humaine. En pratique, cette automatisation du processus d'apprentissage est l'un des principaux défis. C'est seulement quand il répond à toutes les exigences, p. ex., une durée de cycle donnée, que le système peut être utilisé de manière productive dans la fabrication et, bien sûr, poursuivre son apprentissage. Là aussi, des gains de temps sont possibles par rapport à la procédure habituelle des applications de bin picking. D'un côté, le système ROLE est très rapide et capable de calculer le prochain prélèvement en à peine 20 millisecondes. Par ailleurs, la programmation manuelle est réduite lors de la mise en service du système. Le bin picking gagne ainsi considérablement en flexibilité.

Le système du groupe ROLE fonctionne également pour les objets inconnus.
Le système du groupe ROLE fonctionne également pour les objets inconnus.
Les chercheurs du groupe ROLE se servent du SDK Ensenso pour capturer des images de profondeur et les traiter avec OpenCV et TensorFlow.
Les chercheurs du groupe ROLE se servent du SDK Ensenso pour capturer des images de profondeur et les traiter avec OpenCV et TensorFlow.

Données d'image 3D comme base

Les données visuelles pour le prélèvement par le robot sont fournies par une caméra 3D Ensenso. Elle filme du dessus le conteneur rempli de manière aléatoire d'objets d'un ou plusieurs types. Le système de traitement d'images projette une texture à contraste élevé sur le contenu de la caisse et génère un nuage de points 3D des surfaces visibles du dessus comme base de calcul de l'image de profondeur en échelle de gris. Cette étape est mise en œuvre directement dans le kit de développement logiciel (SDK) Ensenso. L'image de profondeur est ensuite mise à l'échelle à une résolution de seulement 12 000 pixels et utilisée comme entrée pour les algorithmes d'IA. Le réseau neuronal se charge alors de l'analyse de l'image et des étapes logiques pour le prochain prélèvement dans la caisse.

La caméra est montée directement sur la « tête » du robot afin d'offrir la souplesse requise pour réaliser différentes expériences. Berscheid explique ainsi la sélection du modèle de caméra : « Notre choix s'est porté sur une caméra Ensenso N10 car ce modèle permet une distance minimale à l'objet d'à peine 30 cm et offre une plage de distance étendue. En tant que caméra stéréo active dans la plage infrarouge, également adaptée pour les scènes en mouvement, elle satisfait à toutes les exigences. »

Le boîtier aluminium robuste et compact de la caméra Ensenso N10, avec connecteurs vissables GPIO pour le déclencheur et le flash et la connexion USB 2.0, est équipé de deux capteurs CMOS monochromes (obturateur global, 752 x 480 pixels) ainsi que d’un projecteur (infrarouge dans la plage de lumière invisible, 850 nm). Pré-étalonnée et fournie avec une interface HALCON MVTec et une API orientée objet (C++, C#/ .NET), la caméra 3D, avec des focales de 3,6 à 16 mm, convient pour des distances de travail jusqu'à 2 000 mm, et même pour la détection 3D d'objets en mouvement. Les chercheurs du groupe ROLE se servent de la bibliothèque NxLib du kit de développement logiciel (SDK) Ensenso pour capturer des images de profondeur et les traiter avec OpenCV et TensorFlow.

Perspectives

Les méthodes développées au KIT sont des solutions pionnières, mais les chercheurs n'ont pas encore atteint leur objectif. Lars Berscheid poursuit : « Bien que le bin picking fonctionne déjà de manière fiable avec les objets simples tels que les vis, des recherches sont encore nécessaires avant que le produit n'arrive à maturité, notamment pour le prélèvement d'objets plus complexes, inconnus. Les méthodes que nous développons peuvent cependant être employées de manière basique et flexible pour différentes tâches. »

Les systèmes à auto-apprentissage restent un sujet central pour la recherche en robotique. Dans le cadre des projets de recherche orientés vers des applications pratiques, les scientifiques prennent conscience de la nécessité d'accroître la flexibilité dans la production, ce qui conduit souvent, en robotique, à utiliser d'avantage de capteurs et, par suite, à développer le traitement d'images.

Au KIT, les recherches vont continuer de se concentrer sur deux sujets centraux : d'une part, les moyens d'améliorer et d'accélérer les méthodes d'apprentissage élémentaires. Des techniques comme l'apprentissage à l'aide d'un jumeau numérique, via une simulation sur l'ordinateur, suivie d'un transfert vers un robot réel, mais également le transfert de connaissances entre différentes tâches sont pleines de promesses. D'autre part, les scientifiques explorent les nouvelles applications qui pourraient être mieux automatisées, voire automatisées pour la première fois, avec des systèmes de robots apprenants. Les possibilités à cet égard sont pleines de promesses, par exemple, dans le traitement des textiles (prélèvement et pliage des serviettes et des vêtements), le désassemblage des composants industriels tels que les moteurs électriques pour le recyclage, la peinture d'objets inconnus sur la base des données des caméras ou la manipulation des liquides ou des matériaux granulaires. Ces tâches sont apprises en simulation, puis transférées vers le véritable robot.

Les défis à relever sont les suivants : comment augmenter encore les taux de prélèvement et la robustesse du système. Berscheid précise : « En principe, nous pouvons atteindre des taux de prélèvement supérieurs à 95 % avec le système ROLE. » Autrement dit, 5 tentatives de prélèvement sur 100 au maximum échouent. La question qui se pose à présent est la suivante : les tentatives infructueuses restantes peuvent-elles être réduites davantage par un apprentissage plus long ?

Le traitement par le système des données 3D manquantes dans l'image de profondeur constitue un autre problème non négligeable. Actuellement, l'équipe ROLE se limite à saisir les objets verticalement par le dessus. Mais comment le système peut-il utiliser les six degrés de liberté ? De nouvelles solutions sont également à l'étude pour résoudre d'autres difficultés classiques du bin picking sans modèle, notamment pour les étapes ultérieures telles que le stockage ou le traitement complémentaire des objets prélevés.

Les scientifiques du KIT ont encore beaucoup de recherches à faire, mais les approches et les résultats obtenus jusqu'à présent montrent l'immense potentiel de l'apprentissage machine pour les usages industriels. Le traitement des images 3D est inévitablement associé à ce dernier et fournit des données de base importantes permettant de commander les « bras des robots » pour une prise parfaite. Vu, enregistré, appris, c'est l'avenir.

*Renforcement de l'apprentissage dans le domaine mécanique, où une stratégie est apprise de manière autonome avec un système de récompenses

Ensenso N10 - La vision 3D, rapide et précise

  • Avec interface USB 2.0 – utilisation universelle et flexible

  • Boîtier en aluminium compact et robuste

  • Capteurs CMOS à obturateur global et projecteur de nuage de points intégré

  • Jusqu'à 30 images par seconde en pleine résolution et 64 disparités

  • Conception pour des distances de travail jusqu'à 2 000 mm (N10) et des champs d’images variables

  • Production d'un seul nuage de points 3D pour toutes les caméras utilisées dans les applications à caméras multiples

  • Composition en direct des nuages de points 3D de différentes perspectives

  • Mode « Projected Texture Stereo Vision » pour la capture de surfaces déstructurées

  • Capture d'objets statiques ou en mouvement

  • Package logiciel fourni avec les pilotes et l’API pour Windows et Linux

  • Prise en charge des modèles USB et GigE par le package logiciel

  • Programmes de démonstration avec code source pour HALCON, C, C++, C#

  • Précalibrage, d'où une configuration aisée

  • Fonction intégrée pour le calibrage main-œil du robot à partir d’une plaque de calibrage

  • Intégration côté logiciel de caméras industrielles uEye pour la détection d'informations colorimétriques supplémentaires ou de codes barres, par exemple

  • Sous-échantillonnage et compartimentage pour des fréquences d'images et des débits de données flexibles