Car le fait est qu'aujourd'hui, tout le monde est déjà en mesure de concevoir ses propres applications de traitement d'image basées sur l'IA, même sans connaissances spécifiques en intelligence artificielle et en programmation d'applications également nécessaire. Et tandis que l'intelligence artificielle peut accélérer de nombreux processus de travail et minimiser les sources d'erreur, l'Edge Computing permet en même temps de se passer d'ordinateurs industriels coûteux et de l'infrastructure complexe qui serait nécessaire pour une transmission de données d'images à haute vitesse.

Nouvelle et différente

Cependant, l'IA ou l'apprentissage machine (ML) fonctionne très différemment du traitement d'image classique basé sur des règles. L'approche et le traitement des tâches de traitement d'images s'en trouvent également modifiés. La qualité des résultats n'est plus le produit d'un code de programme développé manuellement par un expert en traitement d'image, comme c'était le cas jusqu'à présent, mais est déterminée par le processus d'apprentissage des réseaux neuronaux utilisés avec des données d'images appropriées. En d'autres termes, les caractéristiques de l'objet pertinentes pour le contrôle ne sont plus données par des règles prédéfinies, mais il faut apprendre à l'IA à les reconnaître elle-même dans le cadre d'un processus d'entraînement. Et plus les données d'entraînement sont variées, plus les algorithmes ML sont susceptibles de reconnaître les caractéristiques réellement pertinentes plus tard en fonctionnement. Mais ce qui semble si simple partout ne mène à l'objectif souhaité qu'avec suffisamment de connaissances spécialisées et d'expérience. Sans un œil averti pour les bonnes données d'image, des erreurs se produiront également dans ce domaine. Cela signifie que les compétences clés pour travailler avec des méthodes d'apprentissage machine ne sont plus les mêmes que celles requises pour le traitement d'image basé sur des règles. Mais tout le monde n'a pas le temps ou les ressources humaines pour étudier le sujet de fond en comble et développer de nouvelles compétences clés pour travailler avec des méthodes d'apprentissage machine. C'est malheureusement le problème avec les nouvelles choses - elles ne peuvent pas être utilisées directement de manière productive. Et lorsqu'elles donnent effectivement de bons résultats sans trop d'efforts, mais qu'il n'est malheureusement pas possible de les reproduire clairement, on a du mal à y croire et on ne fait pas confiance.

Complexe et incomprise

En tant qu'être humain rationnel, on aimerait savoir comment fonctionne cette vision IA. Mais sans explications identifiables et compréhensibles, les résultats sont difficiles à évaluer. La confiance dans une nouvelle technologie repose sur les compétences et l'expérience qui doivent parfois être acquises pendant des années avant de savoir ce qu'une technologie peut faire, comment elle fonctionne, comment l'utiliser et même comment la contrôler. Pour compliquer les choses, la vision IA est confrontée à un système établi pour lequel des conditions environnementales appropriées ont été créées au cours des dernières années avec des connaissances, de la documentation, des formations, du matériel, des logiciels et des environnements de développement. En revanche, l'IA est encore très brute et puriste et, malgré les avantages connus et la grande précision qu'il est possible d'atteindre avec l'IA appliquée à la vision, le diagnostic en cas d'erreur s'avère souvent difficile. Le manque de compréhension des méthodes de travail ou des résultats inexplicables sont le revers de la médaille et entravent la diffusion des algorithmes.

Boîte noire ou pas

Le fonctionnement des réseaux neuronaux est donc souvent perçu, à tort, comme une boîte noire dont les décisions ne sont pas compréhensibles. « Si les modèles DL sont sans aucun doute complexes, ce ne sont pas des boîtes noires. En fait, il serait plus approprié de les appeler boîtes en verre car nous pouvons regarder à l'intérieur et voir ce que fait chaque composant. » [Cité de « La métaphore de la boîte noire dans l'apprentissage automatique »]. Les décisions d'inférence des réseaux neuronaux ne sont pas basées sur des règles classiques et compréhensibles, et les interactions complexes de leurs neurones artificiels ne sont peut-être pas faciles à appréhender pour l'homme, mais elles sont néanmoins le résultat d'un système mathématique et, donc, reproductibles et analysables. La seule chose qui manque (encore), ce sont les outils adéquats pour nous aider. C'est dans ce domaine de l'IA que le potentiel d'amélioration reste conséquent. C'est là qu'on peut voir à quel point les différents systèmes d'IA du marché peuvent assister les utilisateurs dans leurs projets.

L'IA expliquée par le logiciel

Pour cette raison, la société IDS Imaging Development GmbH effectue des recherches et travaille dans ce domaine avec des instituts et des universités pour développer ces outils. Le système de caméra d'inférence IDS NXT Experience Kit inclut d'ores et déjà les résultats de cette collaboration. Grâce à des analyses statistiques à l'aide d'une matrice de confusion, il est possible de déterminer et de comprendre la qualité d'un réseau neuronal entraîné. Après le processus de formation, le réseau peut être validé à l'aide d'une série d'images prédéfinies dont les résultats sont déjà connus. Les résultats attendus et les résultats réels déterminés par l'inférence sont alors comparés dans un tableau. Cela permet de savoir combien de fois les objets de test ont été correctement ou incorrectement détectés pour chaque classe d'objets entraînée. A partir de ces taux de réussite, il est alors possible d'indiquer une qualité globale du réseau neuronal convolutif formé (CNN). En outre, la matrice montre clairement où la précision de la reconnaissance pourrait être encore trop faible pour une utilisation productive. Cependant, elle ne montre pas à quoi cela pourrait être dû.

Matrice de confusion d'un CNN
Matrice de confusion d'un CNN

Cette matrice de confusion d'un CNN qui classifie les vis montre où la qualité de la reconnaissance peut être améliorée par un entraînement ultérieur avec d'autres images.

C'est là qu'interviennent les cartes d'attention, qui présentent une sorte d'image thermique mettant en évidence les zones ou le contenu des images qui reçoivent le plus d'attention de la part du réseau neuronal et qui influencent donc les décisions. Lors du processus de formation dans IDS lighthouse, la création de cette forme de visualisation basée sur les chemins de décision générés lors de la formation est activée, ce qui permet au réseau de générer une telle carte de chaleur à partir de chaque image lors de l'analyse. Cela permet de comprendre plus facilement les décisions critiques ou inexplicables de l'IA et, en fin de compte, d'augmenter l'acceptation des réseaux neuronaux dans l'environnement industriel.

De même, il est possible de détecter et d'éviter les distorsions de données, appelées biais (voir illustration « Cartes d'attention »), par lesquelles un réseau neuronal prendrait des décisions biaisées lors de l'inférence. Car un réseau neuronal ne devient pas intelligent par lui-même. Une qualité insuffisante des inputs entraîne un résultat insuffisant. Pour reconnaître des modèles et faire des prédictions, un système d'IA a besoin de données à partir desquelles il peut apprendre le « comportement adéquat ». Si une IA est construite dans des conditions de laboratoire avec des données qui ne sont pas représentatives des applications ultérieures, ou pire encore, si les modèles dans les données reflètent des préjugés, le système adaptera ces préjugés.

Carte de chaleur
Carte de chaleur

Cette carte de chaleur montre un biais de données classique. La carte de chaleur révèle une attention élevée pour l'étiquette Chiquita de la banane et donc un bon exemple de biais de données. Grâce à des images d'entraînement de bananes erronées ou trop peu représentatives, le CNN utilisé a manifestement appris que cette étiquette Chiquita laisse toujours penser qu'il s'agit d'une banane.

À l'aide de ces outils logiciels, les utilisateurs peuvent retracer plus directement les comportements et les résultats de la vision IA jusqu'aux faiblesses de l'ensemble de données d'entraînement et les corriger de manière ciblée. Cela rend l'IA explicable et compréhensible pour tout le monde. Car il ne s'agit en fait que de mathématiques et de statistiques. Suivre les mathématiques et les comprendre n'est certes souvent pas facile, mais avec la matrice de confusion et les cartes de chaleur, il existe des outils pour rendre les décisions et les raisons des décisions visibles et donc compréhensibles.

Nous n'en sommes qu'au début

La vision IA, utilisée correctement, a le potentiel d'améliorer de nombreux processus de traitement d'image. Mais la fourniture de matériel à elle seule ne suffit pas pour contaminer l'industrie à tous les niveaux avec l'IA. Les fabricants sont tenus d'accompagner les utilisateurs en leur transmettant leurs compétences sous la forme de logiciels conviviaux et de processus intégrés. Par rapport aux procédures éprouvées qui ont évolué au fil des ans et permis de constituer une fidèle base de clients avec beaucoup de documentation, de transfert de connaissances et de nombreux outils logiciels, l'IA a encore beaucoup de retard à rattraper, mais les choses évoluent rapidement. Actuellement, nous travaillons également sur des normes et des certifications afin d'accroître encore l'acceptation et la compréhension, et d'élargir le champ d'application de l'IA. IDS œuvre dans ce sens. Avec IDS NXT Experience Kit, un système d'IA embarqué est déjà disponible, qui peut être utilisé rapidement et facilement comme outil industriel par chaque groupe d'utilisateurs, avec un environnement complet et convivial, même sans connaissance approfondie de l'apprentissage machine, du traitement d'image ou de la programmation d'applications .