Appuyez sur PLAY (« Press PLAY ») pour activer la ROC (reconnaissance optique de caractères)

20/3/2024

Ce n'est pas l'IA, mais la façon dont on l'utilise qui fait la différence

Les attentes en matière de reconnaissance optique de caractères (OCR - Optical Character Recognition) sont élevées. De nos jours, les utilisateurs s'attendent à ce qu'elle reconnaisse tous les signes instantanément et les interprète correctement, comme un être humain peut le faire. De plus, la précision doit rester constante, indépendamment des changements de luminosité ou d'autres conditions environnementales. Les approches basées sur des règles présentent l'inconvénient de ne pas disposer de la marge d'interprétation que les approches avec réseaux neuronaux acquièrent en s'entraînant sur de nombreux exemples différents, ce qui explique leur puissance phénoménale. L'utilisation exclusive d'une technologie de pointe ne suffit pas à garantir la réussite d'un projet. Il s'agit plutôt de la proposer de manière simple et performante et de la rendre facile à gérer par les utilisateurs. Car même avec les systèmes de reconnaissance optique de caractères à apprentissage en profondeur (Deep-OCR), la qualité, la vitesse d'exécution et la convivialité sont loin d'être évidentes.

La reconnaissance optique de caractères compte encore aujourd'hui parmi les disciplines les plus difficiles du traitement d'image et de l'intelligence artificielle. La simple diversité des caractères possibles et des méthodes d'application de ces caractères sur les surfaces les plus diverses donne une idée des défis à relever. Les difficultés à convertir des données visuelles aussi complexes en textes clairs et structurés incluent la saleté, les reflets ainsi que les défauts de forme dus aux rayures, aux gaufrages ou aux gravures laser sur des matériaux solides. En outre, des caractères superposés ou incomplets, ainsi qu'une résolution généralement faible des pixels des données d'image, peuvent rapidement complexifier la distinction des différents caractères. Par exemple, un 8 devient rapidement un 3. Le marché du traitement d'image évolue constamment afin d'améliorer la précision et la fiabilité de la reconnaissance de caractères. Mais quels sont les facteurs décisifs pour le choix d'un système de ROC ?

Une base très consultée avec une précision reproductible

Pour être convaincant, un système de ROC doit fonctionner simplement dès le départ et offrir des performances de lecture élevées. Pour cela, il faut une architecture de réseau bien développée, qui a été pré-entrainée avec de nombreuses images variées. Les situations issues d'applications réelles sont ici tout aussi indispensables que l'utilisation de données fictives. Cela permet non seulement d'apprendre de nombreux cas particuliers et variations supplémentaires, mais aussi d'assurer une reconnaissance beaucoup plus fiable des caractéristiques importantes. En effet, dans le domaine de l'automatisation industrielle, rien ne doit être laissé au hasard.

C'est là qu'intervient DENKnet, la solution de vision IA pour les analyses d'images personnalisées. Outre une technologie d'intelligence artificielle de pointe, les utilisateurs disposent ici d'un modèle de ROC extrêmement performant et en constante évolution. Toutes les étapes de développement sont ainsi strictement associées à des versions, de sorte que les développements d'applications peuvent s'appuyer sur des versions définies, mais aussi être mis à jour vers une nouvelle version améliorée afin de toujours garantir une lecture polyvalente et fiable. Pour l'assurance qualité, la performance et la reproductibilité des réseaux formés peuvent être testées et vérifiées dans un Quality Center par rapport à des exemples d'ensembles de données, avant qu'une installation de production ne soit mise à jour avec un nouveau logiciel.

Exemples d'application pour DENKnet OCR

Dans de nombreux cas d'application, le système de ROC de DENKnet lit déjà de manière très fiable, même sans réglage fin. Par exemple, les numéros de pneus, avec peu de contraste, des numéros très déformés et petits sur des capsules ou des informations sur des disques à tronçonner avec une surimpression importante, même avec un fond peu homogène.

Le numéro de fabrication sur la capsule d'une bouteille est déformé de manière irrégulière par l'outil de moulage et donc difficile à lire à la machine.

ROC du numéro DOT sur les pneus de voiture — Le numéro DOT sur le pneu n'est pas très contrasté, mais il est cependant lu à 91 %.

RO de chaînes de caractères sur des disques à tronçonner — En raison de la mauvaise impression, les textes sur le disque à tronçonner sont difficiles à lire, même pour les humains

Transformateurs et grands modèles de langage

Autre caractéristique positive d'un bon modèle de ROC : sa capacité à connaître non seulement les caractères individuels, mais aussi les relations entre eux - dans le cas de chaînes de caractères telles que les numéros de série ou les mots - et à tenir compte de ces connaissances lors de la reconnaissance des caractères. Plus la ROC est capable de prédire les caractères consécutifs et de pondérer ainsi le résultat de la lecture, plus les cas d'application spéciaux peuvent être résolus de manière solide et précise. Les propriétés génératives et combinatoires des réseaux de transformateurs ou des grands modèles de langage (Large Language Model - LLM), tels qu'ils sont utilisés dans ChatGPT, peuvent ou pourraient avoir une influence positive sur de telles prédictions et donc sur la qualité de lecture. Mais il ne faut pas oublier que ces architectures sont plutôt lentes à l'exécution et qu'elles nécessitent beaucoup de ressources système. Il est donc d'autant plus important que l'utilisation de ces technologies de pointe se fasse dans la bonne mesure, afin de soutenir de manière optimale les exigences des cas d'utilisation des clients. Et c'est justement dans le domaine de l'automatisation qu'un traitement d'image ne devrait pas se situer dans le domaine des secondes, mais plutôt dans celui des millisecondes. Un réseau neuronal entraîné devrait donc rester rapide et léger pour pouvoir être exécuté sur du matériel « normal ». Si une précision et une vitesse de reconnaissance élevées n'étaient possibles en production qu'avec une puissance de système quasiment infinie, les applications ne seraient guère rentables.

« La tendance est de rendre l'IA plus petite et donc plus rapide et moins coûteuse à exécuter »

— Daniel Routschka, responsable commercial Intelligence artificielle chez IDS Imaging Development Systems GmbH —

Correction et nouvel entraînement aisés

Si la ROC ne parvient pas à lire certains caractères du fait d'une erreur ou d'une police, d'une langue ou d'un caractère inconnu, il est important que l'utilisateur puisse corriger le résultat de la lecture sans trop d'efforts ou qu'il puisse entraîner le système à lire de nouveaux caractères. Mais ce réglage fin n'est pas un simple « apprentissage » du réseau. Imaginons par exemple que le modèle de ROC ait été entraîné avec 2 millions d'images et que l'utilisateur veuille maintenant apprendre quelque chose de nouveau au modèle avec quelques images personnelles. Quelle est la pondération d'une telle information dans le modèle pour qu'elle ait un impact sans pour autant tout modifier ? Et c'est précisément là que le fournisseur doit faire preuve d'un grand savoir-faire pour étendre l'IA de manière à ce qu'une adaptation de ce type n'ait pas d'influence négative sur les reconnaissances stables jusqu'à maintenant. Un exemple : Pour une raison ou une autre, un système de ROC rencontre des problèmes avec les chiffres et l'utilisateur n'annote que des chiffres, jamais des lettres, lors du processus d'apprentissage. Il s'agit d'éviter ici, par une « sauvegarde intelligente des connaissances », que ce réseau ne lise un jour que des chiffres, parce qu'il pense qu'il ne doit pas lire de lettres.

Lors du réglage fin du système de ROC DENKnet, le hub de vision IA DENKnet génère donc des données artificielles appropriées pour toutes les nouvelles données d'image afin de continuer à entraîner et à pondérer le réseau dans une juste mesure. Cela évite que la ROC, quelle que soit la durée de l'entraînement ultérieur, ne perde ses capacités antérieures. En même temps, le « nouvel entraînement » reste simple à utiliser pour l'utilisateur du hub de vision IA et rapide et performant grâce à l'entraînement basé sur le cloud en arrière-plan. Dans le meilleur des cas, les compétences de base de la ROC sont si bonnes que les utilisateurs n'ont pas besoin de réaliser un nouvel entraînement.

Déroulement de la correction des étiquettes et du nouvel entraînement du modèle de ROC — Le réglage fin de la ROC DENKnet dans le hub de vision IA DENK ne nécessite que peu d'interaction de l'utilisateur et améliore très rapidement la qualité de lecture.

Avantage de l'entraînement dans le cloud

Toutes les fonctions et tous les services du hub de vision IA DENK sont entièrement basés sur la technologie du cloud. Ainsi, le réglage fin s'effectue sur des données d'images propres, sur une base logicielle toujours actuelle et contrôlée, et non sur une version logicielle quelconque établie sur un système matériel local quelconque. Le modèle de ROC utilisable devient alors de plus en plus résistant aux difficultés déjà résolues grâce au développement continu du backend technique. Cela permet d'utiliser de plus en plus d'applications clients, même sans adaptation majeure ou nouvel entraînement. « Press Play » est comme une mission confiée à DENKcloud qui, en arrière-plan, entraîne une multitude de modèles de réseaux adaptés avec différentes architectures et met finalement le meilleur résultat à la disposition de l'utilisateur.

En cas d'assistance, la solution cloud constitue également une valeur ajoutée pour l'utilisateur. En cas de difficultés avec les données d'un cas d'utilisation, par exemple en cas de caractères inconnus, l'assistance technique du backend peut rapidement apporter une solution et influencer positivement la performance de reconnaissance. Il est possible d'apporter des modifications à l'architecture du réseau ou d'optimiser la production de données artificielles supplémentaires sans devoir exporter/importer des données et sans risquer d'obtenir des résultats différents de la part de systèmes de build ou de versions de logiciels différents. Cela se fait ainsi dans un échange direct, sans perte de temps, directement dans le cas d'utilisation du client. Le fait de ne pas envoyer de données sensibles minimise en outre le risque d'accès non autorisé.

ROC simple et économique auprès d'une seule source

Dans l'environnement de la vision IA, de nombreux fournisseurs de solutions de ROC se bousculent et il existe une véritable course aux meilleurs réseaux. Pour les utilisateurs avertis, de nombreux outils Open Source et des architectures réseau accessibles au public sont disponibles. Ils permettent d'acquérir rapidement une première expérience et d'obtenir des résultats. Mais sans connaissances techniques approfondies sur la manière dont la technologie IA ou les réseaux de pointe et les grands modèles de vision peuvent être utilisés et combinés de manière économique et performante, de nombreuses tâches de ROC restent sans solution.

Il en va autrement pour le fabricant de caméras industrielles IDS : en combinaison avec la solution de vision IA DENKnet, tous les composants de traitement d'image pour des tâches de ROC rapides, fiables et économiques peuvent être fournis par un seul fournisseur. Les clients en profitent parce que ça fonctionne Et essayer ne coûte rien. « Just Press Play »

ROC DENKnet : cela fait toute la différence

Données artificielles – Chaque fois que de nouvelles images sont téléchargées, des variantes d'images sont générées automatiquement afin d'étendre et de stabiliser les capacités du modèle de manière ciblée.
Convivialité + gain de temps – Des outils intuitifs tels que « Autoprediction » et « 1-Click Annotation » ne nécessitent aucune connaissance préalable et réduisent le temps de test, de préparation et de maintenance.
Technologie de pointe – Les connaissances des dernières architectures réseau, telles que les transformateurs ou les grands modèles de langage, sont intégrées en continu dans le développement du système de ROC DENKnet.
Architecture intelligente – L'entraînement entièrement automatique choisit de manière autonome l'architecture la plus appropriée pour la tâche à accomplir.
Entraînement dans le cloud – Toujours à jour avec la technologie de pointe et l'amélioration continue de la base du réseau.
Exécution locale rapide et économique – L'objectif est d'obtenir un modèle précis et optimal, mais aussi léger et rapide, pour une exécution locale dans un environnement d'application fermé.

Autres infos

Sur le site Web du produit, vous trouverez un complément d'informations sur DENKnet OCR.
Dans notre webinaire-vidéo « How-to read any text reliably with DENKnet OCR » (comment lire tout texte de manière fiable avec la ROC DENKnet), nous présentons les avantages de la solution DENKnet à l'aide d'une démonstration de ROC par caméra.

Téléchargement PDF
Découvrez produits
Questionnez-nous
Retour à l’aperçu