Au-delà de l'OCR - Utiliser l'IA pour comprendre des dessins techniques complexes

Jul 29, 2021 · Written by Aylin Akseki

Disponible en:

TL;DR

Cet article aborde les limitations et défis actuels, explorant les solutions avancées pour le traitement des dessins techniques.

L'industrie de la construction mécanique recherche depuis longtemps des solutions technologiques pour automatiser l'extraction de données à partir de dessins techniques. La seule option jusqu'à présent a été d'utiliser l'OCR (Reconnaissance Optique de Caractères). Vous avez peut-être déjà essayé des solutions OCR telles que Google Vision ou Amazon Textract, mais vous avez rapidement réalisé :

L'OCR générique ne suffit pas pour comprendre les dessins techniques.

La solution OCR seule a de nombreuses limitations pour comprendre des choses complexes comme les dessins techniques. Examinons de plus près comment les algorithmes d'IA de Werk24 ont surpassé l'OCR générique dans différents défis et ont réalisé l'extraction de données complètement automatique à partir de dessins techniques.

Sortie OCR Google Vision montrant des dimensions de bride mal interprétées et des notes

Résultat IA Werk24 structurant avec précision les dimensions, tolérances et annotations de bride

Structuration des éléments textuels

Le plus grand défi pour une machine pour lire les dessins techniques est de comprendre la signification des éléments textuels individuels et de savoir quand et comment les regrouper en format de données structurées. L'OCR ne peut que lire le texte mais ne peut pas comprendre la signification de son propre résultat.

Sur les dessins techniques, il existe de nombreux formats de données complexes tels que les mesures, GD&T et les informations dans les cartouches. La mesure est souvent présentée comme une taille nominale avec l'écart supérieur et inférieur empilés l'un sur l'autre. L'OCR ne peut extraire le texte que de gauche à droite et n'est pas capable de distinguer quel texte est la taille nominale, l'écart supérieur ou l'écart inférieur. Et en raison de l'environnement visuel complexe, l'OCR fait également de nombreuses erreurs dans le regroupement des éléments correspondants.

Werk24 a développé des modèles d'apprentissage automatique avancés et des algorithmes d'IA pour comprendre tous les formats courants de mesures avec taille nominale, tolérance, taille d'ajustement, filetages. En comprenant la signification individuelle de chaque élément basée sur son contenu, contexte et regroupement visuel, l'API de Werk24 peut regrouper les bons éléments en données structurées et les retourner au format JSON qui peut être utilisé par la machine et alimenter directement votre système logiciel.

Interface Werk24 regroupant les annotations de mesure d'un dessin de bride en données structurées

Visualisation Werk24 alignant les tailles nominales avec leurs tolérances

Tableau de bord Werk24 identifiant les symboles d'ajustement et les notes de filetage sur le dessin

Interface Werk24 extrayant les cadres de contrôle de caractéristiques GD&T et les références

Résumé Werk24 consolidant les mesures, tolérances et métadonnées

Vue d'exportation Werk24 présentant les informations de dessin technique pour les systèmes en aval

Un autre exemple est le cartouche, où les légendes (le petit texte décrivant de quoi parle le contenu) telles que "Désignation", "ID du dessin", "Entreprise" manquent couramment. Cela rend les résultats OCR inutiles, car l'ordinateur ne comprend pas si le texte est une désignation, un ID de dessin ou des détails d'entreprise. Werk24 utilise l'IA et l'apprentissage automatique pour comprendre le texte individuel et associer les légendes manquantes aux bons résultats textuels, afin que votre système de demande de devis ou ERP puisse utiliser directement ces informations.

Analyseur de cartouche Werk24 associant les légendes manquantes avec leurs valeurs correctes

Correction contextuelle

L'OCR peut souvent échouer à différencier les nombres ou caractères qui se ressemblent, tels que "1", "7" et "I", "0" et "O" ou "6" et "8". Cela rend l'OCR peu fiable pour traiter les dessins techniques en pratique réelle.

La technologie de Werk24 comprend la signification et le contexte de chaque élément textuel. De plus, elle vérifie de manière croisée les étiquettes de mesure et les lignes de mesure. Cela signifie qu'elle sait qu'une taille nominale devrait être "11" au lieu de "17" dans la situation où cela semble très ambigu et similaire.

Compréhension des symboles spéciaux

Les solutions OCR génériques ne peuvent pas lire les symboles spéciaux, y compris tous les symboles GD&T. Et pour certains symboles mathématiques comme "Ø", "±", l'OCR générique a des résultats peu fiables en ce qui concerne différentes polices.

Avec son propre modèle d'apprentissage automatique entraîné, Werk24 comprend tous les symboles spéciaux dans les mesures et tolérances.

Werk24 détectant les symboles GD&T et les caractères spéciaux dans le texte de dessin technique

Werk24 interprétant les symboles de diamètre et plus-moins à travers différentes polices

Werk24 lisant le texte de dimension en rotation sans perdre en précision

Werk24 compilant les notes riches en symboles en sortie structurée exploitable

Environnement graphique complexe

L'OCR générique ne peut pas détecter de manière fiable les textes dans les dessins qui sont entourés d'éléments graphiques encombrés et intersectés tels que des lignes, symboles, annotations, etc.

L'API TechRead de Werk24 lit les éléments textuels malgré les bruits qui l'entourent. Ainsi, lorsque les lignes de rotation se croisent et interfèrent avec les mesures, les petits fragments de texte peuvent encore être lus avec une grande précision.

Orientation multiple

De nombreuses solutions OCR majeures nécessitent une orientation dominante du document. Par exemple, les textes dans un article pointent toujours dans une direction, alors que dans les dessins techniques, il y a souvent des éléments textuels dans différentes orientations. Cela conduit à de nombreux éléments textuels manqués par l'OCR comme Amazon Textract.

Werk24 ne suppose pas d'orientation dominante, ce qui est d'un grand bénéfice lors de l'extraction de données. Au lieu de cela, la technologie peut lire les mesures de chaque élément textuel individuellement, qu'il soit horizontal, vertical ou incliné à un angle.

Solution complète de Werk24

Alors que le marché a recherché une solution technique sophistiquée et fiable pour extraire des données des dessins techniques, Werk24 a déjà répondu à ce besoin avec son API TechRead. Disponible maintenant, nous fournissons les moyens d'obtenir automatiquement des données importantes des dessins techniques, y compris les mesures, tolérances, GD&T et cartouches, garantissant que les clients ne sont plus freinés par des solutions OCR inadéquates. Disponible maintenant, toutes les données de production importantes dans les dessins techniques sont accessibles au format JSON en quelques secondes.