OCR et extraction de données pour le génie mécanique en 2025-2026 : pourquoi la simple lecture de texte ne suffit pas

· Written by Jochen Mattes

Disponible en:

OCR et extraction de données pour le génie mécanique en 2025-2026 : pourquoi "la simple lecture de texte" ne suffit pas

Les entreprises mécaniques reçoivent encore la plupart des dessins de la même manière qu'il y a dix ans : sous forme de PDF (parfois même sous forme de simples images). Pas en DWG. Pas en DXF. Pas sous forme de modèle 3D propre. Une équipe d'achat d'un OEM reçoit un PDF. Un atelier qui établit un devis pour une pièce reçoit un PDF. Un ingénieur qualité fournisseur qui examine un écart reçoit un PDF.

Cette réalité est importante, car elle définit ce que devrait réellement signifier "bon OCR" en 2025-2026 : non pas convertir un PDF en un autre format de fichier, mais convertir un dessin en données d'ingénierie structurées et validées auxquelles les systèmes en aval peuvent faire confiance.

C'est le fossé que Werk24 est conçu pour combler.


L'approche commune : convertir d'abord, comprendre ensuite

De nombreux outils sur le marché se positionnent comme "OCR pour CAD" ou "numérisation de dessins". Souvent, le flux de travail ressemble à ceci :

  1. Prendre un dessin PDF
  2. Le convertir en DWG/DXF (ou tenter la vectorisation)
  3. Exécuter un OCR générique sur le texte restant
  4. Remettre le résultat aux humains (ou à un autre système) pour interpréter et nettoyer

Cette approche de conversion d'abord peut être utile comme étape de pré-traitement—par exemple, si l'objectif réel est d'éditer la géométrie en CAD. Mais dans l'établissement de devis, l'ingestion ERP, les vérifications de faisabilité ou les flux de travail des fournisseurs, elle rate généralement le vrai problème :

La partie difficile n'est pas de transformer les pixels en lettres. La partie difficile est de transformer l'intention d'ingénierie en signification structurée.


Pourquoi "la sortie OCR" n'est pas "des données d'ingénierie"

Les systèmes OCR génériques font quelque chose de simple (et souvent impressionnant) : ils transforment ce qui est imprimé en texte. Mais les dessins techniques ne sont pas des documents au sens "PDF comme page"—ce sont des langages d'ingénierie formels composés de :

  • symboles
  • conventions
  • règles spatiales
  • signification dépendante du contexte
  • normes (ISO vs ASME)
  • blocs de titre et métadonnées
  • notes et exceptions

Un petit exemple montre la différence :

"C45" pourrait signifier :

  • une nuance d'acier commune dans de nombreux contextes, ou
  • un appel de chanfrein ("C 45° …") selon les conventions linguistiques et où il apparaît, ou
  • quelque chose d'entièrement différent selon la structure du dessin.

Un moteur OCR ne peut pas décider de manière fiable par le texte seul. La signification dépend de :

  • il se trouve sur la feuille (bloc de titre vs zone de géométrie)
  • Ce qui est à proximité (une ligne de repère, un symbole de chanfrein, un champ de matériau, une section de notes)
  • Quelle convention de dessin est utilisée (ISO/EN vs ASME)
  • Comment le reste du dessin encode des informations similaires

Si votre processus en aval a besoin de champs structurés—matériau, revêtement, spécifications de filetage, tolérances, finition de surface, exigences d'inspection—alors "un tas de texte OCR" n'est pas une interface utilisable.


Ce que Werk24 fait différemment : de l'entrée de dessin à la signification structurée

Werk24 commence là où votre vrai processus commence : PDF ou image en entrée, données structurées en sortie.

La sortie n'est pas "du texte OCR". Ce sont des données interprétées et normalisées conçues pour l'automatisation :

  • ingestion ERP ou PLM
  • vérifications automatiques de faisabilité
  • flux de travail d'intégration/confirmation des fournisseurs
  • calcul des coûts et des prix
  • préparation de la qualité et de l'inspection

En pratique, cela signifie que Werk24 se concentre sur trois couches que l'OCR générique ne peut généralement pas couvrir :

1) Lecture robuste de dessins du monde réel (pas de PDF idéalisés)

Les dessins arrivent avec toutes sortes d'imperfections :

  • blocs de texte pivotés
  • orientations mixtes
  • feuilles numérisées
  • lignes pâles ou artefacts de compression
  • mises en page multilingues
  • formatage incohérent entre fournisseurs

Si un pipeline OCR se casse sur la rotation ou la variabilité de mise en page, le processus échoue dès le début. Werk24 est conçu spécifiquement autour de ces réalités des dessins mécaniques tels qu'ils existent dans les chaînes d'approvisionnement.

2) Interprétation contextuelle des symboles et du placement

Les dessins mécaniques encodent la signification par la position.

Un exemple simple mais critique est la rugosité de surface :

  • "Ra 3.2" d'un côté d'un symbole de surface peut signifier quelque chose de différent de l'autre côté, selon la convention et la configuration du symbole.
  • La même valeur numérique peut appartenir à différents attributs basés sur le placement et la structure du symbole.

Werk24 traite le dessin comme un langage structuré, pas comme un document texte. Il ne lit pas seulement "Ra 3.2"—il détermine ce que cette valeur signifie et la retourne dans le champ structuré correct.

3) Normalisation en champs standard utilisables par machine

Même quand les ingénieurs spécifient la même chose, ils l'écrivent souvent différemment.

Par exemple, une spécification de filetage pourrait apparaître comme :

  • une note courte
  • un appel avec des défauts implicites
  • une notation locale qui nécessite une expansion
  • un mélange de texte et d'indices symboliques

Werk24 ne s'arrête pas à la transcription. Il normalise les spécifications pour que votre logique en aval puisse s'appuyer sur des champs cohérents—par ex., type de filetage, taille nominale, pas, classe de tolérance, longueur de filetage et contraintes associées—sans nécessiter une autre étape de nettoyage.


ISO vs ASME : deux mondes, une sortie structurée

La fabrication mondiale signifie que les dessins proviennent de différents écosystèmes de normes :

  • ISO/EN (couramment utilisé en Europe) : utilisation intensive de symboles et de placements standardisés
  • ASME (couramment utilisé aux États-Unis) : souvent plus orienté texte, avec des notes générales étendues et des instructions au niveau du dessin

Les dessins américains incluent fréquemment :

  • notes générales
  • "notes de canevas" / spécifications au niveau de la feuille
  • exigences textuelles qui seraient symbolisées dans les dessins de style ISO

Werk24 est conçu pour extraire des données structurées des deux styles et retourner une sortie cohérente, peu importe si le dessin est créé dans une convention européenne ou américaine.

Pour les clients, cela importe car cela supprime un coût opérationnel caché :

  • vous n'avez pas besoin de pipelines différents par région
  • vous n'avez pas besoin de jeux de règles de validation différents par géographie de fournisseur
  • vous pouvez standardiser l'automatisation en aval à travers toute votre base de fournisseurs

Unités et conversions : l'automatisation nécessite la cohérence

Un autre problème courant du monde réel : les unités.

Certains dessins sont en :

  • millimètres
  • pouces
  • contextes d'unités mixtes (ou modèles hérités)

L'automatisation se casse quand les unités sont ambiguës ou appliquées de manière incohérente. Werk24 inclut la reconnaissance d'unités et (si nécessaire) la normalisation d'unités pour que vous puissiez exécuter des vérifications de faisabilité fiables, des modèles de coût et une logique d'inspection sur les données extraites.

L'objectif est simple : la même intention de dessin devrait produire le même résultat structuré, même si les conventions d'entrée diffèrent.


Pourquoi convertir PDF → DWG/DXF est souvent le mauvais objectif

Si votre objectif est l'établissement de devis, la faisabilité, l'ingestion ERP ou les flux de travail des fournisseurs, convertir un dessin en DWG/DXF n'est généralement pas la "solution"—c'est un détour.

Parce qu'à la fin de ce détour, vous devez encore répondre aux vraies questions :

  • Quel est le matériau, vraiment ?
  • Quelles tolérances s'appliquent, et où ?
  • Quels filetages existent, avec quelles longueurs et classes ?
  • Quelles finitions de surface s'appliquent à quelles caractéristiques ?
  • Quelles notes sont des exigences globales vs des exceptions locales ?
  • Quelles valeurs appartiennent à quels symboles, basées sur le placement ?

Une conversion géométrique ne résout pas l'interprétation. Elle change juste le conteneur.

L'approche de Werk24 est de se concentrer directement sur la sortie dont le processus métier a réellement besoin : des données structurées et interprétées.


Ce que cela permet en 2025-2026

Une fois que les informations de dessin sont structurées et normalisées de manière fiable, les équipes peuvent automatiser des flux de travail qui étaient auparavant manuels par défaut :

  • Ingestion RFQ : remplir automatiquement les champs clés d'un PDF dans votre flux de travail de devis
  • Vérifications de faisabilité : validation basée sur des règles (matériaux, tolérances, exigences de surface, filetages) avant qu'un ingénieur ne s'en occupe
  • Cohérence ERP/PLM : moins d'erreurs de transcription humaine et moins de champs "texte libre"
  • Flux de travail des fournisseurs : boucles de confirmation qui exigent des fournisseurs qu'ils reconnaissent explicitement les exigences critiques
  • Modèles de coût et de prix : comparer du semblable avec du semblable parce que les données sont normalisées
  • Préparation qualité : générer des jeux de données pertinents pour l'inspection à partir de la même structure extraite

Le point n'est pas de remplacer les ingénieurs. Le point est d'arrêter de gaspiller le temps d'ingénierie sur la transcription, le reformatage et le nettoyage.


Résumé : la conversation OCR a changé

En 2025-2026, la qualité OCR n'est plus mesurée par "a-t-il lu les lettres correctement ?"

Pour les dessins mécaniques, la norme est plus élevée :

  • A-t-il compris le contexte ?
  • A-t-il interprété les symboles correctement ?
  • A-t-il normalisé les variations en champs cohérents ?
  • A-t-il géré les styles ISO et ASME de manière fiable ?
  • A-t-il produit des sorties structurées que les systèmes en aval peuvent utiliser sans nettoyage manuel ?

C'est la catégorie pour laquelle Werk24 est conçu : interprétation de dessins mécaniques, pas OCR générique.