OCR und Datenextraktion für Maschinenbau in 2025–2026: Warum reines Textlesen nicht ausreicht

· Written by Jochen Mattes

Verfügbar in:

OCR und Datenextraktion für Maschinenbau in 2025–2026: Warum "reines Textlesen" nicht ausreicht

Maschinenbauunternehmen erhalten die meisten Zeichnungen immer noch auf dieselbe Weise wie vor einem Jahrzehnt: als PDFs (manchmal sogar als einfache Bilder). Nicht als DWG. Nicht als DXF. Nicht als sauberes 3D-Modell. Ein Einkaufsteam bei einem OEM erhält ein PDF. Eine Lohnfertigung, die ein Teil kalkuliert, erhält ein PDF. Ein Lieferanten-Qualitätsingenieur, der eine Abweichung prüft, erhält ein PDF.

Diese Realität ist wichtig, weil sie definiert, was "gute OCR" in 2025–2026 tatsächlich bedeuten sollte: nicht die Konvertierung eines PDFs in ein anderes Dateiformat, sondern die Umwandlung einer Zeichnung in strukturierte, validierte Ingenieursdaten, denen nachgelagerte Systeme vertrauen können.

Diese Lücke schließt Werk24.


Der übliche Ansatz: Erst konvertieren, dann verstehen

Viele Tools am Markt positionieren sich als "OCR für CAD" oder "Zeichnungsdigitalisierung". Oft sieht der Workflow so aus:

  1. PDF-Zeichnung nehmen
  2. In DWG/DXF konvertieren (oder Vektorisierung versuchen)
  3. Generische OCR auf verbleibendem Text ausführen
  4. Das Ergebnis Menschen (oder einem anderen System) zur Interpretation und Bereinigung übergeben

Dieser "Konvertierung-zuerst"-Ansatz kann als Vorverarbeitungsschritt nützlich sein – zum Beispiel, wenn das eigentliche Ziel die Bearbeitung von Geometrie in CAD ist. Aber bei Angebotserstellung, ERP-Eingabe, Machbarkeitsprüfungen oder Lieferanten-Workflows verfehlt er meist das eigentliche Problem:

Der schwierige Teil ist nicht, Pixel in Buchstaben zu verwandeln. Der schwierige Teil ist, Ingenieurswissen in strukturierte Bedeutung zu verwandeln.


Warum "OCR-Ausgabe" nicht "Ingenieursdaten" ist

Generische OCR-Systeme tun etwas Einfaches (und oft Beeindruckendes): Sie verwandeln Gedrucktes in Text. Aber technische Zeichnungen sind keine Dokumente im Sinne von "PDF als Seite" – sie sind formale Ingenieursprachen bestehend aus:

  • Symbolen
  • Konventionen
  • räumlichen Regeln
  • kontextabhängiger Bedeutung
  • Standards (ISO vs ASME)
  • Schriftfeldern und Metadaten
  • Notizen und Ausnahmen

Ein kleines Beispiel zeigt den Unterschied:

"C45" könnte bedeuten:

  • einen gängigen Stahltyp in vielen Kontexten, oder
  • eine Fase-Bemaßung ("C 45° …") je nach Sprachkonvention und wo es erscheint, oder
  • etwas völlig anderes je nach Zeichnungsstruktur.

Eine OCR-Engine kann das nicht zuverlässig allein durch Text entscheiden. Die Bedeutung hängt ab von:

  • Wo es auf dem Blatt steht (Schriftfeld vs Geometriebereich)
  • Was in der Nähe ist (Hinweislinie, Fasensymbol, Materialfeld, Notizenbereich)
  • Welche Zeichnungskonvention verwendet wird (ISO/EN vs ASME)
  • Wie der Rest der Zeichnung ähnliche Informationen kodiert

Wenn Ihr nachgelagerter Prozess strukturierte Felder benötigt – Material, Beschichtung, Gewindespezifikationen, Toleranzen, Oberflächengüte, Prüfanforderungen – dann ist "ein Haufen OCR-Text" keine brauchbare Schnittstelle.


Was Werk24 anders macht: Von Zeichnungseingabe zu strukturierter Bedeutung

Werk24 beginnt dort, wo Ihr echter Prozess beginnt: PDF oder Bild rein, strukturierte Daten raus.

Die Ausgabe ist nicht "OCR-Text". Es sind interpretierte, normalisierte Daten für die Automatisierung:

  • ERP- oder PLM-Eingabe
  • automatische Machbarkeitsprüfungen
  • Lieferanten-Onboarding / Lieferanten-Bestätigungs-Workflows
  • Kosten- und Preisberechnung
  • Qualitäts- und Prüfvorbereitung

In der Praxis bedeutet das, dass Werk24 sich auf drei Ebenen konzentriert, die generische OCR typischerweise nicht abdecken kann:

1) Robustes Lesen realer Zeichnungen (nicht idealisierter PDFs)

Zeichnungen kommen mit allen möglichen Unperfektion an:

  • gedrehte Textblöcke
  • gemischte Orientierungen
  • gescannte Blätter
  • schwache Linien oder Kompressionsartefakte
  • mehrsprachige Layouts
  • inkonsistente Formatierung zwischen Lieferanten

Wenn eine OCR-Pipeline bei Rotation oder Layout-Variabilität bricht, scheitert der Prozess gleich am Anfang. Werk24 ist speziell für diese Realitäten mechanischer Zeichnungen in Lieferketten konzipiert.

2) Kontextbewusste Interpretation von Symbolen und Platzierung

Mechanische Zeichnungen kodieren Bedeutung durch Position.

Ein einfaches aber kritisches Beispiel ist Oberflächenrauheit:

  • "Ra 3.2" auf einer Seite eines Oberflächensymbols kann etwas anderes bedeuten als auf der anderen Seite, je nach Konvention und Symbolkonfiguration.
  • Derselbe numerische Wert kann zu verschiedenen Attributen gehören, basierend auf Platzierung und Symbolstruktur.

Werk24 behandelt die Zeichnung als strukturierte Sprache, nicht als Textdokument. Es liest nicht nur "Ra 3.2" – es bestimmt was dieser Wert bedeutet und gibt ihn im korrekten strukturierten Feld zurück.

3) Normalisierung in standard, maschinennutzbare Felder

Selbst wenn Ingenieure dasselbe spezifizieren, schreiben sie es oft unterschiedlich.

Zum Beispiel könnte eine Gewindespezifikation erscheinen als:

  • kurze Notiz
  • Bemaßung mit impliziten Standardwerten
  • lokale Notation, die Erweiterung braucht
  • Mischung aus Text- und Symbolhinweisen

Werk24 hört nicht bei der Transkription auf. Es normalisiert Spezifikationen, sodass Ihre nachgelagerte Logik auf konsistente Felder vertrauen kann – z.B. Gewindeart, Nenngröße, Steigung, Toleranzklasse, Gewindetiefe und verwandte Beschränkungen – ohne eine weitere Bereinigungsstufe zu benötigen.


ISO vs ASME: Zwei Welten, eine strukturierte Ausgabe

Globale Fertigung bedeutet, dass Zeichnungen aus verschiedenen Standards-Ökosystemen kommen:

  • ISO/EN (häufig in Europa verwendet): starke Nutzung von Symbolen und standardisierten Platzierungen
  • ASME (häufig in den USA verwendet): oft textlastiger, mit umfangreichen allgemeinen Notizen und zeichnungsweiten Anweisungen

US-Zeichnungen enthalten häufig:

  • allgemeine Notizen
  • "Canvas-Notizen" / blattweite Spezifikationen
  • textuelle Anforderungen, die in ISO-Stil-Zeichnungen symbolisiert würden

Werk24 ist darauf ausgelegt, strukturierte Daten aus beiden Stilen zu extrahieren und konsistente Ausgabe zu liefern, unabhängig davon, ob die Zeichnung in europäischer oder amerikanischer Konvention erstellt wurde.

Für Kunden ist das wichtig, weil es versteckte Betriebskosten eliminiert:

  • Sie brauchen keine verschiedenen Pipelines nach Region
  • Sie brauchen keine verschiedenen Validierungsregelsätze pro Lieferantengeografie
  • Sie können nachgelagerte Automatisierung über Ihre gesamte Lieferantenbasis standardisieren

Einheiten und Konvertierungen: Automatisierung erfordert Konsistenz

Ein weiteres häufiges reales Problem: Einheiten.

Manche Zeichnungen sind in:

  • Millimetern
  • Zoll
  • gemischten Einheitenkontexten (oder Legacy-Vorlagen)

Automatisierung bricht, wenn Einheiten mehrdeutig oder inkonsistent angewendet sind. Werk24 beinhaltet Einheitenerkennung und (wo nötig) Einheitennormalisierung, sodass Sie zuverlässige Machbarkeitsprüfungen, Kostenmodelle und Prüflogik auf den extrahierten Daten ausführen können.

Das Ziel ist einfach: dieselbe Zeichnungsabsicht sollte dasselbe strukturierte Ergebnis produzieren, auch wenn die Eingabekonventionen unterschiedlich sind.


Warum PDF → DWG/DXF-Konvertierung oft das falsche Ziel ist

Wenn Ihr Ziel Angebotserstellung, Machbarkeit, ERP-Eingabe oder Lieferanten-Workflows ist, ist die Konvertierung einer Zeichnung in DWG/DXF meist nicht die "Lösung" – es ist ein Umweg.

Denn am Ende dieses Umwegs müssen Sie immer noch die echten Fragen beantworten:

  • Was ist das Material, wirklich?
  • Welche Toleranzen gelten, und wo?
  • Welche Gewinde existieren, mit welchen Längen und Klassen?
  • Welche Oberflächengüten gelten für welche Features?
  • Welche Notizen sind globale Anforderungen vs lokale Ausnahmen?
  • Welche Werte gehören zu welchen Symbolen, basierend auf Platzierung?

Eine Geometriekonvertierung löst nicht die Interpretation. Sie ändert nur den Container.

Werk24s Ansatz ist, sich direkt auf die Ausgabe zu konzentrieren, die der Geschäftsprozess tatsächlich braucht: strukturierte, interpretierte Daten.


Was das in 2025–2026 ermöglicht

Sobald Zeichnungsinformationen zuverlässig strukturiert und normalisiert sind, können Teams Workflows automatisieren, die zuvor standardmäßig manuell waren:

  • RFQ-Eingabe: automatisch Schlüsselfelder aus einem PDF in Ihren Angebots-Workflow einfügen
  • Machbarkeitsprüfungen: regelbasierte Validierung (Materialien, Toleranzen, Oberflächenanforderungen, Gewinde) bevor ein Ingenieur es anfasst
  • ERP/PLM-Konsistenz: weniger menschliche Transkriptionsfehler und weniger "Freitext"-Felder
  • Lieferanten-Workflows: Bestätigungsschleifen, die Lieferanten dazu verpflichten, kritische Anforderungen explizit zu bestätigen
  • Kosten- und Preismodelle: Äpfel mit Äpfeln vergleichen, weil die Daten normalisiert sind
  • Qualitätsvorbereitung: prüfrelevante Datensätze aus derselben extrahierten Struktur generieren

Der Punkt ist nicht, Ingenieure zu ersetzen. Der Punkt ist, zu stoppen, Ingenieurzeit für Transkription, Neuformatierung und Bereinigung zu verschwenden.


Zusammenfassung: Das OCR-Gespräch hat sich verschoben

In 2025–2026 wird OCR-Qualität nicht mehr daran gemessen, ob sie "die Buchstaben korrekt gelesen hat?"

Für mechanische Zeichnungen ist der Standard höher:

  • Hat es Kontext verstanden?
  • Hat es Symbole korrekt interpretiert?
  • Hat es Variationen in konsistente Felder normalisiert?
  • Hat es ISO- und ASME-Stile zuverlässig behandelt?
  • Hat es strukturierte Ausgaben produziert, die nachgelagerte Systeme ohne manuelle Bereinigung verwenden können?

Das ist die Kategorie, für die Werk24 gebaut ist: mechanische Zeichnungsinterpretation, nicht generische OCR.