Teil 1: Die Grenzen der herkömmlichen OCR bei der Verarbeitung technischer Zeichnungen
Einführung
Technische Zeichnungen sind die Grundlage der Kommunikation in der Welt der Technik. Die Extraktion von Daten aus diesen Zeichnungen war jedoch schon immer eine Herausforderung. Die Maschinenbaubranche sucht seit langem nach technologischen Lösungen zur Automatisierung der Datenextraktion aus technischen Zeichnungen. Die einzige Möglichkeit war bisher die Verwendung von OCR (Optical Character Recognition), wie z. B. [Google Vision] (https://cloud.google.com/use-cases/ocr) oder [Amazon Textract] (https://aws.amazon.com/textract/). Diese Methoden sind bei der Komplexität von technischen Zeichnungen oft unzureichend.
In diesem ersten Teil unserer Serie gehen wir der Frage nach, warum OCR bei technischen Zeichnungen Schwierigkeiten hat und warum eine fortschrittlichere Lösung erforderlich ist, um den Anforderungen der modernen Technik gerecht zu werden.
Warum OCR bei technischen Zeichnungen versagt
OCR wird häufig für die Extraktion von Text aus Dokumenten verwendet, wurde aber nie für die besonderen Anforderungen technischer Zeichnungen entwickelt. Hier sind die Hauptgründe, warum OCR nicht funktioniert:
Fragmentierter Text und komplexe Datenformate
Die größte Herausforderung für Maschinen beim Lesen technischer Zeichnungen besteht darin, die Bedeutung der einzelnen Textelemente zu verstehen und zu wissen, wann und wie sie in einem strukturierten Datenformat zusammengefasst werden sollen. OCR kann den Text nur lesen, aber nicht die Bedeutung seines eigenen Ergebnisses verstehen.
Technische Zeichnungen weisen oft komplexe Datenformate und fragmentierten Text auf, wie z. B. Measure und GD&T. Maße werden häufig als Nenngröße mit übereinander gestapelten oberen und unteren Abweichungen dargestellt. OCR liest Text linear, kann also nur Text von links nach rechts extrahieren und ist nicht in der Lage zu unterscheiden, ob es sich um eine Nenngröße, eine obere oder untere Abweichung handelt. Außerdem unterlaufen ihr zahlreiche Fehler bei der Gruppierung entsprechender Elemente aufgrund der komplexen visuellen Umgebung, so dass sie nicht in der Lage ist, diese Beziehungen zu verstehen.
Ein weiteres Beispiel ist der Titelblock, wo Überschriften (der kleine Text, der den Inhalt beschreibt) wie "Bezeichnung", "Zeichnungs-ID", "Unternehmen" häufig fehlen. Dies macht die OCR-Ergebnisse unbrauchbar, da der Computer nicht weiß, ob es sich bei dem Text um die Bezeichnung, die Zeichnungsnummer oder um Unternehmensangaben handelt.
Mehrere Möglichkeiten, den gleichen Gedanken auszudrücken
In technischen Zeichnungen wird oft dieselbe Idee auf unterschiedliche Weise ausgedrückt. Zum Beispiel bedeuten SM1, CH45 und 1x45deg alle dasselbe: eine Fase der Länge 1 und eines Winkels von 45 Grad. Andererseits kann sich dasselbe Wort auf unterschiedliche Dinge beziehen, wie z. B. CH45, was eine Fase oder ein Material bedeuten kann. In beiden Fällen kann OCR nicht weiterhelfen.
Kontext-Bewusstsein
OCR kann oft Zahlen oder gleich aussehende Zeichen nicht unterscheiden, wie z.B. "1", "7" und "I", "0" und "O" oder "6" und "8". Dies macht OCR in der Praxis zu einer unzuverlässigen Option bei der Verarbeitung von technischen Zeichnungen.
Besondere Symbole und Anmerkungen
[Symbole wie "Ø" (Durchmesser) oder "±" (Toleranz) sind in technischen Zeichnungen weit verbreitet, werden aber von OCR aufgrund der unterschiedlichen Schriftart oft falsch interpretiert oder ignoriert, was zu unzuverlässigen Ergebnissen führt. Ähnlich verhält es sich mit GD&T-Symbolen (Geometric Dimensioning and Tolerancing), die die Möglichkeiten von OCR übersteigen.
Mehrere Ausrichtungen
Im Gegensatz zu Standarddokumenten enthalten technische Zeichnungen Text in verschiedenen Ausrichtungen - horizontal, vertikal oder sogar gekippt. OCR hat Schwierigkeiten, diese Abweichungen zu verarbeiten, was zu unvollständigen oder ungenauen Ergebnissen führt.
Komplexe Grafiken
Technische Zeichnungen sind voll von sich kreuzenden Linien, Anmerkungen und anderen visuellen Elementen, die OCR-Systeme verwirren, die eine dominante Ausrichtung des Dokuments erfordern, was zu Fehlern oder fehlenden Daten führt.
Der Bedarf an einer intelligenteren Lösung
Die Einschränkungen von OCR führen zu Ineffizienzen, Fehlern und verpassten Chancen für Unternehmen, die auf technische Zeichnungen angewiesen sind. Um das Potenzial von technischen Zeichnungen wirklich auszuschöpfen, ist eine Lösung erforderlich, die den Kontext, die Struktur und die Bedeutung der Daten versteht.
Werk24's AI-powered TechRead API** ist diese Lösung. Werk24 steht an der Spitze dieser KI-gesteuerten Datenrevolution im Fertigungssektor und ermöglicht es Ihnen, mühelos wesentliche Fertigungsdaten aus technischen Zeichnungen zu extrahieren.
Was kommt als Nächstes?
Im nächsten Teil dieser Serie werden wir uns ansehen, wie die fortschrittliche KI-Technologie von Werk24 über OCR hinausgeht und die Datenextraktion aus technischen Zeichnungen revolutioniert. Bleiben Sie dran für Teil 2. In der Zwischenzeit erfahren Sie, wie Werk24 bereits Unternehmen dabei hilft, ihre Prozesse mit modernsten KI-Lösungen zu optimieren.
Kontaktieren Sie jetzt unsere Experten und finden Sie heraus, wie Werk24 Ihr Unternehmen verändern kann!
Dieser Artikel wurde automatisch aus dem Englischen übersetzt. English version