Jenseits von OCR - Einsatz von KI zum Verständnis komplexer technischer Zeichnungen
Die Maschinenbaubranche sucht seit langem nach technologischen Lösungen zur Automatisierung der Datenextraktion aus technischen Zeichnungen. Die einzige Möglichkeit war bisher die Verwendung von OCR (Optical Character Recognition). Vielleicht haben Sie bereits OCR-Lösungen wie Google Vision oder Amazon Textract ausprobiert, aber bald festgestellt:
Eine allgemeine OCR reicht nicht aus, um technische Zeichnungen zu verstehen.
Eine reine OCR-Lösung hat zahlreiche Einschränkungen, wenn es darum geht, komplexe Dinge wie technische Zeichnungen zu verstehen. Schauen wir uns genauer an, wie die KI-Algorithmen von Werk24 die generische OCR bei verschiedenen Herausforderungen übertrafen und die vollständig automatische Datenextraktion aus technischen Zeichnungen erreichten.


Textelemente strukturieren
Die größte Herausforderung für das maschinelle Lesen von technischen Zeichnungen besteht darin, die Bedeutung der einzelnen Textelemente zu verstehen und zu wissen, wann und wie sie in einem strukturierten Datenformat zusammengefasst werden sollen. OCR kann den Text nur auslesen, aber nicht die Bedeutung seines eigenen Ergebnisses verstehen.
In technischen Zeichnungen gibt es viele komplexe Datenformate wie Maße, GD&T und Informationen in Titelblöcken. Maße werden oft als Nenngröße mit übereinander gestapelten oberen und unteren Abweichungen dargestellt. OCR kann Text nur von links nach rechts extrahieren und ist nicht in der Lage zu unterscheiden, ob es sich um die Nenngröße, die obere oder die untere Abweichung handelt. Und aufgrund der komplexen visuellen Umgebung macht OCR auch zahlreiche Fehler bei der Gruppierung entsprechender Elemente.
Werk24 hat fortschrittliche Modelle für maschinelles Lernen und KI-Algorithmen entwickelt, um alle gängigen Formate von Maßen mit Nennmaß, Toleranz, Passmaß und Gewinden zu verstehen. Durch das Verständnis der individuellen Bedeutung jedes Elements auf der Grundlage seines Inhalts, Kontexts und seiner visuellen Gruppierung kann die API von Werk24 die richtigen Elemente in strukturierte Daten gruppieren und als JSON-Format zurückgeben, das von Maschinen genutzt und direkt in Ihr Softwaresystem eingespeist werden kann.






Ein weiteres Beispiel ist der Titelblock, in dem Beschriftungen (der kleine Text, der den Inhalt beschreibt) wie "Bezeichnung", "Zeichnungsnummer" oder "Unternehmen" häufig fehlen. Dies macht OCR-Ergebnisse unbrauchbar, da der Computer nicht versteht, ob es sich bei dem Text um die Bezeichnung, die Zeichnungsnummer oder um Unternehmensangaben handelt. Werk24 nutzt KI und ML, um individuelle Texte zu verstehen und die fehlenden Beschriftungen mit den richtigen Textergebnissen zu verknüpfen, so dass Ihr RFQ- oder ERP-System diese Informationen direkt nutzen kann.

Kontextabhängige Korrektur
OCR versagt oft bei der Unterscheidung von Zahlen oder gleich aussehenden Zeichen, wie "1", "7" und "I", "0" und "O" oder "6" und "8". Dies macht OCR in der Praxis zu keiner zuverlässigen Option bei der Verarbeitung von technischen Zeichnungen.
Die Technologie von Werk24 versteht die Bedeutung und den Kontext eines jeden Textelements. Darüber hinaus werden Maßbezeichnungen und Maßlinien miteinander verglichen. Das bedeutet, dass sie weiß, dass eine Nenngröße "11" statt "17" sein sollte, auch wenn sie sehr zweideutig und ähnlich aussieht.
Verstehen von Sondersymbolen
Allgemeine OCR-Lösungen können spezielle Symbole, einschließlich aller GD&T-Symbole, nicht lesen. Und für einige mathematische Symbole wie "Ø", "±" liefert die generische OCR unzuverlässige Ergebnisse in Bezug auf unterschiedliche Schriftarten.
Mit seinem eigenen trainierten Machine Learning Modell versteht Werk24 alle Sonderzeichen in Maßen und Toleranzen.




Komplexe grafische Umrahmung
Allgemeine OCR kann Texte in Zeichnungen, die von unübersichtlichen und überschnittenen grafischen Elementen wie Linien, Symbolen, Anmerkungen usw. umgeben sind, nicht zuverlässig erkennen.
Die TechRead API von Werk24 liest Textelemente trotz der sie umgebenden Geräusche. So können kleine Textfragmente auch dann noch mit hoher Genauigkeit gelesen werden, wenn sich Rotationslinien kreuzen und Maßnahmen stören.
Mehrfachausrichtung
Viele gängige OCR-Lösungen setzen eine bestimmte Ausrichtung des Dokuments voraus. Beispielsweise zeigen Texte in einem Artikel immer in eine Richtung, während es in technischen Zeichnungen oft Textelemente in verschiedenen Ausrichtungen gibt. Dies führt dazu, dass viele Textelemente von OCR-Lösungen wie Amazon Textract übersehen werden.
Werk24 geht nicht von einer dominanten Ausrichtung aus, was bei der Datenextraktion von großem Vorteil ist. Stattdessen kann die Technologie Maßnahmen aus jedem Textelement einzeln auslesen, unabhängig davon, ob es horizontal, vertikal oder in einem Winkel geneigt ist
Die Komplettlösung von Werk24
Da der Markt nach einer ausgefeilten und zuverlässigen technischen Lösung zur Extraktion von Daten aus technischen Zeichnungen sucht, hat Werk24 mit seiner TechRead API diesen Bedarf bereits gedeckt. Ab sofort bieten wir die Möglichkeit, wichtige Daten aus technischen Zeichnungen automatisch zu extrahieren, wie z.B. Maße, Toleranzen, GD&T und Titelblöcke, so dass Kunden nicht mehr durch unzureichende OCR-Lösungen behindert werden. Ab sofort sind alle wichtigen Produktionsdaten in technischen Zeichnungen innerhalb weniger Sekunden im JSON-Format zugänglich.
Dieser Artikel wurde automatisch aus dem Englischen übersetzt. English version