Más allá del OCR: uso de la IA para comprender dibujos técnicos complejos

Jul 29, 2021 · Written by Aylin Akseki

Disponible en:

El sector de la construcción de maquinaria lleva mucho tiempo buscando soluciones tecnológicas para automatizar la extracción de datos de los dibujos técnicos. Hasta ahora, la única opción era utilizar el reconocimiento óptico de caracteres (OCR). Es posible que ya haya probado soluciones OCR como Google Vision o Amazon Textract, pero pronto se dio cuenta:

El OCR genérico no basta para comprender los dibujos técnicos.

Las soluciones basadas únicamente en OCR tienen numerosas limitaciones a la hora de comprender cosas complejas como los dibujos técnicos. Vamos a echar un vistazo más profundo a cómo los algoritmos de IA de Werk24 superaron el OCR genérico en diferentes desafíos y lograron la extracción de datos completamente automática de Dibujos Técnicos.

Salida de Google Vision OCR mostrando dimensiones de brida y notas mal interpretadas

Resultado de la IA de Werk24 estructurando dimensiones de brida, tolerancias y anotaciones correctamente

Estructuración de elementos de texto

El mayor reto para una máquina de lectura de dibujos técnicos es comprender el significado de los elementos individuales del texto y saber cuándo y cómo agruparlos en un formato de datos estructurado. El OCR solo puede leer el texto, pero no comprender el significado de su propio resultado.

En los Dibujos Técnicos, hay muchos formatos de datos complejos como Medida, GD&T e información en los Bloques de Título. La medida se presenta a menudo como tamaño nominal con la desviación superior e inferior apiladas una encima de otra. El OCR sólo puede extraer texto de izquierda a derecha y no es capaz de distinguir qué texto es Tamaño nominal, Desviación superior o Desviación inferior. Y debido a la complejidad del entorno visual, el OCR también comete numerosos errores al agrupar los elementos correspondientes.

Werk24 ha desarrollado modelos avanzados de aprendizaje automático y algoritmos de IA para comprender todos los formatos comunes de medidas con tamaño nominal, tolerancia, tamaño de ajuste y roscas. Al comprender el significado individual de cada elemento basado en su contenido, contexto y agrupación visual, la API de Werk24 puede agrupar los elementos correctos en datos estructurados y devolverlos en formato JSON que puede ser utilizado por la máquina y alimentar su sistema de software directamente.

Werk24 interfaz grouping medición llamadas de un flange dibujo en structured datos

Werk24 visualización aligning nominal sizes con their tolerancias

Werk24 panel de control identificando fit símbolos y rosca notes en el dibujo

Werk24 interfaz extrayendo GD&T característica control frames y datums

Werk24 resumen consolidando mediciones, tolerancias, y metadatos

Werk24 export view presentando dibujo técnico insights para downstream systems

Otro ejemplo es el bloque de título, en el que suelen faltar subtítulos (el pequeño texto que describe el contenido) como "Designación", "ID del dibujo" o "Empresa". Esto hace que los resultados del OCR sean inútiles, porque el ordenador no entiende si el texto es la designación, el ID del dibujo o los detalles de la empresa. Werk24 utiliza IA y ML para comprender el texto individual y emparejar los subtítulos que faltan con los resultados de texto correctos, para que su sistema RFQ o ERP pueda utilizar directamente dicha información.

Werk24 bloque de título parser pairing missing leyendas con their correct valores

Corrección en función del contexto

El OCR puede fallar a menudo a la hora de diferenciar números o caracteres que se parecen, como el "1", el "7 "y la "I", el "0" y la "O" o el "6" y el "8". Esto hace que el OCR no sea una opción fiable para procesar dibujos técnicos en la práctica real.

La tecnología de Werk24 comprende el significado y el contexto de cada elemento de texto. Además, realiza comprobaciones cruzadas de las etiquetas y las líneas de medida. Esto significa que sabe que un Tamaño Nominal debería ser "11" en lugar de "17" en una situación en la que parece muy ambiguo y parecido.

Comprender los símbolos especiales

Las soluciones OCR genéricas no pueden leer los símbolos especiales, incluidos todos los símbolos GD&T. Y para algunos símbolos matemáticos como "Ø", "±", el OCR genérico tiene resultados poco fiables con respecto a las diferentes fuentes.

Con su propio modelo de aprendizaje automático, Werk24 entiende todos los símbolos especiales de Medidas y Tolerancias.

Werk24 detectando GD&T símbolos y special characters dentro de dibujo técnico text

Werk24 interpreting diameter y plus-minus símbolos un través de varying fonts

Werk24 reading rotated dimensión text without losing accuracy

Werk24 compiling símbolo-heavy notes en actionable structured salida

Entorno gráfico complejo

El OCR genérico no puede detectar con fiabilidad textos en dibujos que están rodeados de elementos gráficos desordenados e intersectados, como líneas, símbolos, anotaciones, etc.

La API TechRead de Werk24 lee elementos de texto a pesar de los ruidos que los rodean. Así, cuando las líneas de rotación se cruzan e interfieren con las Medidas, los pequeños fragmentos de texto pueden seguir leyéndose con gran precisión.

Orientación múltiple

Muchas de las principales soluciones de OCR requieren una orientación dominante del documento. Por ejemplo, los textos en un artículo siempre apuntan en una dirección, mientras que en los dibujos técnicos a menudo hay elementos de texto en diferentes orientaciones. Esto hace que muchos elementos de texto no sean detectados por OCR como Amazon Textract.

Werk24 no asume una orientación dominante, lo que supone una gran ventaja a la hora de extraer datos. En su lugar, la tecnología puede leer Medidas de cada elemento de texto individualmente, ya sea horizontal, vertical o inclinado en ángulo...

La solución completa de Werk24

Como el mercado ha buscado una solución técnica sofisticada y fiable para extraer datos de dibujos técnicos, Werk24 ya ha satisfecho esta necesidad con su API TechRead. Disponible ahora, proporcionamos los medios para obtener automáticamente datos importantes de Dibujos Técnicos, incluyendo Medidas, Tolerancias, GD&T y Bloques de Títulos, asegurando que los clientes ya no se vean frenados por soluciones OCR inadecuadas. Todos los datos de producción importantes de los dibujos técnicos están disponibles en formato JSON en cuestión de segundos.

Este artículo fue traducido automáticamente del inglés. English version