Más allá del OCR: uso de la IA para comprender dibujos técnicos complejos
El sector de la construcción de maquinaria lleva mucho tiempo buscando soluciones tecnológicas para automatizar la extracción de datos de los dibujos técnicos. Hasta ahora, la única opción era utilizar el reconocimiento óptico de caracteres (OCR). Es posible que ya haya probado soluciones OCR como Google Vision o Amazon Textract, pero pronto se dio cuenta:
El OCR genérico no basta para comprender los dibujos técnicos.
Las soluciones basadas únicamente en OCR tienen numerosas limitaciones a la hora de comprender cosas complejas como los dibujos técnicos. Vamos a echar un vistazo más profundo a cómo los algoritmos de IA de Werk24 superaron el OCR genérico en diferentes desafíos y lograron la extracción de datos completamente automática de Dibujos Técnicos.


Estructuración de elementos de texto
El mayor reto para una máquina de lectura de dibujos técnicos es comprender el significado de los elementos individuales del texto y saber cuándo y cómo agruparlos en un formato de datos estructurado. El OCR solo puede leer el texto, pero no comprender el significado de su propio resultado.
En los Dibujos Técnicos, hay muchos formatos de datos complejos como Medida, GD&T e información en los Bloques de Título. La medida se presenta a menudo como tamaño nominal con la desviación superior e inferior apiladas una encima de otra. El OCR sólo puede extraer texto de izquierda a derecha y no es capaz de distinguir qué texto es Tamaño nominal, Desviación superior o Desviación inferior. Y debido a la complejidad del entorno visual, el OCR también comete numerosos errores al agrupar los elementos correspondientes.
Werk24 ha desarrollado modelos avanzados de aprendizaje automático y algoritmos de IA para comprender todos los formatos comunes de medidas con tamaño nominal, tolerancia, tamaño de ajuste y roscas. Al comprender el significado individual de cada elemento basado en su contenido, contexto y agrupación visual, la API de Werk24 puede agrupar los elementos correctos en datos estructurados y devolverlos en formato JSON que puede ser utilizado por la máquina y alimentar su sistema de software directamente.






Otro ejemplo es el bloque de título, en el que suelen faltar subtítulos (el pequeño texto que describe el contenido) como "Designación", "ID del dibujo" o "Empresa". Esto hace que los resultados del OCR sean inútiles, porque el ordenador no entiende si el texto es la designación, el ID del dibujo o los detalles de la empresa. Werk24 utiliza IA y ML para comprender el texto individual y emparejar los subtítulos que faltan con los resultados de texto correctos, para que su sistema RFQ o ERP pueda utilizar directamente dicha información.

Corrección en función del contexto
El OCR puede fallar a menudo a la hora de diferenciar números o caracteres que se parecen, como el "1", el "7 "y la "I", el "0" y la "O" o el "6" y el "8". Esto hace que el OCR no sea una opción fiable para procesar dibujos técnicos en la práctica real.
La tecnología de Werk24 comprende el significado y el contexto de cada elemento de texto. Además, realiza comprobaciones cruzadas de las etiquetas y las líneas de medida. Esto significa que sabe que un Tamaño Nominal debería ser "11" en lugar de "17" en una situación en la que parece muy ambiguo y parecido.
Comprender los símbolos especiales
Las soluciones OCR genéricas no pueden leer los símbolos especiales, incluidos todos los símbolos GD&T. Y para algunos símbolos matemáticos como "Ø", "±", el OCR genérico tiene resultados poco fiables con respecto a las diferentes fuentes.
Con su propio modelo de aprendizaje automático, Werk24 entiende todos los símbolos especiales de Medidas y Tolerancias.




Entorno gráfico complejo
El OCR genérico no puede detectar con fiabilidad textos en dibujos que están rodeados de elementos gráficos desordenados e intersectados, como líneas, símbolos, anotaciones, etc.
La API TechRead de Werk24 lee elementos de texto a pesar de los ruidos que los rodean. Así, cuando las líneas de rotación se cruzan e interfieren con las Medidas, los pequeños fragmentos de texto pueden seguir leyéndose con gran precisión.
Orientación múltiple
Muchas de las principales soluciones de OCR requieren una orientación dominante del documento. Por ejemplo, los textos en un artículo siempre apuntan en una dirección, mientras que en los dibujos técnicos a menudo hay elementos de texto en diferentes orientaciones. Esto hace que muchos elementos de texto no sean detectados por OCR como Amazon Textract.
Werk24 no asume una orientación dominante, lo que supone una gran ventaja a la hora de extraer datos. En su lugar, la tecnología puede leer Medidas de cada elemento de texto individualmente, ya sea horizontal, vertical o inclinado en ángulo...
La solución completa de Werk24
Como el mercado ha buscado una solución técnica sofisticada y fiable para extraer datos de dibujos técnicos, Werk24 ya ha satisfecho esta necesidad con su API TechRead. Disponible ahora, proporcionamos los medios para obtener automáticamente datos importantes de Dibujos Técnicos, incluyendo Medidas, Tolerancias, GD&T y Bloques de Títulos, asegurando que los clientes ya no se vean frenados por soluciones OCR inadecuadas. Todos los datos de producción importantes de los dibujos técnicos están disponibles en formato JSON en cuestión de segundos.
Este artículo fue traducido automáticamente del inglés. English version