Parte 1 : Las limitaciones del OCR tradicional en el tratamiento de dibujos técnicos

· Written by Maria Anwer

Disponible en:

Introducción

Los dibujos técnicos son la base de la comunicación en el mundo de la ingeniería. Sin embargo, extraer datos de estos dibujos siempre ha sido un reto. El sector de la construcción de maquinaria lleva mucho tiempo buscando soluciones tecnológicas para automatizar la extracción de datos de los dibujos técnicos. Hasta ahora, la única opción era utilizar OCR (reconocimiento óptico de caracteres), como Google Vision o Amazon Textract. Estos métodos suelen quedarse cortos ante la complejidad de los dibujos técnicos.

En esta primera parte de nuestra serie, analizaremos por qué el OCR tiene problemas con los dibujos técnicos y por qué se necesita una solución más avanzada para satisfacer las exigencias de la ingeniería moderna.

Por qué falla el OCR con los dibujos técnicos

El OCR se ha utilizado ampliamente para extraer texto de documentos, pero nunca se diseñó para afrontar los retos específicos de los dibujos técnicos. Estas son las principales razones por las que el OCR se queda corto:

  1. Texto fragmentado y formatos de datos complejos

    El mayor reto para las máquinas a la hora de leer dibujos técnicos es comprender el significado de los elementos individuales del texto y saber cuándo y cómo agruparlos en un formato de datos estructurado. El OCR solo puede leer el texto, pero no comprender el significado de su propio resultado.

    Los dibujos técnicos suelen presentar formatos de datos complejos y texto fragmentado, como [Medida](/base de conocimientos/medidas) y [GD&T](/base de conocimientos/gdnts). La medida se presenta a menudo como un tamaño nominal con la desviación superior e inferior apiladas una encima de la otra. El OCR lee el texto de forma lineal, por lo que sólo puede extraer texto de izquierda a derecha y no es capaz de distinguir qué texto es Tamaño Nominal, Desviación Superior o Desviación Inferior. También comete numerosos errores al agrupar los elementos correspondientes debido al complejo entorno visual, por lo que es incapaz de comprender estas relaciones.

    Otro ejemplo es el [Bloque de título] (/base de conocimiento/bloque de título), en el que suelen faltar subtítulos (el pequeño texto que describe de qué trata el contenido) como "Designación", "ID del dibujo", "Empresa". Esto hace que los resultados del OCR sean inútiles, porque el ordenador no entiende si el texto es Designación, ID del dibujo o detalles de la empresa.

  2. Múltiples Formas de Expresar la Misma Idea

    A menudo, los dibujos técnicos tienen la misma idea expresada de distintas maneras. Por ejemplo, SM1, CH45 y 1x45deg significan lo mismo: un chaflán de longitud 1 y ángulo de 45deg. Por otro lado, la misma palabra puede referirse a cosas diferentes, como CH45, que puede significar un chaflán o un material. El OCR no podría ayudar en ninguna de estas situaciones.

  3. Conciencia del contexto

    El OCR puede fallar a menudo a la hora de diferenciar números o caracteres que se parecen, como "1", "7" e "I", "0" y "O" o "6" y "8". Esto hace que, en la práctica, el OCR sea una opción poco fiable para procesar dibujos técnicos.

  4. Símbolos y anotaciones especiales

    Los [símbolos](/base de conocimiento/símbolos) como "Ø" (diámetro) o "±" ([tolerancia](/base de conocimiento/tolerancias)) son comunes en los dibujos técnicos, pero a menudo son malinterpretados o ignorados por el OCR debido a la diferencia de fuentes, lo que da lugar a resultados poco fiables. Del mismo modo, los símbolos GD&T (Geometric Dimensioning and Tolerancing) están fuera del alcance del OCR.

  5. Orientaciones Múltiples

    A diferencia de los documentos estándar, los dibujos técnicos contienen texto en distintas orientaciones: horizontal, vertical o incluso inclinado. El OCR tiene dificultades para procesar estas variaciones, lo que da lugar a resultados incompletos o imprecisos.

  6. Gráficos Complejos

    Los dibujos técnicos están repletos de líneas entrecruzadas, anotaciones y otros elementos visuales que confunden a los sistemas de OCR, que requieren una orientación dominante del documento, lo que da lugar a errores o a la omisión de datos.

La necesidad de una solución más inteligente

Las limitaciones del OCR generan ineficiencias, errores y oportunidades perdidas para las empresas que dependen de los dibujos técnicos. Para liberar realmente el potencial de los dibujos técnicos, es esencial contar con una solución que comprenda el contexto, la estructura y el significado de los datos.

La API TechRead de Werk24 impulsada por IA** es esa solución. Werk24 se sitúa en la frontera de esta revolución de datos impulsada por la IA en el sector de la fabricación, permitiéndole extraer sin esfuerzo datos de fabricación esenciales a partir de dibujos técnicos.

¿Y ahora qué?

En la siguiente parte de esta serie, nos sumergiremos en cómo la avanzada tecnología de IA de Werk24 va más allá del OCR para revolucionar la extracción de datos de dibujos técnicos. Esté atento a la segunda parte. Mientras tanto, descubra cómo [Werk24 ya está ayudando a las empresas](/estudios de caso) a agilizar sus procesos con soluciones de IA de vanguardia.

Póngase en contacto con nuestros expertos para descubrir cómo Werk24 puede marcar la diferencia en su negocio.


Este artículo fue traducido automáticamente del inglés. English version