hOCR es un estándar abierto de representación de datos para texto formateado obtenido a partir del reconocimiento óptico de caracteres (OCR). La definición codifica texto, estilo, información de diseño, métricas de confianza de reconocimiento y otra información mediante el lenguaje de marcado extensible (XML) en forma de lenguaje de marcado de hipertexto (HTML) o XHTML . [1]
Software
El siguiente software de OCR puede generar el resultado del reconocimiento como archivo hOCR:
Ejemplo
El siguiente ejemplo es un extracto de un archivo hOCR:
... < p class = 'ocr_par' lang = 'deu' title = "bbox930" > < span class = 'ocr_line' title = "bbox 348 797 1482 838; baseline -0.009 -6" > < span class = 'ocrx_word ' título = ' bbox 348 805 402 832; x_wconf 93 ' > Die span > < span class = ' ocrx_word ' title = ' bbox 421 804 697 832; x_wconf 90 ' > Darlehenssumme span > < span class = ' ocrx_word ' title = ' bbox 717 803 755 831; x_wconf 96 ' > ist span > < span class = ' ocrx_word ' title = ' bbox 773 803 802 831; x_wconf 96 ' > en span > < span class = ' ocrx_word ' title = ' bbox 821 803 917 830; x_wconf 96 ' > ihrem span > < span class = ' ocrx_word ' title = ' bbox 935 799 1180 838; x_wconf 95 ' > ursprünglichen span > < span class = ' ocrx_word ' title = ' bbox 1199 797 1343 832; x_wconf 95 ' > Umfange span > < span class = ' ocrx_word ' title = ' bbox 1362 805 1399 823; x_wconf 95 ' > zu span > < span class = ' ocrx_word ' title = ' bbox 1417 x_wconf 96 ' > ver- span > span > ...
El texto reconocido se almacena en los nodos de texto normal del archivo HTML. La distribución en líneas y palabras separadas viene dada aquí por las etiquetas span circundantes . Además, se utilizan las entidades HTML habituales, por ejemplo, la etiqueta p para un párrafo. Se da información adicional en las propiedades tales como:
- diferentes elementos de diseño como "ocr_par", "ocr_line", "ocrx_word"
- información geométrica para cada elemento con un cuadro delimitador "bbox"
- información de idioma "lang"
- algunos valores de confianza "x_wconf"
Ver también
- ALTO (XML) : otro formato de representación de datos OCR
Referencias
- ↑ Breuel, T. ( 1 de septiembre de 2007). "El microformato hOCR para el flujo de trabajo y los resultados de OCR". Novena Conferencia Internacional sobre Análisis y Reconocimiento de Documentos (ICDAR 2007) . 2 : 1063–1067. doi : 10.1109 / ICDAR.2007.4377078 . ISBN 978-0-7695-2822-9.