Estamos en la era de la digitalización. Grandes bibliotecas ponen a disposición de todo el mundo su catálogo digitalizado. Pero no es fácil buscar información en libros escaneados. Aquí es donde aparecen las técnicas de segmentación por contenido de documentos.
El objetivo de este proyecto es crear una herramienta de Machine Learning para identificar las distintas zonas de un documento (texto, fotos, gráficos, encabezados, pies de página, etc.), y poder recrear esa misma estructura en un formato documental a elegir (HTML, LaTeX, SVG, etc.), de forma que el texto, una vez procesado por un OCR, pueda ser consultado dentro de su contexto.