Submetido por xpete em
"Suporte OCR ao DSpace"
"Seria útil haver também um destes plugins de extracção de palavras a partir de imagens que representem graficamente documentos, como por exemplo, digitalizações de documentos “históricos”, de colecções antigas de jornais ou outros periódicos, etc.
"Seria útil haver também um destes plugins de extracção de palavras a partir de imagens que representem graficamente documentos, como por exemplo, digitalizações de documentos “históricos”, de colecções antigas de jornais ou outros periódicos, etc.
Propõe-se assim a criação deste plugin que poderá utilizar motores de OCR open-source como o Tesseract, GOCR ou Ocrad para obter as palavras do documento, as quais tratará para efeitos de indexação. Prevê-se a configuração dos motores usados como sendo independente do código (por meio de um ficheiro de configuração). Isto permitirá o uso de qualquer motor existente desde que este possa ser executado a partir da linha de comandos. Eventualmente também se apresentarão ao utilizador as palavras retiradas das imagens para efeitos de correcção e aprovação."
Categoria:
Licença:
- Inicie sessão ou registe-se para publicar comentários