Amigos: Gildot | PrintScreen | Startux | Linux Portugal | LISA | MOSEL | Connecty
OCR no DSpace
Joaquim Rocha
"Suporte OCR ao DSpace"
"Seria útil haver também um destes plugins de extracção de palavras a partir de imagens que representem graficamente documentos, como por exemplo, digitalizações de documentos “históricos”, de colecções antigas de jornais ou outros periódicos, etc.
Propõe-se assim a criação deste plugin que poderá utilizar motores de OCR open-source como o Tesseract, GOCR ou Ocrad para obter as palavras do documento, as quais tratará para efeitos de indexação.
Prevê-se a configuração dos motores usados como sendo independente do código (por meio de um ficheiro de configuração). Isto permitirá o uso de qualquer motor existente desde que este possa ser executado a partir da linha de comandos.
Eventualmente também se apresentarão ao utilizador as palavras retiradas das imagens para efeitos de correcção e aprovação."







Submeter um novo comentário