OCR no DSpace

Responsáveis
Joaquim Rocha

"Suporte OCR ao DSpace"

"Seria útil haver também um destes plugins de extracção de palavras a partir de imagens que representem graficamente documentos, como por exemplo, digitalizações de documentos “históricos”, de colecções antigas de jornais ou outros periódicos, etc.

Propõe-se assim a criação deste plugin que poderá utilizar motores de OCR open-source como o Tesseract, GOCR ou Ocrad para obter as palavras do documento, as quais tratará para efeitos de indexação.
Prevê-se a configuração dos motores usados como sendo independente do código (por meio de um ficheiro de configuração). Isto permitirá o uso de qualquer motor existente desde que este possa ser executado a partir da linha de comandos.
Eventualmente também se apresentarão ao utilizador as palavras retiradas das imagens para efeitos de correcção e aprovação."

Lançamentos

Recursos

Apoio

0

Submeter um novo comentário

O conteúdo deste campo é privado e não irá ser exibido publicamente.
  • As linhas e os parágrafos quebram automaticamente
  • Endereços de páginas web e endereços de e-mail são transformados em links automaticamente.
  • Each email address will be obfuscated in a human readble fashion or (if JavaScript is enabled) replaced with a spamproof clickable link.
  • Highlight terms in this textarea.
  • Textual smileys will be replaced with graphical ones.
CAPTCHA
Esta pergunta serve para verificar se o utilizador é humano e para prevenir o envio automático de spam.
1 + 0 =
Solve this simple math problem and enter the result. E.g. for 1+3, enter 4.
Conteúdo sindicado