Saltar para o conteúdo

Transcrição digital

Fonte: Wikiversidade

Transcrição da representação de um documento.

Um mesmo conteúdo documental pode ser representado com layout diferente. Quando transformamos de um layout para outro, podemos dizer que estamos transcrevendo, e não apenas copiando, ou seja,

a transcrição é um procedimento de cópia exata do conteúdo com mudança do layout, da mídia ou do formato.

Num sentido mais amplo o termo transcrição também pode ser utilizado para designar procedimentos de "transcrição e adaptação", envolvendo pequenas alterações do texto original para fins de normalização e legibilidade, sem afetar a semântica do conteúdo.

Do ponto de vista metodológico a transcrição digital tem como referência o trabalho e metodologias adotadas pelo projeto dos Distributed Proofreaders.

Foco e missão

[editar | editar código-fonte]

O foco deste projeto na Wikiversidade é a pesquisa, discussão e elaboração de guias para a transcrição de documentos técnicos, jurídicos e científicos.

Diga-me e eu esquecerei.
Mostre-me e eu vou lembrar.
Envolva-me e eu entenderei.

(attribuido a Confucius e Laozi)

Somos um coletivo em formação, buscamos elaborar consensos e materiais que subsidiem os posicionamentos de consenso.

A missão do grupo é apenas ir um pouco mais além da instrução tradicional, queremos adotar um pouco mais de mão-na-massa, um pouco mais de abertura e de envolvimento para formulação e aquisição do conhecimento.
 

Definição formal

[editar | editar código-fonte]
No modelo FRBR o pode-se dizer que o foco da transcrição são as manifestações de uma mesma expressão.

Quanto ao conceito mais rigoroso de identificação do conteúdo original e sua transformação, pode-se adotar a referência consensual e mais consistente com o setor:

ambos estabelecem com mais rigor a semântica dos objetos envolvidos numa transcrição.

Com base nessa semântica mais rigorosa, a definição inicial, onde designamos "layout, mídia ou formato", pode ser traduzida em termos de conceitos mais rigorosos. No modelo FRBR a definição de transcrição pode ser reescrita como

A transcrição é um procedimento de transformação de uma manifestação em outra, preservando-se a expressão.

Exemplo clássico de transcrição de documento: documentos antigos, com letras em caligrafia gótica, ilegíveis ao leitor moderno, são expressos com letras legíveis (em fonte tipográfica Arial por exemplo), ou seja, são interpretados e então transcritos. Não há mudança de idioma ou de linguagem, nem mesmo da mídia ou do suporte, podendo a transcrição também permanecer em papel. A única mudança é a melhora da legibilidade. Se acrescentamos a esse processo a cópia para meio digital, temos então o serviço típico de "digitalização e transcrição", em geral efetuado com a ajuda de scanner e softwares de OCR.

Neste sentido re-diagramar é também uma forma de transcrição, objetivando melhora da legibilidade do documento como um todo, ou adaptação do mesmo a um novo meio (ex. novo tamanho de tela).

No mercado de serviços o termo "transcrição" é em geral usado para se referir à passagem da midia sonora para midia textual. Transcrevem-se pronunciamentos, discursos, etc. Na presente contexto, todavia, o termo "transcrição" será utilizado com uma conotação mais ampla, e, quando não especificado, referindo-se à "transcrição de documentos".

Preservação digital

[editar | editar código-fonte]

Quando alguma coisa tem valor para uma comunidade, e esse valor não decresce com o tempo, uma curadoria representativa dessa mesma comunidade pode manifestar a demanda pela preservação contínua da coisa. Legitima-se a coisa como patrimônio da comunidade.

Em Ciência da Informação, Computação, Gestão Documental, Biblioteconomia e áreas afins,

preservação digital é o esforço formal para se assegurar que a informação digital de valor contínuo permaneça acessível e utilizável.

Ela se traduz em um conjunto de métodos, técnicas e algoritmos destinados a prolongar, de maneira sustentável, a vida útil do patrimônio preservado.

Quando o foco da preservação é algo que teve sua origem em tempos remotos, antes de surgirem padrões abertos tais como EPUB ou HTML, são adotados primeiramente procedimentos de digitalização e conversão.

Quando o patrimônio já se encontra em formato minimamente adequado, os procedimentos principais são relativos à garantia de integridade e autenticidade.

Ao longo de qualquer que seja o processo de manuseio e adaptação do material preservado, deve-se registra-lo formalmente, para que outros possam auditar e reproduzir.

Proveniência

[editar | editar código-fonte]

A origem de um dado ou documento deve ser garantida através da descrição do seu histórico e catalogação das fontes de dados. Proveniência de dados refere-se também à reprodutibilidade dos procedimentos que levam do material original (ex. exemplar da obra preservada no museu) ao material preservado (ex. obra em HTML). Pode incluir ou não a preservação dos materiais intermediários (ex. fotos em alta resolução das páginas da obra do museu).

Quando cópias são realizadas ou o material original é transferido de um local para outro, a garantia de proveniência requer gestão efetiva da cadeia de custódia, assegurando que não houve adulteração do original neste processo.

Integridade e autoridade

[editar | editar código-fonte]

A integridade da informação digital pode ser assegurada através da publicação simultânea e transparente de metadados complementares. O metadado complementar de integridade mais simples e eficiente é o valor de uma checksum do documento (ver ilustração didática).

O termo integridade se refere à correção e completeza da informação. Quando se copia ou se transfere a obra para outro local, a integridade fica ameaçada, de modo que procedimentos de homologação precisam ser realizados, atestando que o nada foi adulterado depois da transferência.

Como toda a cadeia de cópias ou adaptações de uma obra tem a esperança de estar sendo fiel ao exemplar original, é importante que se estabeleça com clareza e consenso a pessoa ou organização que preserva o original. Para não haverem disputas, por exemplo relativas a direitos autorais, é realizado o depósito legal.

Quem faz papel de autoridade de custódia do original, em geral, é o agente que criou ou publicou a obra, tipicamente autores, museus ou editoras. Essa mesma autoridade precisa ter a sua identidade confirmada através de um processo de autenticação. Sendo pública e transparente, a autenticidade poderá ser auditada por qualquer um.

Processo básico

[editar | editar código-fonte]
Transcrições básicas: 1) para meio digital; 2) para texto; 3) para outro formato.

Os serviços de transcrição podem envolver diversas etapas, todas elas consideradas transcrições. O processo básico é uma sequência de três etapas:

  1. Digitalização: o original (em papel) é convertido para o meio digital, ou seja, envolve transcrição para meio digital, por escaneamento. Metadados relativos às condições do original e às transformações da imagem de captura, também podem ser inclusos.
  2. Transcrição da imagem: a imagem é lida e reescrita (reconhecimento de caracteres), preservando ao máximo o visual original, mantendo símbolos originais (fontes tipográficas e caracteres) com o máximo de fidelidade. Consiste, portanto, de uma transcrição para texto.
    Nessa etapa que se concentram os serviços de OCR. Devido a imprecisões da imagem, ou dificuldades de leitura e interpretação da própria escrita, o software de OCR pode também incluir metadados, descritores da confiabilidade e informar símbolos opcionais: é nesse momento que surge a assistência humana (o OCR deixa de ser automático e torna-se uma tarefa assistida).
  3. Conversão dos caracteres: as fontes tipográficas originais são trocadas por fontes mais legíveis, e alguns dos caracteres originais são traduzidos em caracteres modernos. Consiste a princípio de uma conversão de formatos, mas pode envolver também a inclusão de metadados descritores de símbolos (ex. dígrafo que originou a letra), para preservar toda a informação, possibilitando a reversão para o formato original.
  4. Conversão da estrutura: envolve não mais a transcrição de símbolos individuais, mas dos "estilos tipográficos" utilizados por conjuntos de símbolos, e da "mancha de texto" que formam os conjuntos maiores, traduzindo-se a sua conotação estrutural. Essa etapa pode ser entendida também como a inclusão de metadados descritores de estrutura.
    Alguns softwares de OCR, como ABBYY auxiliam no reconhecimento de "micro-estrutura" (itálicos, bolds, tabelas, recuos, colunas, etc.), mas em geral caberá ao humano a interpretações dos padrões visuais subjacentes da diagramação do documento.

Apesar de ilustrado ao lado por um exemplo de transcrição paleográfica, o processo é genérico. Algumas etapas adicionais podem ser inclusas em serviços mais amplos ou de maior especificidade.

Em conteúdos mais extensos a etapa-4 tem mair importância, ela se distingue da reprodução do texto, consiste da reprodução da estrutura do texto (ex. parágrafos e alinhamentos) e da obra (ex. seções, subseções, caixas, legendas). Na prática a etapa-4 pode ser considerada como uma sub-tarefa final da transcrição da imagem, sendo realizada também pelo OCR, e antes da etapa-3.

A seguir os principais tipos de transcrição de documentos, ... ver PGPR...

Transcrição para meio digital (digitalização)

[editar | editar código-fonte]

Originais em papiro, papel, ou outro suporte são escaneados ou fotografados digitalmente.

Transcrição de imagem para texto

[editar | editar código-fonte]

Tarefa típica dos softwares de OCR, podendo ser também assistida ou ainda integralmente realizada por operador humano. Conforme o tipo de formatação do texto, pode-se preservar ou não algumas caracteristicas mais (além do conteúdo textual) do original:

  • preservação de itálicos e negritos: requer marcação, por exemplo HTML.
  • preservação simbolos: requer uso de UTF8
  • preservação do tipo e tamanho da fonte tipográfica: requer marcação com CSS e/ou tag font do HTML.
  • preservação de estrutura horizontal: requer reconhecimento posicional e marcação com tags como blockquote.
  • preservação de estrutura vertical e horizontal: transcrição de tabelas.

Transcrição de layout

[editar | editar código-fonte]

Supondo original já "transcrito para texto", e devidamente marcado. A transcrição de layout consiste da simples mudança de CSS, sem uso do hidden e sem inversão de posições.

Ela pode ser relevante para mudanças no objetivo ou no público do texto:

  • melhorar a legibilidade para o leitor conforme suas preferências de fonte tipográfica (ex. gótica vs moderna) e tamanho (grande vs pequeno);
  • esconder informações que poluem: dispensando o realce de metadados e outros difererenciações.
  • realçar informações: por exemplo realçar a estrutura do texto ou seus metadados, com cores, estilos, etc.

Num documento XHTML, onde layout (CSS) e estrutura são separados, elas são "alterações livres" – as perdas/ganhos de informação no layout não afetam a informação registrada no documento. Num documento PDF, por outro lado, raramente se pode considerar a mudança de layout como transcrição, tendo em vista que existem perdas irreversíveis.

Conversão de formatos

[editar | editar código-fonte]

Similar à transcrição de layout, mas pode haver perdas de informação inerentes aos formatos origem e destino. A conversão de formato pode ser entendida como "transcrição da representação do aplicativo A para a representação do aplicativo B, com menor complexidade e menor perda de informação possível".

Em geral teremos como destino o formato XHTML, e como origem um "exportável". Documentos originados por editores (OpenOffice, MS-Word, etc.) e descktop publishers (InDesign, LaTeX, Ventura, etc.) são em geral exportáveis.

Conversão da representação de metadados

[editar | editar código-fonte]

Um documento pode ter o seu conteúdo mapeado para layout integral ou parcialmente. Alguns metadados são expressos através do estilo (CSS expressando em função do metadado diferentes cores, tamanhos, etc.), outros ficam efetivamente "escondidos" do layout (portanto do leitor na interface principal do documento), aparecendo apenas em resposta a eventos (quando passa o mouse em cima por exemplo).

Assim pode ser necessária, para objetivos reduzir ou aumentar o "grau de detalhamento" ou a "intensidade da poluição informativa", a conversão da representação dos metadados. Quando essa conversão é reversível ainda podemos caracterizá-la como transcrição.

Re-diagramação

[editar | editar código-fonte]

Ao re-diagramar um documento, objetivando melhora da legibilidade ou adaptação a um novo dispositivo (tamanho da tela por exemplo), o seu conteúdo permanece intacto, inalterado. O principal objetivo da re-diagramação é a alteração de posições e de tamanhos, mas justamente o diagramador (pessoa ou software) tem o conhecimento para discernir alterações válidas, que não afetam o conteúdo, de alterações inválidas, que poderiam alterar ou comprometer o conteúdo.

Quando o processo de diagramação inclui "correções" (alterações para melhorar a estrutura do conteúdo) ou visa "filtrar" (por exemplo reduzindo resolução de imagens a ponto de não serem mais legíveis), ele deixa de ser caracterizado como transcrição.

Conceitos complementares:

  • Marcação (processo complementar porém distinto onde informação semântica ou estrutural é adicionada)
  • Cadeia de custódia das fontes (procedimentos que visam à rastreabilidade e preservação do valor probatório das fontes de dados, conteúdos originais e documentos intermediários de uma transcrição digital)

Exemplos didáticos:

Tipos de documento contemplados pelo presente projeto:

[editar | editar código-fonte]