Saltar para o conteúdo

Manual de Ciência Aberta/Casos/ContentMine

Fonte: Wikiversidade

O projeto ContentMine desenvolve um conjunto de programas para automatizar o download de artigos em periódicos e seu processamento para extração de dados, multimídia, conteúdos factuais e metadados.

Com os instrumentos disponibilizados é possível, definido um conjunto de fontes, extrair elementos como por exemplo:

  • espécies biológicas, compostos químicos, nomes próprios, coordenadas, datas ou quaisquer elementos identificáveis num texto
  • período de publicação, origem dos autores, palavras chave, ou quaisquer elementos identificáveis nos metadados
  • imagens, vídeos e outros anexos dos artigos

Também é possível filtrar resultados por esses elementos ou extrair relações entre eles, como:

  • quais artigos mencionam leões e zebras, e mencionam o ano de 1998, e mencionam o Kenya, foram publicados por autores de instituições Africanas
  • com que frequencia cada cidade da Bahia foi citadas em periódicos do SciElo no últimos 10 anos