Manual de Ciência Aberta/Casos/ContentMine
Aspeto
O projeto ContentMine desenvolve um conjunto de programas para automatizar o download de artigos em periódicos e seu processamento para extração de dados, multimídia, conteúdos factuais e metadados.
Com os instrumentos disponibilizados é possível, definido um conjunto de fontes, extrair elementos como por exemplo:
- espécies biológicas, compostos químicos, nomes próprios, coordenadas, datas ou quaisquer elementos identificáveis num texto
- período de publicação, origem dos autores, palavras chave, ou quaisquer elementos identificáveis nos metadados
- imagens, vídeos e outros anexos dos artigos
Também é possível filtrar resultados por esses elementos ou extrair relações entre eles, como:
- quais artigos mencionam leões e zebras, e mencionam o ano de 1998, e mencionam o Kenya, foram publicados por autores de instituições Africanas
- com que frequencia cada cidade da Bahia foi citadas em periódicos do SciElo no últimos 10 anos
Recursos
[editar | editar código-fonte]- Vídeo de Peter Murray-Rust explicando o projeto (em inglês)