Observatório JATS/Tutorial do Curador

Na equipe das campanhas são necessários dois atores, o curador e o expert. Este tutorial tem como público-alvo o curador. É um complemento do tutorial do expert pois estaremos abordando os mesmos exemplos, com cada equipe fazendo o seu papel na metodologia.

O objetivo deste tutorial é mostrar passo-a-passo as tarefas da curadoria que garantem a formação do conjunto de artigos JATS e sua comparação com o conjunto geral de artigos (JATS e não-JATS). Como ilustração vamos usar o exemplo da campanha-05 sobre o Zika virus.

Resumo

Simplificadamente a sequência de tarefas é a seguinte:

Definir o tema com precisão, fixando o seu "núcleo semântico".
Buscar os artigos relevantes
Filtrar os falso-positivos
Filtrar os não-artigos (prioriza-se research articles)
Avaliar o perfil por ano e por ISSN
Recuperar os disponíveis em JATS
Qualificar o JATS
Avaliar o perfil dos JATS e comparar com o perfil geral
Realizar levantamentos mais específicos sobre o JATS

Todas essas tarefas são realizadas com a ajuda dos experts e cada uma delas resulta num pequeno relatório.

Definições iniciais

O assunto de uma campanha do Observatório JATS precisa ser definido através de recursos da Web Semântica e de alguns exemplos, o que resulta na definição do "núcleo semântico". Para maiores detalhes ver o tutorial de introdução.

O núcleo semântico da campanha c07 é dado por:

conceito Q202864 (Zika virus).

conceito Q15706459 (research article - artigo científico de pesquisa), que é um subtipo de Q13442814 (scientific article).

Amostras de artigos selecionados pela curadoria: planilha dos exemplos (nucleoSem_Exemplos) e planilha dos contra-exemplos (nucleoSem_ContraEx).

....

Levantamento e seleção dos relevantes

A pesquisa dos artigos científicos pode fazer uso das mais diversas ferramentas de busca (PubMed, Google Scholar, etc.) visando num primeiro momento a máxima revocação. Aos poucos as filtragens de falsos-positivos vão elevando a precisão e fixando o real conjunto dos artigos existentes sobre o tema da campanha. Outros elementos metodológicos também podem ser encontrados na literatura sobre revisão sistemática.

O principal produto do levantamento é uma lista de identificadores, que, na prática podem ser DOIs ou indetificadores PubMed (PMID).

Exemplo: buscar no http://PubMed.gov todos os artigos com a palavra-chave "Zika" ou "ZIKV" (suficientes para caracterizar o assunto Zika virus). A maior parte dos artigos foi produzida entre 2014 e 2017, com grande salto em 2016... Depois de fazer a busca desejada pode-se baixar os resultados em uma planilha CSV através do FLink: ver este tutorial para maiores detalhes.

Para a planilha do tutorial foi usada em outubro de 2017 a busca

Zika[Title/Abstract] OR ZIKV[Title/Abstract] OR Zika[MeSH Terms] OR ZIKV[MeSH Terms]

Baixar a planilha gerada pelo FLink, um arquivo CSV com um nome numérico, algo como 123456.csv. Renomear para algo mais significativo, com a seguinte sequência de prefixos concatenados:

pubMed pois a pesquisa foi feita no PubMed.
_resultMax pois buscou-se máxima revocação...
-Zika-2017-10 é o rótulo do tema e uma referência de data (ano e mês).

Resultando em pubMed_resultMax-Zika-2017-10.csv, com 3412 itens, que pode então ser entregue para a equipe de experts.

Garantindo a precisão dos selecionados

Até aqui maximizou-se a revogação, trazendo entre os 3412 artigos alguns falsos-positivos como o artigo PMID 24605459, "Mosquitoes of Zika Forest, Uganda: species composition and relative abundance", que é relativo à Zika Forest e sua fauna... Vamos supor que a curadoria tenham homologado este e outros artigos sobre pássaros da floresta como falsos-positivos.

Cabe agora à equipe de experts listar (para que se confirme) e eliminar esses falsos-positivos, garantindo maior precisão do conjunto-universo ddepois da filtragem. Para simplificar, vamos supor que a filtragem consiste em avaliar resumos e títulos com as palavras-chave "forest", "bird" ou "ornithology". A filtragem resultou em apenas 11 itens (11/3412 = 0,3%), listados em [[1]]. Apenas 3 (27% dos 11) eram de fato falsos-positivos: 4378566, 27942961, 28716770.

Perfil de distribuição por anos e ISSNs

*c05_res1_01*
year	n
...	...
2012	5
2013	3
2014	27
2015	37
2016	1641
2017	1626

A tabela ao lado ilustra o gráfico já mostrado pelo PubMed na pesquisa, mostrando o salto em 2016,

O perfil completo de ano-quantidade está c05_res1_01-BySql.csv.

Filtrando o que sobra em JATS

...

Análise preliminar e qualificação dos arquivos JATS

...

Levantamentos estatísticos gerais

...

Levantamentos estatísticos específicos

...