Ciência Aberta 2015/Hackday, sugestões

O Hackday de dados científicos vai rolar, será no CCSL, na quinta (26), das 13-21hs, no Laboratório de Extensão. O ideal é buscar consenso em torno de atividades convergentes, ou seja, onde os participantes possam integrar de alguma forma os trabalhos realizados.

O "tema norteador" escolhido (reforçado na Lista OKBR) foi a demanda por dados confiáveis, sobre o tamanho dos impactos causados pelo rompimento das barragens de Pontão. A catástrofe teve ampla cobertura na imprensa, mas os dados com valor de prova e utilizáveis em uma avaliação dos impactos ambiental, social e econômico, de toda a porção atingida na Bacia Hidrográfica do Rio Doce, ainda carecem de organização.

Um importante grupo que vem atuando com enfoque similar, é o http://giaia.eco.br , talvez possamos inscrever a iniciativa do Hackday na iniciativa deles.

Como o tema tem forte correlação geográfica, um bom referencial de dados abertos para a indexação de outros dados, é o OpenStreetMaps (OSM). Eles inclusive já vinham se organizando para apoiar as atividades de socorro, por iniciativa da Equipe Humanitária do OpenStreetMap (Humanitarian OpenStreetMap Team - HOT), ver Colapso do Reservatório de Mariana em 2015 (atualizada em inglês).

A seguir sugestões de atividades convergentes (adicionar e discutir a vontade antes do evento).

Dados JATS da bacia do Rio Doce

O que é o JATS? quais são os repositórios relevantes?

A maior fonte de Dados Científicos Abertos hoje, são os repositórios de arquivos XML JATS, que consiste do formato mais aberto (cinco estrelas!) de artigos da literatura científica... Existem dois grandes repositórios Open Access de JATS, o SciELO (brasileiro!) e o PubMed Central.

Exemplo (aleatório) de artigo científico (ver também [1] ou [2]),

http://dx.DOI.org/10.1590/S1415-475738320140376

na página deste artigo, depositado no SciELO, tem um link "Article in xml format" (esse link).

Ver, nesse XML do link do SciELO, a tag <article-meta>, onde estão os metadados dos autores, o resumo, etc. Quanto às citações, estão todas na tag <ref-list>... Assim, todos os dados bibliográficos imagináveis de cada artigo estão no XML JATS básici! Algumas revistas como a PLOS ONE também oferecem o XML completo, direto na publicação original (exemplo, junto com download PDF tem opção XML).

Dados científicos sobre a região afetada da bacia do Rio Doce também existem, megabytes (!), mas encontram-se dispersos no tempo, nos grupos de pesquisa, e em artigos científicos... Até pouco tempo atrás não existia como integrar esses dados, pois até mesmo os resumos dos artigos eram de difícil extração e análise. Hoje, na literatura científica existe um padrão, o JATS (ver box ao lado).

Exemplos de dados científicos sobre a Bacia do Rio Doce (MG), dispersos em artigos do SciELO: doi1, doi2, doi3, doi4, doi5, doi6, doi7.

Outras fontes, não-Scielo... Exemplo, o doi1 tem similar na PLOS ONE, e fica com XML copiado também no PubMed Central, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3374739/

A obtenção do XML completo no SciELO (com body além de front e back) exige um pouco mais de burocracia (precisamos pedir...!).

Já o PubMed Central, que serviu de modelo para o SciELO, oferece um mecanismo permanente e aberto, apesar de "meio hacker". É um imenso servidor FTP com todos os artigos, seus PDFs, imagens em alta resolução e materiais suplementares.

Para resgatar o artigo do FTP do PubMed Central (PMC), basta saber o ID... no exemplo temos ID=PMC3374739. Procedimento hacker:

pegar a lista de todos os artigos do FTP do PMC;
filtrar da lista as linhas relativas aos artigos desejados (tipicamente um grep pelo ID do artigo);
fazer download do artigo pelo path indicado na linha da lista;
descomprimir e analisar o XML.

portanto, em terminal UNIX/Linux teremos,

   # passo 1
   wget -c ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/file_list.txt

   # passo 2
   cat file_list.txt | grep PMC4612608
   # ou (bem mais lento) 
   cat file_list.txt | grep -i -E genet.mol.biol.2015.+353 | more

   # passo 3     
   wget -c "ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/82/0d/Genet_Mol_Biol_2015_Aug_21_Jul-Sep_38(3)_353-365.tar.gz"
   tar -vzxf Genet_Mol_Biol_2015_Aug_21_Jul-Sep_38\(3\)_353-365.tar.gz

   # passo 4
   more Genet_Mol_Biol_2015_Aug_21_Jul-Sep_38\(3\)_353-365/1415-4757-gmb-38-3-353.nxml

Tem um monte de ferramentas para lidar com JATS e extração desses dados... Uma muito interessante é o open-access-media-importer, usada para copiar na Wikipedia milhões de imagens em alta resolução com licença livre.

Notas: convencionou-se o uso do XML e não JSON, por questões históricas (XML veio primeiro) e de reuso, visto que HTML é o formato universal para conteúdo, e o JATS pode ser facilmente traduzido para HTML. O poder do XML pode ser ilustrado com um artigo presente em ambos repositórios, PMC e SciELO. Esse aqui por exemplo, DOI:10.1590/S1415-475738320140376. O link do DOI leva ao HTML do SciELO, que foi obtido do XML original depositado (tem mesmo valor de prova que o PDF original). Como a visualização é um template livre, o próprio SciELO oferece essa opção mais bonita e interativa. A revista deposita o mesmo XML no PubMed Central (PMC), onde o artigo foi registrado sob ID:PMC4612608, e um terceiro template (desse link PMC) é usado. O próprio PMC, por fim, também oferece um quarto tipo de visual mais interativo do mesmo artigo... Tudo muito poderoso e bonitinho, mas na hora de reusar dados, não oferecem um simples CSV das tabelas (!).

Extração CSV de JATS

Quando se trata de tabelas, o JATS (usando na verdade XHTML table module) garante que o que você visualiza é o que você tem de fato como dado: conteúdo e dados estão na mesma fonte. Do ponto de vista de confiabilidade de auditoria, isso é importante... Mas falta um "conversor on-the-fly" para o leitor baixar a tabela como planilha, garantindo, além do reuso dos dados, um dos fundamentos do fazer-Ciência que é a reproducibilidade.

No caso do problema de Mariana, é importante a construção de uma base de dados de acesso SQL... E o ponto de partida, para prearar e/ou adaptar os dados a um contexto mais unificado, é o CSV... E, por que o CSV??

Esse mês (nov/2015), depois de anos de espera, o CSV ganhou maior apoio e grau de formalização, com o lançamento da "W3C Proposed Recommendation" para metadados de dados tabulares (sobretudo CSV), http://www.w3.org/TR/tabular-data-model

Hackers agora terão também seu "padrão de dados abertos" de fato padronizado (!), e as APIs e usuários poderão puxar dados consistentes (descritos por metadados) automaticamente para planilhas, editores e indexadores. Na OKFN já vinhamos usando o precursor desse padrão W3C, que é o tabular-data-package.

Curadoria geral dos dados publicados na Web

Conteúdos jornalísticos, dados enciclopédicos, levantamentos técnicos, relatórios oficiais, relatórios independentes, mapas, fotos, denúncias, etc. Tudo o que está na Internet sobre o assunto pode ter a sua URL listada numa simples planilha CSV mantida no Github... Seria um "bookmark" de tudo isso, com algumas informações catalográficas para ajudar a organizar.

O problema é "separar o joio do trigo": destacar o que é relevante, ou o que é fonte primária, do que não é.

Para tudo isso (classificar, votar na relevância, verificar se é primário ou secundário, georeferenciar) são necessárias, além das horas para se compor o bookmark, horas de colaboradores agindo em consenso para formar um todo que seja de fato útil. A esse trabalho de equipe, que inclui sobretudo o julgamento, classificação e e seleção consensual dos dados, chamamos curadoria.

Exemplos de levantamentos realizados por outras equipes, que poderia ser utilizados de ponto de partida:

Os caminhos dos rejeitos, links georeferenciados, de conteúdos jornalísticos.
Do Caos à Lama, do "Grupo de apoio - GIAIA", do Face. Iniciativa de curadoria.
...

... Mais sugestões ... acrescentar mais seções Wiki aqui ...

...