OpenLattes

O projeto tem como objetivo lançar uma maneira alternativa de visualizar a produção acadêmica brasileira. São muitos os insatisfeitos com o "establishment da ciência brasileira"^[1], particularmente com a aceleração em direção ao modelo "publish or perish"^[2] e a quantificação de publicações e citações como a mais valorosa mensuração de sucesso acadêmico^[3]. A meta nesse projeto é proporcionar métricas alternativas de produção acadêmica^[4] começando com a uma mensuração da produção brasileira em periódicos abertos^[5].

Acompanhe o andamento da discussões e colabore na nossa lista de discussão.

Encontro Ciência Aberta 2015

O nosso encontro, como parte do Ciência Aberta 2015, está marcado para dia 25 de novembro, das 14h às 19h no Garoa Hacker Club (como chegar). O nosso objetivo principal é reunir as pessoas interessadas em abrir o acesso a base de dados do Lattes, e garantir maior transparência (e valorização da abertura) de periódicos brasileiros na base Qualis. Muitas pessoas já trabalham com essas bases dados (e.g. usando ScriptLattes) e buscam garantir acesso livre aos mesmos dados (e.g. através de pedidos de acesso a informação). Queremos, nesse tempo do oficina, reunir os interessados para organizar grupos de trabalho e ações em frentes específicas. Muita coisa já foi feita, e algumas dessas ações e questões importantes estão listadas ao longo dessa página.

Análise dos periódicos abertos no Qualis

Pegamos a base de dados do DOAJ (em CSV) e comparamos com a base Qualis 2014 no Sucupira (disponibilizada em XLS). Utilizando o programa R, criamos um script com o objetivo maior de identificar os periódicos da base Qualis que também constam nos DOAJ, ou seja, que são abertos. Para tanto foi necessário criar uma lista única de periódicos baseado no ISSN. No DOAJ esses dados estão separados em duas colunas (impresso e digital), e no Qualis a coluna é única, sendo que o mesmo periódico (ISSN) é listado múltiplas vezes, uma vez por cada área (nota) avaliada. Feita a limpeza de dados, fizemos um "merge" entre os dados para identificar os periódicos do Qualis presentes no DOAJ. Os resultados preliminares estão abaixo e os respectivos códigos estão em um repositório no gitlab.com:

Porcentagem de periódicos avaliados pelo Qualis que são de acesso aberto: 19,59 %
Porcentagem de publicações em periódicos abertos dos pesquisadores 1-A CNPq entre 2006-2015: 29.75 %

Porcentagem de publicações em periódicos abertos entre 2006-2015 do Instituto de Física da USP (exatas): 12.62 %
Porcentagem de publicações em periódicos abertos entre 2006-2015 da Faculdade de Filosofia, Letras e Ciências Humanas da USP (humans): 29.74 %

A fazer, ignorado nas análises acima:

Há uma possibilidade e que alguns periódicos no DOAJ tenham o mesmo título;
O Lattes possivelmente lista dois ISSN de um periódico publicado impresso e digital (necessário verificar);
Alguns periódicos na lista do Qualis vem com erro no ISSN (é necessário inserir um hífen);
Criar um sistema mais fácil para navegar o título/ISSN de periódicos abertos que constam no Qualis (datatables).

Extração de dados de pesquisadores CNPq 1-A

Utilizando o mapa de investimentos do CNPq, conseguimos extrair os nomes e links Lattes dos pesquisadores. Conseguimos fazê-lo manualmente - por instituição - já que o scrapper não consegue extrair os dados automaticamente. Colocaremos telas/vídeo do processo em breve.

Com base nesses dados poderemos cruzar as publicações dos pesquisadores com os ISSNs de periódicos abertos, criando um índice inicial para os pesquisadores 1-A do CNPq.

Script Lattes

Começamos os testes utilizando o Script Lattes para extração de dados do Lattes. Abaixo uma explicação de como instalar e utilizar o software.

O processo abaixo relata uma versão agora antiga do ScriptLattes. Há uma versão nova do ScriptLattes, e a base mais atualizada das versões está em: https://bitbucket.org/scriptlattes/scriptlattes.Caso alguém instale versão nova, por favor atualize abaixo.

Instalação - Debian 8 com scriptLattesV8.09

O site explica relativamente bem o procedimento.

Instalação do software

sudo apt-get install python-all python-setuptools python-utidylib python-matplotlib python-levenshtein python-pygraphviz python-numpy tidy python-scipy python-imaging
sudo apt-get python-setuptools - necessário para instalar o pytidylib. Instala o easy_install que não estava instalado. A alternativa (utilizando pip ao invés de easy_install, não encontrou o pacote pytidylib.

Por alguma razão tive que re-fazer a instalação desses pacotes - o próprio scriptLattes acusou o erro, um a um, quando rodei.

sudo apt-get python-scipy
sudo apt-get python-pygraphviz
sudo apt-get python-matplotlib
sudo easy_install pytidylib

Criar uma lista de currículos que se quer extrair

Cria-se um arquivo de texto contendo IDs do Lattes
Uma linha por ID é só o que se precisa, sendo que o ID é o número que segue a URL do endereço do CV lattes.
1. Nesse exemplo http://lattes.cnpq.br/0246540741711761, o valor é "0246540741711761" (sem aspas).

Criar arquivo de configuração

Use um exemplo pronto, como o arquivo de texto em: http://scriptlattes.sourceforge.net/exemplo/teste-01.config que contém informações detalhadas de cada parâmetro.
Preste atenção nas linhas abaixo, para que o scriptLattes encontre o arquivo com a lista de CVs que você fez acima, bem como o diretório que conterá os resultados.
1. global-arquivo_de_entrada = ./exemplo/teste-01.list
2. global-diretorio_de_saida = ./exemplo/teste-01/

Rode o scriptLattes

Entre no diretório de instalação do scriptLattes
rode ./scriptLattes.py ./exemplo/teste-01.config
Um novo diretório será criado com os arquivos (com base no nome que você definiu acima, no arquivo de configuração)
1. O arquiv com extesão RIS contem os dados de publicações em formato texto (RIS é um formato padrão).
2. HMTL visualiza todos os dados de maneira estruturada.

Convertendo dados para padrões

O Script Lattes produz arquivos no formato RIS. Outras opções mais interessantes podem ser o CSLjson e CSV. Cruamente, isso pode ser feito importanto todos os dados para [http://zotero.org/ Zotero[ e exportando toda a bibilioteca em um dos formatos acima. O resultado é algo assimem CSLjson:

[
	{
		"id": 2687,
		"type": "article-journal",
		"title": "Recursos Educacionais Abertos: uma análise a partir do livro didático de história",
		"container-title": "Revista História Hoje",
		"page": "189-205",
		"volume": "3",
		"journalAbbreviation": "Revista História Hoje",
		"author": [
			{
				"family": "Amiel",
				"given": "Tel"
			}
		],
		"issued": {
			"date-parts": [
				[
					"2014"
				]
			]
		}
	}

Uma possibilidade é incrementar o ScriptLattes para que ele:

Pudesse exportar em outros formatos (CSL/CSV)
Realizar as análise de perídicos/métricas/abertura como parte do sistema

Comissões da CAPES

Podemos entrar em contato com os eleitos para as comissões de áreas da CAPES para identificar os procedimentos e como podemos influenciar os critérios de seleção de periódicos.

Bases de dados

O acesso a base de dados do Lattes é difícil. Veja pedido via Lei de Acesso a Informação. A proposta é utilizar a base de dados do Lattes. No entanto, essa funcionalidade só é dada à instituições e para dados da própria instituição. A UNICAMP, por exemplo, faz uso dessa funcionalidade no projeto Somos UNICAMP^[6], e um contato foi feito.

Métricas

Podemos ser ambiciosos, mas para começar, uma sugestão: quantificar a proporcionalidade de artigos que um pesquisador publicou em periódicos abertos, nos últimos X anos. Com alguma limpeza de dados podemos cruzar uma base de periódicos abertos existentes como a DOAJ com a lista de periódicos extraída do Lattes. Não é trivial, mas dá pra fazer.

Podemos criar um novo íncice de abertura, considerando, por exemplo:^[7]

Nível (departamento/agregado) ou individual
Libre vs. grátis (peso)

Eventualmente podemos cobrir outros temas (esforço em providenciar open data, por exemplo) e ir além de índices, permitindo que pesquisadores apresentem seu trabalho de maneira alternativa, para além do "journal article".

Sistematizar periódicos abertos do WebQualis

Para o OpenLattes funcionar precisamos saber quais são os periódicos abertos. O Qualis, infelizmente, não mostra essa informação. Poderíamos comparar, via ISSN, a base do DOAJ para começar. A base de dados Qualis (2014) está disponível em:

https://lists.okfn.org/pipermail/cienciaaberta/2014-October/000559.html
http://lists.okfn.org/pipermail/cienciaaberta/attachments/20141006/b4e7fdb8/attachment-0001.xlsx

Poderiam ser cruzados com DOAJ:

https://doaj.org/faq#metadata
https://doaj.org/csv

Infelizmente não temos acesso a como os periódicos (critérios) são criados; temos que ter cuidado para não validar o processo implicitamente. No nosso projeto podemos criar novas métricas, começando por "abertura" para que pessoas possam comparar periódicos para além da "nota" do Qualis. Podemos então, no nosso projeto, abrir para edição colaborativa dos periódicos.

Podemos reforçar os contatos com os representantes de Comitês de Área ou editores de revistas que foram "engolidas" por Qualis. Particularmente importante pode ser o contato com os coordenadores.

Podemos começar também a falar com sociedades como SBC, SBPC.

Possibilidades levantadas no encontro virtual de setembro

Hackaton ScriptLattes (Raniere?), contato com o pessoal do SOMOS/Unicamp e responsáveis por software (UFMG) (Tel), começar "na mão" garimpando o CV de um departamento e analizando as publicações por critérios de abertura (Tel vai ver se encontra algum tempo de bolsista para iniciar isso).

Abdo: Disponibilizar um overlay do lattes, de forma semelhante ao <http://dudl.me/>, onde enriqueceríamos a apresentação das informações, por exemplo identificando publicações abertas, evidenciando práticas abertas do pesquisador, altmetrias, formas de contato mais amigáveis e interesses de colaboração etc.

Para além de uma métrica, poderíamos com isso começar um diálogo sobre as tendências de "abertura" na produção brasileira (universidades, áreas, número de periódicos, etc.), e proporcionar outras, novas medidas de sucesso e impacto que vão além do que temos hoje.

Outros projetos

Scholar.Py - Para Google Scholar
Altimetrics
Chamada para remover Captcha do Lattes - https://www.change.org/p/presidência-do-cnpq-conselho-nacional-de-desenvolvimento-cient%C3%ADfico-e-tecnológico-cnpq-petição-para-a-retirada-dos-captchas-dos-curr%C3%ADculos-da-plataforma-lattes

Sprint 8-nov-2014

Análise Meta da Produção Acadêmica

Fazer análises tomando com base uma amostragem ou a totalidade dos currículos Lattes para mensurar a produção acadêmica brasileira de acordo com critérios de "abertura".

Censo, ou totalidade dos CVs

A criação de uma base de dados em paralelo (disponibilizada utilizando torrent, por exemplo) para análise necessitaria baixar todos os CVs utilizando o ScriptLattes (SL). O SL faz uso de uma lista de IDs na URL para extrair os dados <lattes.cnpq.br/0246540741711761>. No entanto o Lattes não faz uso de IDs sequenciais.

O esforço para baixar os CVs teria que ser "bruto" passando por todos os números sequencialmente, descartando os CVs vazios, ou
Modificação do script para identificar um retorno "vazio" e ignorar o CV.

Em ambos os casos seria demorado e poderíamos encontrar um DOS dos servidores do CNPq.

[alexsandroccarv] Uma possibilidade mais simples seria implementar No Script Lattes uma função que pergunta-se ao pesquisador ao final da execução, se ele gostaria de compartilhar os arquivos que ele usou com uma base/repositório centralizada. Ao responder sim, o ScriptLattes enviaria o cache dos arquivos e desta forma teríamos uma base que iria se construindo todos os dias. Outra possibilidade seria fazer de forma distribuída, distribuído ranges numéricos para colaborados de várias partes do Brasil rodarem e enviarem (via ftp/ssh) para um servidor concentrador.

Amostragem

Poderíamos pensar nesse estudo a partir de uma amostragem de pesquisadores (um núcleo, instituto ou faculdade) ou ainda uma pesquisa aleatória de docentes/pesquisadores e suas relações próximas. Com isso, poderíamos ter um retrato da pesquisa brasileira e sua produção aberta (inclusive com inferência em suas relações pessoais).

O ~~ScriptLattes~~ (e o Lattes) dependem do pesquisador na hora de identificar relações. Ou seja, o pesquisador tem que, manualmente, identificar (através de função no Lattes) quem é seu colaborador na base de dados (veja essa questão em maior detalhe). O Script Lattes gera GDF ([[ http://gephi.github.io/%7CGephi]]) que pode ser usado para análise dos grafos de relações. O arquivo X-colaboradores.txt gera IDs válidos para pesquisa de colaboradores identificados.
- O scriptLattes busca fazer cruzamento de coautorias automaticamente, independente de identificação explícita nos CVs.
Uma vez que tivermos a lista de pesquisadores e suas produções, ainda resta identificar se os periódicos/anais são publicados abertamente, para criar um índice sobre a produção acadêmica do pesquisador ou do agregado.
- Poderíamos usar o DOAJ ou outra base para bater os dados extraídos do SL.
- Poderíamos usar a planilha de publicações do WebQualis qualificando cada periódico como sendo de acesso aberto ou não.
- No entanto, esse trabalho teria de ser, em grande parte, manual, já que cada periódico tem nomes diferentes na base de dados do Lattes e não encontraremos equivalência automática. Isso poderia ser feito manualmente para um pequeno número (amostral) para efeito de pesquisa, mas não é funcional como contribuição efetiva ao processo.
  - Mas todos periódicos devem ter um ISSN, não? Então o pesquisador que deve se responsabilizar por informar o ISSN correto, mesmo colocando erroneamente o nome do periódico.

Tornar o Lattes (quase) obsoleto

Nesse projeto, a meta seria criar um aplicativo/service que dialogaria com a base do Lattes através do serviço de importação/exportação existente (no formato XML do Lattes, especificado em DTD). O pesquisador extrairia seus dados e utilizaria esse novo serviço para criar e atualizar o seu currículo (somente na importação do XML, quando for conveniente), porém indo além do que o Lattes permite.

A base de dados do Lattes é única no mundo, no sentido de tentar reunir a totalidade de pesquisadores (acadêmicos, e outros) e suas produções. No entanto ela é fechada e não permite que os próprios pesquisadores sejam "donos" de seus dados. Para além da necessidade de apropriação de seu próprio currículo, encontramos inúmeras razões pelas quais o Lattes não atende às demandas dos pesquisadores:

O Lattes não é padrão em procedimentos corriqueiros na universidade (e.g. relatório anual SIPEX na Unicamp, súmula FAPESP) bem como para utilização em outros sistemas e projetos.
Não incorpora dados de outros sistemas utilizados frequentemente por pesquisadores (Zotero, Mendeley, Academia.edu, entre outros).
Limita a possibilidade de conexão com atores não ligados à academia.
Não faz uso de Linked Data.
Limita a conexão à produção externa (vídeos, fotos, programas, além de artigos disponíveis online sem DOI, entre outros).
Não permite que cada pesquisador represente a força de sua produção de maneira autônoma (periódicos abertos, trabalho de extensão, etc.)

Nos baseamos também no conceito de Pandoc para exemplificar a necessidade de fazer com que a base Lattes seja mais flexível, para que possa ser utilizada nos diversos contextos necessários.

Openness

Na construção desse serviço, poderíamos incorporar métricas de "abertura" para a produção acadêmica. Devemos permitir que pesquisadores identifiquem suas produções como abertas (ajudando a definir essa base de dados), e que um índice (a pensar) possa medir o esforço individual ou coletivo em publicar abertamente, valorizando esse tipo de produção. Poderíamos associar isso a "badges".

Quem participa

Tel Amiel - NIED/UNICAMP

Thiago Gomes Verissimo - USP

Alexsandro Carvalho - UNINOVE/UNIFESP

...

Erros

buscatextual.cnpq.br/buscatextual/visualizacv.do?metodo=apresentar&id=K4266315X8 (era "U")

Referências

↑ http://www.viomundo.com.br/voce-escreve/nicolelis-diz-que-sofreu-sabotagem-nos-bastidores.html
↑ http://www.scielo.br/scielo.php?pid=S1413-294X2000000100001&script=sci_arttext&tlng=pt
↑ E por consequência, relacionada ao financiamento de projetos.
↑ Veja o conceito de altmetrics em: Alperin (2013)
↑ Um trabalho sobre a questão que foi iniciado aqui: http://educacaoaberta.org/wiki/index.php?title=Acesso_aberto
↑ Criado pelo http://www.ctit.ufmg.br/
↑ http://ils.unc.edu/cradle/wp-content/2011-2012/DanielNichols-2012-03-02.pdf

[1] ttp://www.viomundo.com.br/voce-escreve/nicolelis-diz-que-sofreu-sabotagem-nos-bastidores.html

[2] ttp://www.scielo.br/scielo.php?pid=S1413-294X2000000100001&script=sci_arttext&tlng=pt

[3] E por consequência, relacionada ao financiamento de projetos.

[4] Veja o conceito de altmetrics em: Alperin (2013)

[5] Um trabalho sobre a questão que foi iniciado aqui: http://educacaoaberta.org/wiki/index.php?title=Acesso_aberto

[6] Criado pelo http://www.ctit.ufmg.br/

[7] ttp://ils.unc.edu/cradle/wp-content/2011-2012/DanielNichols-2012-03-02.pdf

[1]

[2]

[3]

[4]

[5]

[6]

[7]