Observatório de dados/Precisão e revogação
Precisão e revocação são quantidades bem definidas e fundamentadas na Ciência da Informação. Elas são baseadas no "conjunto universo", que contém todos os elementos misturados, os relevantes e os indesejados, sobre determinado assunto. Aqui exemplificaremos com o caso onde os elementos relevantes (desejados) são artigos científicos sobre a Zika.
Quando podemos examinar um por um dos elementos do universo, a tarefa é simples. Quando porém existem milhares de elementos no universo de busca, "separar o joio do trigo" é uma tarefa bem mais difícil, e seu resultado precisa ser avaliado para se conferir se o objetivo foi de fato atingido.
Algoritmo da formação desse "conjunto o mais próximo possível do conjunto relevante":
- Definir o alvo da busca, o conjunto ideal dos "itens relevantes", através do seu núcleo semântico, e de um subconjunto concreto de amostras representativas deste núcleo.
- Selecionar (do universo) subconjunto grande de artigos relevantes para o assunto. Recuperar
- Eliminar falso-positivos.
- Voltar ao item 2 enquanto não houver certeza de ter recuperado todos os artigos relevantes.
No processo do item 2, "recuperar subconjunto" pode haver repetições, mas como a iteração resulta na união de conjuntos, é suposto que serão todos distintos.
Conjunto incerto e seu núcleo semântico
[editar | editar código-fonte]O que queremos dizer com "Zika"? Apesar de não ser um termo tão vago, uma simples busca por palavra-chave pode trazer coisas bem distintas: pessoa com sobrenome Zika, floresta africana chamada Zika, virus da Zika, etc. O primeiro passo da pesquisa por um assunto, é estabelecer não apenas a terminologia do assunto, mas também a sua semântica. Suponhamos então que é o Zika virus, ou seja, é precisamente o assunto Q202864.
Quantos artigos científicos foram escritos sobre esse assunto? No que consiste, para este levantamento, um artigo científico? A segunda pergunta ajuda a definir o universo U sobre o qual se realizará a busca.
O número de elementos em U neste caso é grande. Em 2014 o número de artigos analisados pelo Google Scholar[1] era da ordem de 160 milhões. Com uma base de dados mais qualificada e especializada, em 2017 o PubMed apresentava da ordem de 27.3 milhões de artigos.[2]
Apesar de ainda haverem incertezas, estamos aos poucos definindo o nosso conjunto R de artigos relevantes,
- R é um conjunto idealizado, composto de todos os "artigos relevantes para o assunto Q202864".
A partir destes esclarecimentos podemos então escolher a ferramenta de busca (escolhemos o PubMed que é especializado) e como buscar — usamos outras palavras-chave além de "Zika", tais como "ZIKV". O resultado da busca é que vai compor o "conjunto concreto de artigos selecionados", S, cujos elementos são candidatos a serem também elementos de R... Depende de alguém conferir se é mesmo.
Quantificando
[editar | editar código-fonte]Sejam R e S subconjuntos do universo U de artigos científicos:
- é o número de elementos no conjunto X.
- é o a interseção de X com Y.
As frações p e r podem também ser expressas como percentuais. Quando conveniente pode-se adotar o rótulo RS para , os verdeiro-positivos. Os falso-positivos são seu complemento, , rotulados S_RS.
Amostras de RS são apelidadas de exemplos homologados, amostras de S_RS de contra-exemplos.
Afunilando
[editar | editar código-fonte]A qualidade do conjunto S pode ser avaliada por p e r, e a maximizar a qualidade pode exigir a maximização simultânea de ambos indicadores.
- Equiparação pragmática do conjunto R
- Como aprendemos algo sobre S durante a análise de qualidade, o que se faz é obter um conjunto com indicadores e , depois um conjunto com indicadores e , e assim por diante, eliminando falhas (falso-positivos) e acrescentando novos elementos, supondo que ainda existam falso-negativos em . Até chegarmos a um conjunto onde não conseguimos mais detectar falhas ou acrescentar novos elementos. Neste momento podemos supor que não existem mais falso-negativos, ou dizer que fizemos o melhor possível... Então, do ponto de vista prático, vale a equiparação entre os selecionados e os relevantes, .
- Método do funil
- Na prática todavia fica mais simples usar , depois , etc. com baixo e bem alto, de modo que não há risco de falso-negativos no conjunto . Daí em diante garantiremos que e que , de modo a filtrar elementos (falso-positivos) como num funil.
Avaliando custos
[editar | editar código-fonte]Se o valor de |U| é muito alto (milhões de elementos) não há como conhecer R, portanto qualquer valor para |R| será uma estimativa. Já o valor de |S| é sempre conhecido com exatidão. Por fim o valor de |S ∩ R| também pode ser conhecido: por "força bruta" podemos conferir um a um dos elementos de S e dizer se pertencem ou não a R.
A "verificação por força bruta", também chamada "verificação exaustiva" (algumas áreas adotam o termo "sistemática"), é a mais confiável e ao mesmo tempo a de maior custo. O que se faz usualmente é verificação estatística, tanto por amostragem como por buscas complementares para eliminar hipóteses de falso-positivo ou falso-negativo.
... Custos para se descobrir e refinar R: existe uma lenda que diz que os primeiros 70% são mais baratos do que os restantes 20%, que são mais baratos que os restantes 10%.
Referências
[editar | editar código-fonte]- ↑ "About the size of Google Scholar: playing the numbers", https://arxiv.org/ftp/arxiv/papers/1407/1407.6239.pdf
- ↑ (Nota: para conferir o tamanho corrente do banco de dados do PubMed.gov basta buscar
1800:2100[dp]
).