Observatório de dados/Precisão e revogação

Precisão e revocação são quantidades bem definidas e fundamentadas na Ciência da Informação. Elas são baseadas no "conjunto universo", que contém todos os elementos misturados, os relevantes e os indesejados, sobre determinado assunto. Aqui exemplificaremos com o caso onde os elementos relevantes (desejados) são artigos científicos sobre a Zika.

Quando podemos examinar um por um dos elementos do universo, a tarefa é simples. Quando porém existem milhares de elementos no universo de busca, "separar o joio do trigo" é uma tarefa bem mais difícil, e seu resultado precisa ser avaliado para se conferir se o objetivo foi de fato atingido.

Algoritmo da formação desse "conjunto o mais próximo possível do conjunto relevante":

Definir o alvo da busca, o conjunto ideal dos "itens relevantes", através do seu núcleo semântico, e de um subconjunto concreto de amostras representativas deste núcleo.
Selecionar (do universo) subconjunto grande de artigos relevantes para o assunto. Recuperar
Eliminar falso-positivos.
Voltar ao item 2 enquanto não houver certeza de ter recuperado todos os artigos relevantes.

No processo do item 2, "recuperar subconjunto" pode haver repetições, mas como a iteração resulta na união de conjuntos, é suposto que serão todos distintos.

Conjunto incerto e seu núcleo semântico

O que queremos dizer com "Zika"? Apesar de não ser um termo tão vago, uma simples busca por palavra-chave pode trazer coisas bem distintas: pessoa com sobrenome Zika, floresta africana chamada Zika, virus da Zika, etc. O primeiro passo da pesquisa por um assunto, é estabelecer não apenas a terminologia do assunto, mas também a sua semântica. Suponhamos então que é o Zika virus, ou seja, é precisamente o assunto Q202864.

Quantos artigos científicos foram escritos sobre esse assunto? No que consiste, para este levantamento, um artigo científico? A segunda pergunta ajuda a definir o universo U sobre o qual se realizará a busca.

O número de elementos em U neste caso é grande. Em 2014 o número de artigos analisados pelo Google Scholar^[1] era da ordem de 160 milhões. Com uma base de dados mais qualificada e especializada, em 2017 o PubMed apresentava da ordem de 27.3 milhões de artigos.^[2]

Apesar de ainda haverem incertezas, estamos aos poucos definindo o nosso conjunto R de artigos relevantes,

R é um conjunto idealizado, composto de todos os "artigos relevantes para o assunto Q202864".

A partir destes esclarecimentos podemos então escolher a ferramenta de busca (escolhemos o PubMed que é especializado) e como buscar — usamos outras palavras-chave além de "Zika", tais como "ZIKV". O resultado da busca é que vai compor o "conjunto concreto de artigos selecionados", S, cujos elementos são candidatos a serem também elementos de R... Depende de alguém conferir se é mesmo.

Quantificando

Conjuntos U, R, S e interseção RS dos selecionados relevantes.

Sejam R e S subconjuntos do universo U de artigos científicos:

$R=\{r\in U~|~r~{\text{is “artigo relevante”}}\}$
$S=\{s\in U~|~s~{\text{is “artigo selecionado pela busca”}}\}$
$|X|$ é o número de elementos no conjunto X.
$X\cap Y$ é o a interseção de X com Y.

$p={\text{precisão}}={\frac {|R\cap S|}{|S|}}~~~~~~~~~r={\text{revogação}}={\frac {|R\cap S|}{|R|}}$

As frações p e r podem também ser expressas como percentuais. Quando conveniente pode-se adotar o rótulo RS para $R\cap S$ , os verdeiro-positivos. Os falso-positivos são seu complemento, $S-RS$ , rotulados S_RS.
Amostras de RS são apelidadas de exemplos homologados, amostras de S_RS de contra-exemplos.

Afunilando

A qualidade do conjunto S pode ser avaliada por p e r, e a maximizar a qualidade pode exigir a maximização simultânea de ambos indicadores.

Equiparação pragmática do conjunto R: Como aprendemos algo sobre S durante a análise de qualidade, o que se faz é obter um conjunto $S_{1}$ com indicadores $p_{1}$ e $r_{1}$ , depois um conjunto $S_{2}=(S_{1}-S_{1falhas})\cup S_{novos}$ com indicadores $p_{2}$ e $r_{2}$ , e assim por diante, eliminando falhas (falso-positivos) e acrescentando novos elementos, supondo que ainda existam falso-negativos em $S_{novos}$ . Até chegarmos a um conjunto $S_{n}$ onde não conseguimos mais detectar falhas ou acrescentar novos elementos. Neste momento podemos supor que não existem mais falso-negativos, ou dizer que fizemos o melhor possível... Então, do ponto de vista prático, vale a equiparação entre os selecionados e os relevantes, $S_{n}=R$ .

Método do funil: Na prática todavia fica mais simples usar $S_{2}=S_{1}-S_{1falhas}$ , depois $S_{3}=S_{2}-S_{2falhas}$ , etc. com $p_{1}$ baixo e $r_{1}$ bem alto, de modo que não há risco de falso-negativos no conjunto $S_{1}$ . Daí em diante garantiremos que $p_{n}>...>p_{2}>p_{1}$ e que $|S_{n}|<...<|S_{2}|<|S_{1}|$ , de modo a filtrar elementos (falso-positivos) como num funil.

Avaliando custos

Se o valor de |U| é muito alto (milhões de elementos) não há como conhecer R, portanto qualquer valor para |R| será uma estimativa. Já o valor de |S| é sempre conhecido com exatidão. Por fim o valor de |S ∩ R| também pode ser conhecido: por "força bruta" podemos conferir um a um dos elementos de S e dizer se pertencem ou não a R.

A "verificação por força bruta", também chamada "verificação exaustiva" (algumas áreas adotam o termo "sistemática"), é a mais confiável e ao mesmo tempo a de maior custo. O que se faz usualmente é verificação estatística, tanto por amostragem como por buscas complementares para eliminar hipóteses de falso-positivo ou falso-negativo.

... Custos para se descobrir e refinar R: existe uma lenda que diz que os primeiros 70% são mais baratos do que os restantes 20%, que são mais baratos que os restantes 10%.

Referências

↑ "About the size of Google Scholar: playing the numbers", https://arxiv.org/ftp/arxiv/papers/1407/1407.6239.pdf
↑ (Nota: para conferir o tamanho corrente do banco de dados do PubMed.gov basta buscar 1800:2100[dp]).

[1] "About the size of Google Scholar: playing the numbers", https://arxiv.org/ftp/arxiv/papers/1407/1407.6239.pdf

[2] (Nota: para conferir o tamanho corrente do banco de dados do PubMed.gov basta buscar 1800:2100[dp]).

[1]

[2]