Observatório de dados/Definindo um núcleo semântico

Tutorial para a introdução de conceitos e convenções adotadas no Observatório de Dados, para se expressar formalmente núcleo semântico.

O objeto de pesquisa do Observatório de Dados são conjuntos e seus elementos. Representações de conjuntos concretos de pessoas, lugares, animais, empresas, eventos... Qualquer tipo de entidade pode ser caracterizada por um conjunto. A definição precisa de conjuntos conceituais, todavia, requer uso de recursos da Web Semântica para que seja mais precisa. É uma metodologia onde se define o conjunto a partir de um "núcleo semântico", conectando-o com ontologias como a Wikidata.

Notação de conjuntos

Nas convenções sobre conjuntos foi lembrado que um conjunto pode ser definido de maneira extensional ou intensional. O conjunto I, por exemplo, dos números inteiros ímpares entre 0 e 14:

definição extensional: $I=\{1,3,5,7,9,11,13\}\subset \mathbb {N}$
definição intensional: $I=\{\forall x\in \mathbb {N} ~|~x~{\text{is “impar entre 0 e 14”}}\}$ ou mais preciso,

I=\{\forall x\in \mathbb {N} ,~\exists k\in \mathbb {N} ~|~x=2k+1~~\land ~~k\leq 6\}

A definição de conjuntos também lança mão do uso do "conjunto universo" ou domínio de discurso, que no exemplo foi o conjunto $\mathbb {N}$ dos números naturais. O domínio de discurso estabelece um contexto de referência para podermos expressar os elementos. Os elementos de A acima não foram confundidos com o número decimal 5,13 porque o domínio é de inteiros.

Como estamos falando de entidades do mundo real, podemos imaginar que a maioria delas já tenha sido conceituada na Wikipedia — e que o conceito tem um identificador na Wikidata. O conceito de números naturais está na Wikipedia, e tem o código Q21199 na Wikidata. Assim, expressando com ajuda da Wikidata teremos

U=\{\forall u\in InstancesOf(Q21199)\}\equiv \mathbb {N}

I=\{\forall x\in U,~\exists k\in U~|~x=2k+1~~\land ~~k\leq 6\}

onde função InstancesOf(X) retorna o conjunto das instâncias do conceito X. Como na Wikidata também foi definido com precisão o conceito de número ímpar (Q13366129) pode-se reduzir a expressão para

I=\{\forall x\in InstancesOf(Q13366129)~|~0<x\leq 14\}

Observatórios e suas especialidades

O Observatório de Dados é um "projeto guarda-chuva" para observatórios especializados e mais efetivos: de nomes de pessoas do Brasil, de documentos científicos, etc. Cada um deles terá um universo padronizado, conforme definições abaixo:

Observatórios e seus conjuntos de referência

Rótulo	Elemento típico	Definição formal do conjunto
P Pessoas vivas em 2010	Pessoa viva no ano de 2010. P = { ∀p ∈ InstancesOf(Pessoa) \| nascimento(p) ≤ 2010 ∧ morte(p) > 2010 }
TB Território Brasileiro de 2010	Ponto geográfico do território brasileiro em 2010. TB = Brasil2010 ⊂ InstancesOf(PontoGeográfico)
D Documentos	Um documento publicado.	D = InstancesOf(Documento)
DO Diários Oficiais	Um diário oficial.	DO = InstancesOf(DiárioOficial)
RC Revistas científicas	Uma revista científica.	RC = InstancesOf(RevistaCientifica)

Título	Domínio de discurso	Descrição
Observatório dos Prenomes	$H=\{\forall h\in P~\|~pontoReside(h,2010)\in TB\}$	Conjunto das pessoas vivas em 2010 (P) e residiam no território brasileiro (TB) do mesmo ano.
Observatório JATS	$A=\{\forall a\in D~\|~publicationOf(a)\in RC\}$	Conjunto dos artigos científicos, documentos (D) publicados pelas revistas científicas (RC).
Observatório LEX	$M=\{\forall m\in D~\|~publicationOf(m)\in DO\}$	Conjunto das matérias (documentos D) publicadas pelos diários oficiais (DO).

Maiores detalhes na definição dos núcleos semânticos.

Uma campanha e seu alvo

As campanhas de um observatório específico, estabelecem "alvos", que são subconjuntos universo U já definido pelo próprio observatório.

Por exemplo no Observatório JATS a campanha c05 definiu como alvo o assunto Zika virus, que já se encontra bem definido na Wikipedia, e portanto procurar na mesma página o link para a Wikidata, Q202864, e usar seu código como indicador de assunto.

Caso os curadores julguem que o item Wikidata não representa o assunto, podem lançar mão dos operadores união e interseção para formular o conceito a partir de mais de um item Wikidata.

Como vimos na introdução, é também obrigatória a definição extensional, através de amostras. O conjunto das amostras homologadas pela curadoria para esse fim é apelidado "núcleo semântico".

Resumindo: o alvo da campanha precisa receber uma definição intensional através de seu identificador Wikidata, ou uma expressão que traduza melhor o conceito; e precisa receber o apoio para a definição de exemplos e contra-exemplos através de amostras.

Modelo de Recuperação

Em bibliotecas, bancos de dados, etc. ou no controle de qualidade dos produtos de uma fábrica, precisamos avaliar um a um os elementos do conjunto-universo, e então recuperar alguns como "relevantes", conforme algum critério classificatório. Se não forem só alguns a serem recuperados, o trabalho de recuperação pode se mostrar muito custoso, sendo importante abstrair um modelo de recuperação para avaliar a qualidade do conjunto de elementos selecionados.

No modelo de recuperação adotado, convenciona-se a seguinte nomenclatura de conjuntos:

U é o universo de busca, portanto o conjunto concreto de todos os itens disponíveis no dia da pesquisa.

R é um conjunto idealizado de "itens relevantes" (sem erros de classificação), pertinentes ao assunto definido pelo núcleo semântico.

S é um conjunto concreto qualquer de "itens selecionados a candidatos de subconjunto de R". A interseção RS é obtida a custo de inspecionar um a um os elementos de S.

Exemplo

Definindo conforme as especificações acima e as fixadas pelo Observatório JATS, que contextualiza a campanha do exemplo da busca pelo assunto Zika:

U=\{\forall u\in InstancesOf(Q13442814)~|~u~{\text{is “artigo catalogado no pubMed.gov”}}\}

R=\{\forall r\in U~|~r~{\text{is “artigo sobre o assunto Zika Virus (Q202864)”}}\}

O conjunto de "representantes do núcleo" é um subconjunto de RS pequeno (da ordem de 10 < |RS| > 100) obtido a partir de um conjunto S composto de artigos eleitos pelos curadores através dos seguintes critérios:

populares, por exemplo indicados como mais citados pelo Google Scholar;
típicos, representativos de diferentes grupos ou categorias;
atípicos, úteis para comprovar que existem exceções.

A planilha dos exemplos é rotulada nucleoSem_exemplos.

Além desses representantes que ajudam a formar núcleo semântico, pode-se acrescentar um conjunto de representantes de falso-positivos (conjunto S_RS), ou seja, de contra-exemplos para uso no treino das equipes e testes de algoritmos. São rotulados nucleoSem_contraEx. Ambos são fornecidos manualmente pela curadoria.