WikiConecta/O Wikidata/O banco de dados estruturados da Wikimedia

Fonte: Wikiversidade
Logo do WikiConecta

O banco de dados estruturados da Wikimedia

Conteúdo

Print de tela do verbete "Wikiversidade, na Wikipédia, mostrando uma infobox produzida a partir de dados do Wikidata.
Print de tela de um verbete na Wikipédia, sobre a Wikiversidade, mostrando uma infobox produzida a partir de dados do Wikidata.

O Wikidata é uma base de conhecimento livre e aberta que pode ser lida e editada por humanos e máquinas[1]. É um banco de dados secundário, livre, colaborativo e multilíngue que coleta dados estruturados que servem de suporte à Wikipédia, aos demais projetos Wikimedia e a qualquer um no mundo. O Wikidata é um banco de dados orientado a documentos com foco em itens que representam qualquer tipo de tópico, conceito ou objeto.

Você provavelmente já se deparou com itens do Wikidata sem saber. Por exemplo, as caixas informativas exibidas no lado direito dos verbetes da Wikipédia, como na imagem ao lado. Trata-se de uma ilustração do verbete "Wikiversidade" com uma caixa informativa gerada automaticamente a partir dos dados do item de mesmo nome no Wikidata.

Você também já deve ter obtido dados do Wikidata ao fazer perguntas para assistentes virtuais como a Alexa e a Siri. Isso porque o Wikidata apoia vários outros sites e serviços. Como seu conteúdo está disponível sob uma licença livre, pode ser exportado usando formatos comuns e interligado a outros conjuntos de dados abertos na web.

O Wikidata é um projeto internacional da Fundação Wikimedia que almeja ser o maior banco de dados livres, da mesma forma que a Wikipédia se tornou a fonte mais popular de conhecimento no mundo. Este projeto foi iniciado pela Wikimedia Deutschland e lançado em 30 de outubro de 2012[2]. O objetivo do seu desenvolvimento era fornecer uma origem comum para certos tipos de dados, como datas de nascimento, coordenadas geográficas, número populacional e outros elementos que não variam de um idioma para outro.

Na atualidade, mais especificamente em Setembro de 2023, o Wikidata é mantido por uma comunidade em torno de 25.000 editores[3] e tem crescido exponencialmente. Em outubro de 2022, o projeto comemorou seu 10º aniversário, ultrapassando o montante de 100 milhões de itens e, até o momento, é a maior base de conhecimento semântico existente[4]. O conteúdo do Wikidata está sob licença CC0, o que significa que as informações nele inseridas são automaticamente doadas para o conhecimento livre.

Banco de dados estruturados[editar | editar código-fonte]

Dados são coleções de valores que transmitem informações, podendo descrever quantidades, qualidades, fatos, estatísticas, outras unidades básicas de significado, ou simplesmente sequências de símbolos. Eles são coletados desde os primórdios da humanidade na tentativa de compreender o mundo, a sociedade, o corpo humano, a natureza ou os fenômenos físico-químicos. Mas as formas de armazená-los, organizá-los e criar relações entre eles seguem variando e fazendo cientistas e profissionais de diferentes áreas do conhecimento quebrarem a cabeça, especialmente aqueles dedicados aos estudos dos sistemas e arquiteturas de estruturação de dados.

Os dados geralmente precisam ter padrões de categorização, armazenamento e organização em estruturas inteligíveis para serem compreendidos por mais pessoas, além daquelas que os coletaram. Para isso, são criadas tabelas, categorias, nomenclaturas, etiquetas e normatizações. Dados estruturados estão, portanto, organizados dentro de estruturas pré-estabelecidas amplamente conhecidas e reconhecidas, e são categorizados e armazenados em um formato padronizado, obedecendo a um modelo e ordem constantes.

Mas organizar um banco de dados legível por humanos é diferente de organizar um banco de dados legível por máquinas. Para que os sistemas computacionais, os algoritmos e as inteligências artificiais sejam capazes de acessar e processar os dados, eles precisam ser preparados, ou seja, categorizados, organizados, limpos e valorados a partir de critérios específicos[5]. Máquinas são capazes de ler uma infinidade de dados que mentes humanas jamais conseguiriam. Porém, só o fazem quando esses dados estão estruturados em formas que essas máquinas foram programadas para ler.

Cada item no Wikidata tem um número único (QID).

Os dados no Wikidata[editar | editar código-fonte]

O Wikidata é um banco de dados organizados legível por humanos e máquinas. Dessa forma, os dados nele armazenados estão prontos para servir de base para o funcionamento de algoritmos e inteligências artificiais, e organizados de forma compreensível para a mente humana.

Os dados no Wikidata estão disponíveis para serem usados por qualquer pessoa interessada, em qualquer lugar do mundo. Seu formato permite que pessoas com pouca expertise técnica consigam acessar seu conteúdo e editá-lo em um processo semelhante a editar uma planilha ou um formulário.

O Wikidata é uma base de conhecimento como várias outras disponíveis na internet, mas também atua como um hub de conexão entre todas elas. Ao impor um alto grau de organização estruturada, o Wikidata possibilita o fácil reuso dos seus dados pelos projetos Wikimedia e por terceiros, além de permitir aos computadores processarem e "compreenderem" esses dados. O Wikidata auxilia a Wikipédia com elementos que são mais fáceis de manter em suas caixas de informação (infocaixas) e em seus links para outros idiomas (interwikis), reduzindo o trabalho de edição e melhorando a qualidade do conteúdo disponibilizado. Isso possibilita que as atualizações feitas em um idioma específico, como o português, se tornem disponíveis em todos os outros idiomas de forma rápida e simples.

Além disso, qualquer pessoa que desejar pode utilizar o Wikidata de inúmeras formas porque sua interface de programação de aplicações (API) é aberta e livre. O Wikidata segue os princípios FAIR: Fáceis de encontrar; Acessíveis; Interoperáveis e Reusáveis.

Assim como na Wikipédia, no Wikidata qualquer pessoa pode criar um item e também uma propriedade. Contudo, há um processo comunitário de aprovação antes que as propriedades estejam disponíveis para uso público, a fim de manter os metadados estruturados de forma consistente.

Lógica de funcionamento do Wikidata[editar | editar código-fonte]

O Wikidata é um repositório central composto principalmente por itens que são identificados exclusivamente pela letra Q, seguida de um número.
Esquema que exemplifica a página da entidade Brasil (Q155) no Wikidata. Essa entidade é do tipo "item", por isso leva o prefixo Q antes do seu número identificador único.
Entidade é o conteúdo de uma página do Wikidata que pode ser tanto um item (no domínio principal) ou uma propriedade (no domínio propriedade). Cada entidade é identificada de forma única pelo "ID de entidade", um número inteiro prefixado, exclusivo e perene. Esse ID começa com o prefixo Q para um item ou com o prefixo P para uma propriedade. Uma entidade também é identificada por uma combinação única de rótulo e descrição em cada idioma. "Brasil" é uma entidade, assim como "idioma oficial", como mostrado na imagem ao lado. Brasil também é um item: Q155.

Item é uma coisa, uma entidade, um conceito – pode ser um objeto, uma pessoa, um evento, um lugar, uma obra de arte, ou conceitos mais abstratos como amor ou o socialismo. A ele é dado um identificador prefixado no domínio principal do Wikidata, como Q155 para Brasil. Os itens são identificáveis por um link de site para uma página externa ou pela combinação única de um rótulo e uma descrição multilíngue; eles podem conter nomes alternativos para facilitar a busca no banco de dados do Wikidata. Cada item é composto por várias declarações formadas a partir de propriedades, como se fossem frases que trazem informações sobre ele.

O item também possui um rótulo – nome principal que lhe foi dado em um determinado idioma. O rótulo permite que a informação básica necessária para identificar o assunto do qual o item trata possa ser traduzida sem favorecer um idioma em particular. Por exemplo, o item Brasil (Q155) aparece como "Brésil" para usuários que escolheram o idioma francês como padrão no Wikidata, e como "Brazil" para os que usam o idioma inglês.

Rótulos não precisam ser únicos. Por exemplo, o rótulo Brasil (Q4957796) representa a música cantada por Cazuza, mas Brasil (Q67210045) também representa um monumento localizado na cidade do Rio de Janeiro, e Brasil (Q36962840) representa ainda um nome de família. Para diferenciar os itens em casos como esse, existem as descrições.

A descrição de um item no Wikidata é uma frase curta cujo intuito é distinguir itens com rótulos iguais ou semelhantes. Descrições também não precisam ser únicas; múltiplos itens podem ter a mesma descrição. Entretanto, dois itens não podem ter, simultaneamente, o mesmo rótulo e a mesma descrição. Por exemplo, o item Brasil (Q155) possui o rótulo "Brasil" e a descrição "país da América do Sul". Outros itens podem ter o rótulo "Brasil", como visto acima, e podem ter a mesma descrição "país da América do Sul", como é o caso dos itens Argentina (Q414) e Peru (Q419). Mas nenhum deles tem a combinação rótulo "Brasil" e a descrição "país da América do Sul", apenas o item Brasil (Q155).

Propriedade (ou atributo) é o que descreve um valor ou cria uma relação entre um valor e outro. Cada declaração na página de um item liga-se a uma propriedade e atribui a ela um ou vários valores. Se imaginarmos que as declarações do Wikidata são como frases, podemos pensar que a propriedade cumpre o papel de um verbo e o item cumpre o papel de sujeito.

A propriedade é armazenada em uma página do domínio Property (Propriedade) e inclui uma declaração do tipo de dados que são computados como valores válidos daquela propriedade. Comparada ao Linked data, a propriedade representa o predicado de uma tripla.

Os dados no Wikidata estão organizados por declarações feitas no formato de triplas: item → propriedade → valor. Todo item é descrito por várias declarações. O valor de uma declaração pode ser um número, uma imagem ou outro item. No Wikidata existem 17 tipos de dados diferentes (encontre mais informações aqui).

Na imagem abaixo, o item "Brasil" (Q155) tem uma declaração que indica o seu "idioma oficial" através da propriedade (P37). Essa tripla é formada da seguinte forma: Brasil (item = Q155) → idioma oficial (propriedade = P37) → língua brasileira de sinais (valor = item Q3436689). Essa propriedade "idioma oficial" comporta valores que sejam nomes de idiomas, como "língua brasileira de sinais" (Q3436689) e não aceita a inserção de um número como valor, por exemplo.


Contudo, há casos em que há dois valores possíveis para uma mesma propriedade. Por exemplo, no Brasil há outro idioma oficial: o português. Nesse caso, usamos a mesma estrutura da tripla anterior, alterando apenas o valor. No lugar do valor anterior, inserimos "português" (Q5146). A tripla passa a ser então: Brasil (item = Q155) → idioma oficial (propriedade = P37) → português (valor = item Q5146).

Seguindo com o exemplo do item Brasil, podemos fazer várias declarações com diferentes propriedades, como: Brasil (item Q155) → instância de (propriedade P31) → país (item Q6256). Nesse caso, o valor "país" também é um item no Wikidata.

Também podemos construir triplas em que o valor não seja um item. Por exemplo: Brasil (item = Q155) → imagem (propriedade P18) → arquivo de imagem representando o Brasil. Nessa tripla, o valor é um arquivo audiovisual. Mais um exemplo: Brasil (item Q155) → coordenadas geográficas (propriedade P625) → 14°S, 53°W. Nesse caso, o valor é uma coordenada geográfica.

Contudo, há situações em que um valor pode ser vago demais quando inserido isoladamente. Como solução, podemos adicionar qualificadores para especificar o que queremos declarar sobre aquele item. Qualificadores, como representado na imagem ao lado, permitem que as declarações sejam expandidas, anotadas ou contextualizadas, em comparação ao simples par propriedade-valor.

Por exemplo, em uma declaração sobre os grupos étnicos relacionados ao item Brasil (Q155), a tripla seria formada da seguinte forma: Brasil (item Q155) → grupo étnico (propriedade P172) → brasileiro branco (valor = item Q2995285).

Mas, além de inserir cada um dos grupos étnicos relacionados ao item é importante acrescentar informações sobre o percentual que cada um representa em relação à população total do país em questão. Nesse caso, podemos inserir uma declaração qualificadora para dar mais informações sobre aquele valor. O valor "brasileiro branco" (Q2995285) passa a ocupar o lugar do item na tripla, formando uma segunda declaração: "Brasileiro branco" (item Q2995285) → proporção (propriedade P1107) → 0,477 (valor = número). Essa segunda tripla qualifica a primeira, expandindo e especificando a informação declarada.

É através da construção de triplas formadas por item → propriedade → valor que descrevemos e qualificamos os itens no Wikidata, criando complexas redes de dados inter-relacionados. É graças a esse formato que os dados inseridos no Wikidata são organizados de forma estruturada e são legíveis tanto por humanos, quanto por máquinas.

Vale ressaltar que em todo esse processo é fundamental inserir referências que dêem lastro às informações declaradas.

Para saber mais sobre esses e outros termos usados no Wikidata, acesse o glossário do projeto. Para mais informações sobre a organização e a categorização dos dados no Wikidata, acesse a lista de propriedades do projeto ou esta ferramenta que organiza e auxilia a busca por propriedades.

Referências

  1. https://www.wikidata.org/wiki/Wikidata:Introduction/pt-br
  2. Will Kent. Why is Wikidata important to you? In: WikiEdu. 03 de junho de 2019. Disponível em: https://wikiedu.org/blog/2019/06/03/why-is-wikidata-important-to-you/
  3. Estatísticas Wikidata. https://w.wiki/PaP. Acesso em: 20 de setembro de 2023.
  4. Evenstein Sigalov, S., Nachmias, R. Investigating the potential of the semantic web for education: Exploring Wikidata as a learning platform. Educ Inf Technol (2023). https://link.springer.com/article/10.1007/s10639-023-11664-1
  5. GILLESPIE, Tarleton. A relevância dos algoritmos. Parágrafo, v. 6, n. 1, p. 95-121, 2018. Disponível em: https://revistaseletronicas.fiamfaam.br/index.php/recicofi/article/view/722

Conteúdos audiovisuais

Discussão