Viés e subjetividade nos dados

Na unidade 3 do módulo 2, falamos sobre as lacunas de conteúdo e equidade na Wikipédia. Para introduzir a discussão, falamos sobre a objetividade científica e sobre o questionamento da capacidade da ciência e dos cientistas de se descolarem do mundo e acessarem os fatos de forma imparcial como se estivessem observando-os de fora. Discutimos sobre como "todo conhecimento é um nódulo condensado num campo de poder agonístico" (Haraway, 2009, p.10^[1]), ou seja, um campo em disputa sobre o que merece ser conhecido e como deve ser conhecido.

Assim como o conhecimento, as tecnologias também têm uma forte dimensão política e de poder. Ainda de acordo com Haraway (2009, p.28^[1]), as tecnologias também delimitam o que ver, como ver e quais os limites do que é visto. Assim, o que não está de acordo com os padrões é relegado às sombras.

Normatizações em bancos de dados

O viés nas tecnologias decorre de uma lógica normativa abrangente e centralizadora que é usada para determinar como o mundo deve ser visto e avaliado^[2]. Essas classificações, inevitavelmente carregadas de valores, forçam uma maneira de ver o mundo enquanto reivindicam uma neutralidade científica^[2]. Quando um dado não se adequa ao padrão ou à norma da base de dados em questão, ou é descartado, ou é forçado a ocupar um espaço que se aproxima do que ele representa. Como nos lembram Gitelman e Jackson^[3], não é possível falar em "dados brutos", pois todos os dados são tratados e classificados antes de serem armazenados. Ou seja, "dado bruto é um oxímoro"^[3].

Discussões sobre os riscos e os problemas ligados à normatização datam do início do Século XX e perpassam todas as áreas do conhecimento. Uma parte considerável dessas discussões está relacionada aos trabalhos de Michel Foucault^[4], mas para o assunto que nos interessa nesta unidade, constatamos que normatizações são exercícios de poder, uma vez que determinam quais e como os dados devem ser armazenados, classificados e catalogados. Algumas pessoas são responsáveis por criar as normas e as categorias, a partir do que lhes interessa conhecer e armazenar, e os dados passam a ser enquadrados dentro dessa estrutura.

Bancos de dados como o Wikidata exemplificam bem como se dão essas delimitações a partir de normatizações. Pra que os dados sejam armazenados, é preciso encaixá-los em uma estrutura pré-definida – afinal, trata-se de bases de dados estruturados nas quais os conhecimentos coletivos são legitimados por padrões.

O Wikidata "coleta dados estruturados, impondo um alto grau de organização estruturada que permite o fácil reuso dos dados pelos projetos Wikimedia e por terceiros"^[5], além de poder ser lido por humanos e por máquinas. Contudo, diferentemente de outros bancos de dados, o Wikidata pertence a todos, respeita os dados e é criado colaborativamente.

Além de ser possível entender e navegar pelas engrenagens do Wikidata, nós podemos interferir, verificando, criando e editando os dados ou a infraestrutura dessa base de dados. Ao contrário do padrão praticado pela maioria das plataformas digitais, que têm dados e classificações fechados a sete chaves corporativas, no Wikidata os dados e as formas de classificação são abertos e transparentes.

Sabemos que os dados no Wikidata estão organizados por uma lista pré-definida de propriedades. Ao incluir uma informação, é preciso escolher uma das propriedades listadas para formar a tripla: "item → propriedade → valor". A diferença do Wikidata em relação a outras bases de dados semelhantes, é que trata-se de uma lista pública pré-estabelecida, que oferece maior flexibilidade e muito mais transparência. Não só é possível conhecer a lista de classificações, como é possível alterá-la a qualquer momento. Ou seja, qualquer editor interessado pode sugerir a inclusão de uma nova propriedade à lista existente e questionar a existência de uma determinada classificação.

É claro que criar uma propriedade não é uma ação corriqueira. Afinal, é preciso manter a coerência dos dados para que eles sigam os princípios FAIR para serem facilmente compartilhados e combinados com outras bases de dados. Mas existe a possibilidade de ampliação e alteração da lista de propriedades classificadoras. Inclusive, muitas delas foram criadas a partir de necessidades apontadas pela comunidade.

Responsabilidade pelas informações

Um outro ponto problemático das bases de dados, é a dificuldade de recuperação das informações ali armazenadas. Uma vez inseridos na base, os dados se tornam descolados da realidade que representam, descontextualizados e usados para fins não imaginados pela fonte original. Dados de indígenas da Nova Zelândia, por exemplo, podem ser usados para treinar inteligências artificiais estadunidenses^[6], muitas vezes sem que nenhuma das partes o saiba.

Como o Wikidata é uma base de dados secundária, ele não armazena apenas os dados em forma de declarações, mas também armazena as fontes e as conexões com outras plataformas. Isso reflete a diversidade de conhecimento disponível e apoia a noção de verificabilidade. A partir das referências é possível rastrear os dados e entender, ainda que minimamente, o seu contexto de origem.

Representatividade

Mapa mostrando itens (pontos luminosos) no Wikidata por região geográfica em novembro de 2021. Autor: Addshore.

Como já discutimos na unidade 3 do módulo 2, infelizmente a internet reproduz os padrões coloniais e normativos existentes na sociedade. Isso faz com que "a internet da maioria (marginalizada)" seja produzida por uma "minoria (ocidental, branca, masculina)" ^[7]^[8].

Apesar de cerca de 60% da população mundial ter acesso à internet, e 75% desses estarem localizados no Sul Global é a "perspectiva de homens principalmente brancos, heterossexuais e norte-americanos que dita como nossas infraestruturas de conhecimento são criadas e administradas" (Whose Knowledge, 2021^[8]).

E o Wikidata não foge a esse padrão. Como exemplificado na figura ao lado, o número de itens que representa o Norte Global é infinitamente maior que aqueles do Sul Global. No mapa, onde cada ponto luminoso representa um item na base de dados, é perceptível que os países do Sul Global estão relegados à "escuridão".

Essa falta de representatividade dos dados é consequência da falta de representatividade dos editores. De acordo com pesquisa realizada em 2021, pela Wikimedia Deutschland^[9], 75% das pessoas que responderam ao questionário feito com a comunidade do Wikidata se afirmaram homens, enquanto 16% se afirmaram mulheres, 3% não-binários e 6% não informaram. Além disso, 76% das pessoas se declararam morar no Norte Global e 16% no Sul Global.

Os resultados exibidos são influenciados pela pouca representatividade de seus editores. Quando geramos visualizações do número de artigos científicos publicados por ano, em cada país, vemos imensa discrepância entre os dados dos países mais ricos e dos países mais pobres. Sabemos que essa diferença é real: os países do Norte Global (em função do maior acesso aos diversos recursos necessários para a pesquisa e produção científica) têm, sim, uma produção científica superior àqueles localizados no Sul Global. Mas, por falta de dados correspondentes, a visualização gerada pelo Wikidata indicará uma discrepância ainda maior do que a existente na realidade.

Atuação com impacto social

Editar o Wikidata com seus estudantes é também atuar na representatividade dos dados: contribuindo para aumentar o número de editores brasileiros na comunidade, e inserindo mais dados sobre o Brasil e sobre as pesquisas nacionais.

Os periódicos nacionais da sua área de conhecimento estão catalogados na base do Wikidata?

Os artefatos, itens e seres que você estuda e/ou ensina estão bem descritos na base de dados?

Ao buscar sua temática no Wikidata, você encontra resultados em português?

Atividades simples, como inserir o gênero de pesquisadores já catalogados na base de dados, ou cadastrar uma imagem representativa em um item (que pode até já estar disponível no Wikimedia Commons) são ações simples que geram impacto social, um clique por vez.

Referências

↑ ^1,0 ^1,1 Haraway, D. (2009). Saberes localizados: a questão da ciência para o feminismo e o privilégio da perspectiva parcial. Cadernos Pagu, (5), 7–41. Recuperado de https://periodicos.sbu.unicamp.br/ojs/index.php/cadpagu/article/view/1773
↑ ^2,0 ^2,1 CRAWFORD, Kate. The atlas of AI: Power, politics, and the planetary costs of artificial intelligence. Yale University Press, 2021.
↑ ^3,0 ^3,1 GITELMAN, Lisa (Ed.). Raw data is an oxymoron. MIT press, 2013.
↑ FOUCAULT, M. As palavras e as coisas. São Paulo: Martins Fontes, 8ª edição. 1999.
↑ Introdução ao Wikidata.https://www.wikidata.org/wiki/Wikidata:Introduction/pt-br
↑ RINA CHANDRAN. Indigenous groups fear culture distortion as AI learns their languages. Apr 10, 2023. The japan times.https://www.japantimes.co.jp/news/2023/04/10/world/indigenous-language-ai-colonization-worries/
↑ WHOSE KNOWLEDGE? (2018) … the first ever conference about centering marginalized knowledge online!. In: Whose Knowledge?. Disponível em: https://whoseknowledge.org/decolonizing-the-internet-conference/
↑ ^8,0 ^8,1 WHOSE KNOWLEDGE? (2021). Re-imagining and re-designing the internet to be for and by us all. Report. Disponível em: https://whoseknowledge.org/wp-content/uploads/2021/04/WK-Prospectus-2021.pdf.
↑ Wikidata Community Survey 2021.https://commons.wikimedia.org/wiki/File:Wikidata_Community_Survey_2021.pdf

Aula Anterior

Próxima Aula

[:0-1] 1,0 ^1,1 Haraway, D. (2009). Saberes localizados: a questão da ciência para o feminismo e o privilégio da perspectiva parcial. Cadernos Pagu, (5), 7–41. Recuperado de https://periodicos.sbu.unicamp.br/ojs/index.php/cadpagu/article/view/1773

[:2-2] 2,0 ^2,1 CRAWFORD, Kate. The atlas of AI: Power, politics, and the planetary costs of artificial intelligence. Yale University Press, 2021.

[:3-3] 3,0 ^3,1 GITELMAN, Lisa (Ed.). Raw data is an oxymoron. MIT press, 2013.

[4] FOUCAULT, M. As palavras e as coisas. São Paulo: Martins Fontes, 8ª edição. 1999.

[5] Introdução ao Wikidata.https://www.wikidata.org/wiki/Wikidata:Introduction/pt-br

[6] RINA CHANDRAN. Indigenous groups fear culture distortion as AI learns their languages. Apr 10, 2023. The japan times.https://www.japantimes.co.jp/news/2023/04/10/world/indigenous-language-ai-colonization-worries/

[7] WHOSE KNOWLEDGE? (2018) … the first ever conference about centering marginalized knowledge online!. In: Whose Knowledge?. Disponível em: https://whoseknowledge.org/decolonizing-the-internet-conference/

[:1-8] 8,0 ^8,1 WHOSE KNOWLEDGE? (2021). Re-imagining and re-designing the internet to be for and by us all. Report. Disponível em: https://whoseknowledge.org/wp-content/uploads/2021/04/WK-Prospectus-2021.pdf.

[9] Wikidata Community Survey 2021.https://commons.wikimedia.org/wiki/File:Wikidata_Community_Survey_2021.pdf

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

WikiConecta/O Wikidata/Viés e subjetividade nos dados

Viés e subjetividade nos dados

Conteúdo

Normatizações em bancos de dados

Responsabilidade pelas informações

Representatividade

Atuação com impacto social

Referências

Discussão

Próximos passos