Ir para o conteúdo

Rolezinho Linguístico/Corpora

De Wikiversidade
Página inicialAtividadeCorporaEdição atual

Listamos aqui vários corpora do português brasileiro disponíveis online, que vocês podem usar no Rolezinho. Para a edição de 2025, sugerimos usar os citados na seção "Corpora recentes", porque são mais adequados para a proposta deste Rolezinho de investigar o português brasileiro contemporâneo.

Corpora recentes

[editar | editar código]
  • O corpus do Projeto PORTAL contém textos orais (entrevistas sociolinguísticas com áudio e transcrição) de dez cidades do Alagoas, gravados entre 2013 e 2016.
  • O Corpus Linguístico da Paraíba (CoLingPB) abriga textos orais urbanos e rurais de todos os municípios da Paraíba, com áudio e transcrição, gravados entre 2011 e 2014.
  • O Corpus Linguístico do Amazonas (CoLingAM) abriga textos orais urbanos e rurais de 11 cidades do Amazonas, com áudio e transcrição, gravados entre 2013 e 2014.
  • O corpus do Projeto SP2010 contém textos orais (com áudio e transcrição) de paulistanos e paulistanas, com diferentes níveis de escolaridade e residentes de zonas e regiões variadas da cidade. As gravações foram feitas entre 2011 e 2013.
  • O corpus C-ORAL BRASIL I conta com textos orais informais de Minas Gerais do século XXI, com áudio e transcrição. O projeto do qual esse corpus faz parte apresenta outros corpora, dentre eles: o Minicorpus telefônico e o Minicorpus Português Brasileiro, ambos no mesmo escopo.
  • O corpus Concordância contém textos orais (entrevistas sociolinguísticas com áudio e transcrição) de duas cidades brasileiras (gravados entre 2008 e 2009) e de três cidades portuguesas.
  • O Banco de Dados Iboruna contém amostras de fala coletadas entre os anos de 2004 e 2007 em sete cidades circunvizinhas da região noroeste do Estado de São Paulo. Há dois grupos de amostras: (i) Amostra Censo ou Amostra Comunidade, composta por 152 entrevistas sociolinguísticas; e (ii) Amostra de Interação, composta por 11 interações dialógicas.
  • O corpus PorPopular inclui material do jornal porto-alegrense Diário Gaúcho de 2008 a 2010 e do jornal baiano Massa! de 2011 a 2015.
  • O projeto Pontes reúne a transcrição de 16 aulas (o que corresponde a 40 horas de gravação) da disciplina Sociolinguística, ofertada em 2011 na Faculdade Evangélica Brasília para estudantes do curso de Letras.
  • O banco de dados do projeto A Brasília que não lê reúne 94 entrevistas realizadas com adultos não alfabetizados ou analfabetos funcionais residentes na região metropolitana de Brasília-DF. As entrevistas são muito provavelmente do final da década de 2000, e estão disponíveis apenas as transcrições.
  • O corpus TeMário (sigla de ‘TExtos com suMÁRIOs’) contém 100 textos jornalísticos do início da década de 2000, publicados nos jornais online Folha de São Paulo e Jornal do Brasil.
  • O OlimPio: Tuítes da Olimpíada Brasil Rio 2016 é formado por cerca de 980.000 tuítes relacionados a olimpíadas do Rio 2016.

Corpora para a história do português brasileiro

[editar | editar código]

Corpora sem acesso integral aos textos

[editar | editar código]
  • O Corpus do Português funciona como uma ferramenta de busca em um grande banco de dados, mas não oferece acesso aos textos na íntegra. É dividido em três corpora: o Gênero/Histórico, com textos orais e escritos de Portugal e do Brasil do séc XX e anteriores); o Web / Dialetos, com blogs e páginas de internet de quatro países: Angola, Brasil, Moçambique e Portugal); e o NOW (News On the Web), com notícias de meio digital de 2012 a 2019 desses mesmos quatro países. Leia a descrição aqui. Veja este vídeo para aprender a usar o corpus.
  • A Linguateca é um grande centro de recursos para o processamento computacional da língua portuguesa. Destacamos o recurso Projeto AC/DC (Acesso a corpos/Disponibilização de corpos), o qual permite fazer buscas em mais de quarenta corpora de português brasileiro e europeu. Veja este vídeo e este outro para aprender a usar o AC/DC.
  • O site Sketch Engine é uma plataforma online com muitos corpora, de diversas línguas, com variedade de ferramentas de busca. O site também permite fazer upload do seu próprio corpus pessoal e usar as ferramentas de busca. Estão disponíveis alguns corpora de português brasileiro, mas a maioria deles exige a criação de uma conta com pagamento mensal.
  • O CorPop é um corpus do português popular brasileiro escrito, compilado a partir de textos selecionados com base no nível de letramento médio dos leitores do país. Não há acesso aos textos, apenas uma ferramenta de busca, tal como o Corpus do Português.
  • Infelizmente alguns corpora notáveis não estão (mais) disponíveis online, como o Lacioweb; Banco de Português; Biblioteca Brasiliana Guita e José Mindlin; VARSUL; Projeto NURC/Salvador; Projeto NURC/Porto Alegre; VALPB; PORCUFORT; Projeto Vertentes do Português Popular do Estado da Bahia; PortVix; Falares Sergipanos; Projeto VMPOSC (Variação e Mudança no Português do Oeste de Santa Catarina); Fala Goiana; LínguaPOA; e os corpora do LeDoc. Outros não permitem a leitura de seus textos na íntegra, como o Corpus Brasileiro. Há também os que não especificam a data dos textos, como o Corpus do Projeto PROFALA, as "Amostras de fala fluminense" do PorUs e o banco de dados dos colaboradores da pesquisa Urbanização de falantes de dialetos rurais.

Como usar um corpus anotado

[editar | editar código]

Vídeos para aprender a usar um corpus anotado: