Rolezinho Linguístico/Corpora
Aparência
| Página inicial | Atividade | Corpora | Edição atual |
Listamos aqui vários corpora do português brasileiro disponíveis online, que vocês podem usar no Rolezinho. Para a edição de 2025, sugerimos usar os citados na seção "Corpora recentes", porque são mais adequados para a proposta deste Rolezinho de investigar o português brasileiro contemporâneo.
Corpora recentes
[editar | editar código]- O corpus do Projeto PORTAL contém textos orais (entrevistas sociolinguísticas com áudio e transcrição) de dez cidades do Alagoas, gravados entre 2013 e 2016.
- O Corpus Linguístico da Paraíba (CoLingPB) abriga textos orais urbanos e rurais de todos os municípios da Paraíba, com áudio e transcrição, gravados entre 2011 e 2014.
- O Corpus Linguístico do Amazonas (CoLingAM) abriga textos orais urbanos e rurais de 11 cidades do Amazonas, com áudio e transcrição, gravados entre 2013 e 2014.
- O corpus do Projeto SP2010 contém textos orais (com áudio e transcrição) de paulistanos e paulistanas, com diferentes níveis de escolaridade e residentes de zonas e regiões variadas da cidade. As gravações foram feitas entre 2011 e 2013.
- O corpus C-ORAL BRASIL I conta com textos orais informais de Minas Gerais do século XXI, com áudio e transcrição. O projeto do qual esse corpus faz parte apresenta outros corpora, dentre eles: o Minicorpus telefônico e o Minicorpus Português Brasileiro, ambos no mesmo escopo.
- O corpus Concordância contém textos orais (entrevistas sociolinguísticas com áudio e transcrição) de duas cidades brasileiras (gravados entre 2008 e 2009) e de três cidades portuguesas.
- O Banco de Dados Iboruna contém amostras de fala coletadas entre os anos de 2004 e 2007 em sete cidades circunvizinhas da região noroeste do Estado de São Paulo. Há dois grupos de amostras: (i) Amostra Censo ou Amostra Comunidade, composta por 152 entrevistas sociolinguísticas; e (ii) Amostra de Interação, composta por 11 interações dialógicas.
- O corpus PorPopular inclui material do jornal porto-alegrense Diário Gaúcho de 2008 a 2010 e do jornal baiano Massa! de 2011 a 2015.
- O projeto Pontes reúne a transcrição de 16 aulas (o que corresponde a 40 horas de gravação) da disciplina Sociolinguística, ofertada em 2011 na Faculdade Evangélica Brasília para estudantes do curso de Letras.
- O banco de dados do projeto A Brasília que não lê reúne 94 entrevistas realizadas com adultos não alfabetizados ou analfabetos funcionais residentes na região metropolitana de Brasília-DF. As entrevistas são muito provavelmente do final da década de 2000, e estão disponíveis apenas as transcrições.
- O corpus TeMário (sigla de ‘TExtos com suMÁRIOs’) contém 100 textos jornalísticos do início da década de 2000, publicados nos jornais online Folha de São Paulo e Jornal do Brasil.
- O OlimPio: Tuítes da Olimpíada Brasil Rio 2016 é formado por cerca de 980.000 tuítes relacionados a olimpíadas do Rio 2016.
Corpora para a história do português brasileiro
[editar | editar código]- A plataforma Corpus Eletrônico de Documentos Históricos do Sertão (CE-DOHS) disponibiliza uma extensa base documental, composta principalmente por corpora orais (entrevistas sociolinguísticas) de falantes da Bahia das décadas de 1997 e 2003 e por manuscritos de 1640 a 2000.
- O grupo PEUL (Programa de Estudos sobre o Uso da Língua) desenvolveu alguns corpora entre as décadas de 1970 e 2000. Estão disponíveis quatro corpora de textos orais (entrevistas sociolinguísticas) e um corpus de textos escritos (diferentes gêneros jornalísticos).
- O corpus Discurso & Gramática contém textos orais e escritos de cinco cidades brasileiras da década de 1990.
- O Projeto da Norma Urbana Linguística Culta (Projeto NURC) montou um corpus com textos orais gravados entre as décadas de 1970 e 1990 em cinco capitais. Atualmente estão disponíveis online os dados de áudio e transcrição do Projeto NURC/Recife, Projeto NURC/RJ e Projeto NURC/SP.
- O Projeto Dialetos Sociais Cearenses desenvolveu o corpus A Linguagem Falada em Fortaleza, com dados orais da década de 1980.
- O projeto Para a História do Português Brasileiro (PHPB) tem desenvolvido vários corpora de textos escritos dos séculos XVIII, XIX e XX. O material é bem extenso e variado em região (12 estados brasileiros) e gêneros textuais.
- O Corpus Histórico da Língua Portuguesa (CHLP-HistLing) reúne cartas e bilhetes escritos por brasileiros nos séculos XIX-XX.
- O Corpus do GMHP (Grupo de Morfologia Histórica do Português) contém obras literárias escritas em português até o séc XX, divididas em em cinco grande gêneros literários denominados da seguinte forma: (1) romance-novela, (2) conto-crônica, (3) teatro, (4) poesia e (5) prosa (outros). Veja este vídeo para aprender a usar o corpus.
- O Corpus Histórico do Português Tycho Brahe é composto de textos literários e não literários escritos por autores brasileiros e europeus nascidos entre 1380 e 1978. É possível baixar os textos ou usar uma ferramenta de busca. Veja este vídeo para aprender a usar o corpus.
- O Brazilian Portuguese Literature Corpus abriga 81 textos (somando 3,7 milhões de palavras) da literatura brasileira publicada entre 1840 e 1908.
- O site do CLUL (Centro de Linguística da Universidade de Lisboa) lista vários corpora orais e escritos com dados de português europeu, dentre os quais se destaca o Corpus de Referência do Português Contemporâneo - CRPC.
Corpora sem acesso integral aos textos
[editar | editar código]- O Corpus do Português funciona como uma ferramenta de busca em um grande banco de dados, mas não oferece acesso aos textos na íntegra. É dividido em três corpora: o Gênero/Histórico, com textos orais e escritos de Portugal e do Brasil do séc XX e anteriores); o Web / Dialetos, com blogs e páginas de internet de quatro países: Angola, Brasil, Moçambique e Portugal); e o NOW (News On the Web), com notícias de meio digital de 2012 a 2019 desses mesmos quatro países. Leia a descrição aqui. Veja este vídeo para aprender a usar o corpus.
- A Linguateca é um grande centro de recursos para o processamento computacional da língua portuguesa. Destacamos o recurso Projeto AC/DC (Acesso a corpos/Disponibilização de corpos), o qual permite fazer buscas em mais de quarenta corpora de português brasileiro e europeu. Veja este vídeo e este outro para aprender a usar o AC/DC.
- O site Sketch Engine é uma plataforma online com muitos corpora, de diversas línguas, com variedade de ferramentas de busca. O site também permite fazer upload do seu próprio corpus pessoal e usar as ferramentas de busca. Estão disponíveis alguns corpora de português brasileiro, mas a maioria deles exige a criação de uma conta com pagamento mensal.
- O CorPop é um corpus do português popular brasileiro escrito, compilado a partir de textos selecionados com base no nível de letramento médio dos leitores do país. Não há acesso aos textos, apenas uma ferramenta de busca, tal como o Corpus do Português.
- Infelizmente alguns corpora notáveis não estão (mais) disponíveis online, como o Lacioweb; Banco de Português; Biblioteca Brasiliana Guita e José Mindlin; VARSUL; Projeto NURC/Salvador; Projeto NURC/Porto Alegre; VALPB; PORCUFORT; Projeto Vertentes do Português Popular do Estado da Bahia; PortVix; Falares Sergipanos; Projeto VMPOSC (Variação e Mudança no Português do Oeste de Santa Catarina); Fala Goiana; LínguaPOA; e os corpora do LeDoc. Outros não permitem a leitura de seus textos na íntegra, como o Corpus Brasileiro. Há também os que não especificam a data dos textos, como o Corpus do Projeto PROFALA, as "Amostras de fala fluminense" do PorUs e o banco de dados dos colaboradores da pesquisa Urbanização de falantes de dialetos rurais.
Como usar um corpus anotado
[editar | editar código]Vídeos para aprender a usar um corpus anotado:
- Workshop que apresenta cinco bancos de texto: CIPM (Corpus Informatizado do Português Medieval); Corpus Histórico do Português Tycho Brahe; Corpus do GMHP (Grupo de Morfologia Histórica do Português); Biblioteca Brasiliana Guita e José Mindlin; e Corpus do Português: https://www.youtube.com/watch?v=SGZDvWVk7L4
- Apresentações que ensinam a utilizar os corpora do Projeto AC/DC presente no site Linguateca: https://www.youtube.com/watch?v=FJ_eem5jtIk e https://www.youtube.com/watch?v=WuQt02JaktY
- Curso de introdução à Linguística de Corpus: https://www.youtube.com/playlist?list=PLDqV9AUupFLDfikIvGAeWM5ruAeCMeoM8
- É possível transformar seu próprio compilado de textos em um corpus anotado, usando sites como Sketch Engine ou ferramentas gratuitas como AntConc e Lancsbox. Leia aqui materiais para aprender a usar o AntConc. Assista aos vídeos do Lancsbox para aprender a usá-lo: https://lancsbox.lancs.ac.uk/