Instituições Participantes :

Centro de Linguística da Universidade de Lisboa (CLUL)

Centro de Física Teórica e Computacional da Universidade de Lisboa

 

Equipa:

Afonso Pereira

Antónia Estrela

José Bettencourt Gonçalves 

Luísa Alice Pereira

Maria Fernanda Gorjão Bacelar do Nascimento (Investigadora Responsável)

Perpétua Gonçalves (Consultora)

Rui Santos

Sancho M. Oliveira

 

Início do Projecto:

Setembro de 2004

 

Estado do Projecto:

Concluído

 

Descrição do projecto:
Dada a extrema desigualdade que se verifica no que respeita a Recursos Linguísticos e à publicação de estudos entre, por um lado, as variedades europeia e brasileira do português e, por outro lado, as variedades africanas, este projecto tem como principal objectivo preencher essa lacuna, fornecendo Recursos Linguísticos que possibilitem uma descrição objectiva das 5 variedades africanas do português.
O projecto consiste na constituição, tratamento, análise e disponibilização (consultas via internet) de um corpus de variedades africanas do português, com 3 milhões de palavras do discurso escrito e oral, constituído por 5 subcorpora comparáveis de 600 mil palavras cada um, correspondentes às variedades de Angola, Cabo Verde, Guiné, Moçambique e São Tomé e Príncipe.
Com a disponibilização de materiais extraídos deste corpus pretende-se tornar facilmente acessíveis a professores, estudantes, investigadores e autores de materiais (gramáticas, dicionários, manuais) dados autênticos, devidamente organizados que possibilitem, pela primeira vez, a realização de estudos descritivos empíricos sobre cada uma das variedades do português acima mencionadas.
Os materiais a disponibilizar propiciam também estudos comparativos intra e inter corpora (de todas as variedades do Português) que tornem patentes quer variações resultantes de diferenças de carácter discursivo e pragmático no interior de cada corpus quer aspectos de identidade e de diversidade linguística que caracterizem o português falado nos 5 países africanos de língua oficial portuguesa. Os 5 corpora serão comparáveis em dimensão (580 mil de palavras cada um), cronologia (últimos 30 anos), em modos e géneros de discurso (24.000 palavras de oral e c. 580.000 de escrito, sendo este último constituído por textos jornalísticos, literários e uma varia).
Serão reutilizados alguns materiais do Corpus de Referência do Português Contemporâneo, incluindo parte dos textos orais publicados conjuntamente pelo Instituto Camões e pelo Centro de Linguística da Universidade de Lisboa (Bacelar do Nascimento (coord.) Português Falado, Documentos Autênticos, Gravações audio com transcrições alinhadas, em CD-ROM).
Os restantes materiais serão recolhidos tendo em vista assegurar o equilíbrio interno de cada corpus e a comparabilidade entre eles.
Serão disponibilizados, on-line, os seguintes materiais:

  • 1. Concordâncias em formato KWIC de todas as palavras do corpus, organizadas por subcorpora e por tipo de discurso.
  • 2. Índices contrastivos dos vocábulos (lemas / lemas e formas A-D, E-I , J-P, Q-Z) que ocorrem na totalidade do corpus com dados de Frequência e repartição por subcorpora e por género de discurso.
  • 3. Índices dos vocábulos (lemas e formas) que ocorreram em cada subcorpus (Angola, Cabo Verde, Guiné-Bissau, Moçambique e São Tomé e Príncipe) com dados de frequência e repartição por género de discurso.
  • 4. Descrição comparativa do vocabulário dos vários subcorpora resultantes de análises quantitativas e estatísticas.