Português Fundamental

Concluído
Data
-
Instituição financiadora
Fundação Calouste Gulbenkian
Instituto de Alta Cultura
Instituto Nacional de Investigação Científica
IR do Projeto
Luís F. Lindley Cintra
João Malaca Casteleiro

Descrição do projecto:

Este projecto teve início em 1970 sob a direcção de Luís Filipe Lindley Cintra. O objectivo do projecto foi o de fornecer informação sobre o vocabulário português mais frequentemente utilizado em situações da vida corrente. Para o estabelecimento deste vocabulário foram constituídos dois corpora, o Corpus de Frequência e o Corpus de Disponibilidade.

O Corpus de Frequência é um corpus de língua falada, recolhido entre 1970 e 1974, para o qual foram feitas, em todo o continente e ilhas de Portugal, 1800 gravações, realizadas em situação de comunicação oral espontânea, sobre os mais diversos temas do quotidiano, com falantes de níveis etários, sociais e profissionais muito diversificados, num total de cerca de 500 horas de gravação (arquivadas no Centro de Linguística da Universidade de Lisboa). Destas 1800 conversas foram seleccionados e transcritos 1400 excertos, num total de 700.000 palavras, que constituem o chamado Corpus de Frequência.
Do Corpus de Frequência foi extraída a lista das 25.107 formas lexicais diferentes que nele ocorreram, com os respectivos índices de frequência. A partir desta lista, posteriormente lematizada, foi estabelecida uma lista alfabética de vocábulos com frequência igual ou superior a 40, o Vocabulário de Frequência, tendo sido considerada, no seu estabelecimento, a repartição, por textos, dos vocábulos que se situavam entre as frequências 60 e 40.

O Corpus de Disponibilidade é um corpus recolhido fundamentalmente entre 1970 e 1974, com um Inquérito Complementar em 1980, sobre temas dificilmente abordáveis antes do 25 de Abril, que visa a selecção de vocabulário temático com mais fraca probabilidade de ocorrência no corpus oral, mas reconhecidamente indispensável à comunicação, o Vocabulário Disponível. A sua menor ocorrência no discurso oral espontâneo deve-se ao facto de esse vocabulário só ser utilizado em determinados domínios de referência e também ao facto de, muitas vezes, em seu lugar, serem usados substitutos deícticos, ou outros. Assim foram realizados inquéritos dirigidos, em todas as capitais de distrito, mediante o preenchimento de boletins, correspondendo cada boletim a um tema (num total de 30 temas, como, entre outros, o ‘corpo humano’, ‘saúde e doença’, ‘viagens’, ‘profissões e ofícios’, ‘arte’, ‘animais’, ‘plantas’, ‘vida política’, ‘relações de trabalho’), pedindo-se aos inquiridos que indicassem os nomes, adjectivos e verbos mais adequados àqueles temas. Obteve-se, desta forma, um corpus de 481.800 palavras temáticas.
Da análise destes dois corpora, resultou o Vocabulário do Português Fundamental, com 2217 palavras, publicado em 1984 (Português Fundamental 1984).
Em 1987 foram publicados dois outros volumes contendo uma descrição pormenorizada dos métodos utilizados na recolha, análise e estabelecimento do vocabulário publicado em 1984, e, ainda, um conjunto de documentos resultantes dessas recolhas e análises, desde uma amostragem das transcrições das conversas gravadas para o Corpus de Frequência até às listas lematizadas, com índices de frequência, por ordem alfabética e por ordem de frequências decrescente quer do Corpus de Frequência quer do Corpus de Disponibilidade, e, ainda, uma lista conjunta dos vocábulos destes dois corpora (Bacelar do Nascimento et al. 1987).

Nesta página, encontra-se disponível, para download, a amostragem das transcrições do corpus oral publicada em 1987.
Descarregar o corpus

Uma nova versão do corpus está disponível gratuitamente no Catálogo da ELRA. Esta nova versão inclui os ficheiros de áudio em formato WAV, as transcrições ortográficas alinhadas com o som através do software EXMARaLDA, em formato XML, e as transcrições ortográficas simples em formato TXT e HTML. Os ficheiros TXT contêm, ainda, anotação morfossintáctica automática.
A este recurso foi atribuído o ISLRN (International Standard Language Resource Number) 812-337-422-842-3.
Para mais informação, pode consultar a página www.islrn.org.