Léxico Multifuncional Computorizado do Português Contemporâneo
Resumo:
Na sequência deste projecto, o português europeu conta agora com um Léxico de Frequências de 26.443 vocábulos, e das 140.315 formas lematizadas desses vocábulos, extraído de um corpus muito significativo (16.210.438 palavras1) do português contemporâneo; as entradas lexicais que o constituem atingiram, no corpus, frequências iguais ou superiores a 6. Cada entrada lexical (vocábulo) é seguida de informação gramatical (categoria morfossintáctica) e de informação quantitativa (nível de ocorrência no corpus). As mesmas informações são dadas para todas as formas lexicais (formas flexionadas e alguns compostos) de cada vocábulo. As indexações do léxico são feitas por ordem alfabética e por ordem de frequências decrescentes.
Este recurso está disponível gratuitamente no Catálogo ELRA com o International Standard Language Resource Number (ISLRN) 489-956-642-755-8.
Mais informações em http://www.islrn.org/.
DESCRIÇÃO DO PROJECTO
O corpus
Para a realização do projecto, o CLUL desenhou e extraiu do seu corpus monitor Corpus de Referência do Português Contemporâneo (CRPC)2 um corpus de 16.210.438 palavras - o CORLEX, que contém um subcorpus de língua escrita (15.354.243 palavras) e um subcorpus de língua falada (856.195 palavras).
Do CORLEX fazem parte textos orais e escritos que cobrem uma grande variedade de tipos de linguagem, sendo a diversidade de géneros e de matérias uma dominante deste corpus. A maior proporção do corpus jornalístico (56% do corpus escrito e 53% do corpus total) teve em vista o predomínio, no corpus, de uma linguagem comum e a cobertura de uma enorme diversidade de temas.
Constituição do corpus escrito (15.354.243 palavras)
Uma parte deste corpus é constituída por materiais cedidos ao CLUL pela editorial VERBO, membro da parceria deste Projecto.
As recolhas foram feitas em diversas Fontes, sendo o corpus constituído por amostragens dos títulos seleccionados.
Jornais | |||
Nº de títulos de jornais | Datas | Nº de exemplares | Nº de artigos |
3 | 1997 e 1998 | 105 | 13.085 |
Revistas | |||
Nº de títulos de jornais | Datas | Nº de exemplares | Nº de artigos |
3 | 1992 a 1997 | 105 | 13.085 |
(Romances, Novelas, Contos, Poesia, Memórias e Teatro de autores portugueses)
Nº de Autores | Nº de Títulos | Datas |
135 | 186 | séc. XIX (2ª metade): 11 autores; 14 títulos |
séc. XX: 124 autores; 172 títulos |
Nº de Autores4 | Nº de Títulos | Datas |
91 livro científico e técnico - 68 livro didáctico - 23 |
93 livro científico e técnico - 68 livro didáctico - 25 |
1980 - 1993 |
Tipo de documento | Nº de textos/artigos | Datas |
Jornais e revistas especializados | 347 | 1900 - 1997 |
Outros documentos | 30 |
Constituição do corpus oral (856.195 palavras)
O corpus oral é constituído pela transcrição ortográfica do registo magnético de conversas informais e de produções mais formais (conferências, entrevistas na rádio e na televisão, etc.).
Tipo de discurso | Nº de palavras | Nº de textos | Datas |
espontâneo | 752.394 | 1409 | Décadas de 1970 e 1990 |
formal | 103.801 | 150 | Década de 1980 |
O Léxico
Informação quantitativa
O INESC realizou cálculos probabilísticos para determinação das frequências de ocorrência no CORLEX, tomando como base os dados obtidos para o subcorpus PAROLE desambiguado.
A partir destes cálculos e das desambiguações manuais efectuadas no CLUL, obtiveram-se os dados quantitativos relativos aos lemas considerados no Léxico, ou seja, aqueles cuja Frequência é igual ou ultrapassa o limiar estabelecido (F6).
Assim, junto de cada entrada e de cada forma dessa entrada é apresentada uma aproximação do seu número de ocorrências. Uma vez que o intervalo de variação de ocorrência é muito grande, quer para as entradas, quer para as formas, utilizou-se uma escala logarítmica, a partir do logaritmo de base 10 (log10/2), para se obter uma distribuição mais uniforme dos dados quantitativos. Estes dados são representados por sequências de caracteres gráficos que indicam os seguintes valores:
Patamares de Frequência (log10/2):
Lemas: 6 - 10 11 - 31 32 - 100 101 - 316 317 - 1.000 1.001 - 3.162 3.163 - 10.000 10.001 - 31.622 31.623 - 100.000 100.001 - 316.227 316.228 - 1.000.000 1.000.001 - 3.162.277 |
Formas: 0 - 5 6 - 10 11 - 31 32 - 100 101 - 316 317 - 1.000 1.001 - 3.162 3.163 - 10.000 10.001 - 31.622 31.623 - 100.000 100.001 - 316.227 316.228 - 1.000.000 |
Indexação do Léxico por ordem alfabética:
A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z
Indexação do Léxico por ordem de frequências decrescentes:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
Indexação do Léxico, com frequência numérica, por ordem alfabética:
lmcpc_alf.txt
Indexação do Léxico, com frequência numérica, por ordem de frequências decrescentes:
lmcpc_dec.txt
- Em todos os casos em que se refere a dimensão do corpus, palavra é sinónimo de ocorrência.
- Corpus aberto em contínuo desenvolvimento. À data da conclusão do Léxico (2000), o CRPC continha 150 milhões de palavras.
- Níveis de ensino a que se reportam os livros didácticos: 5º a 11º ano de escolaridade.
- Autorias colectivas foram contabilizadas como um só autor.