Léxico

Léxico Multifuncional Computorizado do Português Contemporâneo

Instituição financiadora
FCT – Fundação para a Ciência e a Tecnologia

Financiamento:

JNICT / FCT – Programa PRAXIS XXI (Contrato 2/2.1/CSH/759/95)

 

Estado do Projecto:

Concluído


Resumo:

Na sequência deste projecto, o português europeu conta agora com um Léxico de Frequências de 26.443 vocábulos, e das 140.315 formas lematizadas desses vocábulos, extraído de um corpus muito significativo (16.210.438 palavras1) do português contemporâneo; as entradas lexicais que o constituem atingiram, no corpus, frequências iguais ou superiores a 6. Cada entrada lexical (vocábulo) é seguida de informação gramatical (categoria morfossintáctica) e de informação quantitativa (nível de ocorrência no corpus). As mesmas informações são dadas para todas as formas lexicais (formas flexionadas e alguns compostos) de cada vocábulo. As indexações do léxico são feitas por ordem alfabética e por ordem de frequências decrescentes.

Este recurso está disponível gratuitamente no Catálogo ELRA com o International Standard Language Resource Number (ISLRN) 489-956-642-755-8.
Mais informações em http://www.islrn.org/.

DESCRIÇÃO DO PROJECTO

corpus
Para a realização do projecto, o CLUL desenhou e extraiu do seu corpus monitor Corpus de Referência do Português Contemporâneo (CRPC)2 um corpus de 16.210.438 palavras - o CORLEX, que contém um subcorpus de língua escrita (15.354.243 palavras) e um subcorpus de língua falada (856.195 palavras).
Do CORLEX fazem parte textos orais e escritos que cobrem uma grande variedade de tipos de linguagem, sendo a diversidade de géneros e de matérias uma dominante deste corpus. A maior proporção do corpus jornalístico (56% do corpus escrito e 53% do corpus total) teve em vista o predomínio, no corpus, de uma linguagem comum e a cobertura de uma enorme diversidade de temas.
Constituição do corpus escrito (15.354.243 palavras)
Uma parte deste corpus é constituída por materiais cedidos ao CLUL pela editorial VERBO, membro da parceria deste Projecto.

Gráfico Distribuição por Género

As recolhas foram feitas em diversas Fontes, sendo o corpus constituído por amostragens dos títulos seleccionados.

Fontes do subcorpus jornalístico

 

 

Jornais

Nº de títulos de jornaisDatasNº de exemplaresNº de artigos

31997 e 199810513.085

Revistas

Nº de títulos de jornaisDatasNº de exemplaresNº de artigos

31992 a 199710513.085

Fontes do subcorpus literário
(Romances, Novelas, Contos, Poesia, Memórias e Teatro de autores portugueses)

 

Nº de AutoresNº de TítulosDatas

135186séc. XIX (2ª metade): 11 autores; 14 títulos

séc. XX: 124 autores; 172 títulos

Fontes do subcorpus Científico, Técnico e Didáctico3

 

Nº de Autores4Nº de TítulosDatas

91
livro científico e técnico - 68
livro didáctico - 2393
livro científico e técnico - 68
livro didáctico - 251980 - 1993

Fontes do subcorpus "Miscelânea"

 

Tipo de documentoNº de textos/artigosDatas

Jornais e revistas especializados3471900 - 1997

Outros documentos30

Constituição do corpus oral (856.195 palavras)

corpus oral é constituído pela transcrição ortográfica do registo magnético de conversas informais e de produções mais formais (conferências, entrevistas na rádio e na televisão, etc.).

 

Tipo de discursoNº de palavrasNº de textosDatas

espontâneo752.3941409Décadas de 1970 e 1990

formal103.801150Década de 1980

O Léxico

Informação quantitativa
O INESC realizou cálculos probabilísticos para determinação das frequências de ocorrência no CORLEX, tomando como base os dados obtidos para o subcorpus PAROLE desambiguado.
A partir destes cálculos e das desambiguações manuais efectuadas no CLUL, obtiveram-se os dados quantitativos relativos aos lemas considerados no Léxico, ou seja, aqueles cuja Frequência é igual ou ultrapassa o limiar estabelecido (F6).
Assim, junto de cada entrada e de cada forma dessa entrada é apresentada uma aproximação do seu número de ocorrências. Uma vez que o intervalo de variação de ocorrência é muito grande, quer para as entradas, quer para as formas, utilizou-se uma escala logarítmica, a partir do logaritmo de base 10 (log10/2), para se obter uma distribuição mais uniforme dos dados quantitativos. Estes dados são representados por sequências de caracteres gráficos que indicam os seguintes valores:

Patamares de Frequência (log10/2):

 

Lemas:
f16 - 10
f1211 - 31
f1832 - 100
f19101 - 316
f20317 - 1.000
f211.001 - 3.162
f223.163 - 10.000
f2310.001 - 31.622
f2431.623 - 100.000
f2100.001 - 316.227
f3316.228 - 1.000.000
f41.000.001 - 3.162.277 Formas:
f50 - 5
f66 - 10
f711 - 31
f832 - 100
f9101 - 316
f10317 - 1.000
f111.001 - 3.162
f133.163 - 10.000
f1410.001 - 31.622
f1531.623 - 100.000
f16100.001 - 316.227
f17316.228 - 1.000.000

 

Indexação do Léxico por ordem alfabética:
A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z

 

Indexação do Léxico por ordem de frequências decrescentes:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12

 

Indexação do Léxico, com frequência numérica, por ordem alfabética:
lmcpc_alf.txt

 

Indexação do Léxico, com frequência numérica, por ordem de frequências decrescentes:
lmcpc_dec.txt

 

  1. Em todos os casos em que se refere a dimensão do corpuspalavra é sinónimo de ocorrência.
  2. Corpus aberto em contínuo desenvolvimento. À data da conclusão do Léxico (2000), o CRPC continha 150 milhões de palavras.
  3. Níveis de ensino a que se reportam os livros didácticos: 5º a 11º ano de escolaridade.
  4. Autorias colectivas foram contabilizadas como um só autor.

 

Parcerias
CLUL - Centro de Linguística da Universidade de Lisboa
INESC - Instituto de Engenharia de Sistemas e Computadores
Editorial Verbo
Istituto di Linguistica Computazionale del CNR – ILC