COMBINA-PT - Combinatórias Lexicais do Português
Descrição do projecto :
O projecto Combinatórias Lexicais do Português (COMBINA-PT) teve como objectivo estabelecer um léxico de associações lexicais significativas a partir de um corpus equilibrado de português, através de um processo informático automático, com posterior revisão manual dos resultados.
A observação de dados de corpora evidencia a existência de padrões complexos de associações de palavras, que provam que o léxico não é composto apenas por itens lexicais simples ou compostos, mas também por agrupamentos, mais ou menos previsíveis, não necessariamente fixos (Firth, 1955; Sinclair, 1991). Apesar de para muitas línguas as combinatórias lexicais terem sido bastante estudadas (existem para o inglês, por exemplo, diversos dicionários de combinatórias), este é um recurso inovador para o português.
Na perspectiva corpus-driven que foi seguida, este projecto teve como objectivo partir dos dados do corpus para a identificação de diferentes tipos de associações lexicais, utilizando um conceito lato de combinatória como ponto de partida para a reflexão sobre a tipologia de combinatórias em português. Foram assim seleccionados grupos com graus de fixidez muito variáveis, desde expressões totalmente cristalizadas até combinatórias livres que apontam para uma preferência associativa, sendo requisito a existência de uma relação sintáctica directa entre os elementos do grupo. Os resultados são fundamentais no sentido em que nos fornecem uma base empírica de trabalho para a constituição de uma tipologia variada, com disponibilidade de grande número de concordâncias, que poderá complementar os trabalhos teóricos existentes e que serve actualmente de base a um trabalho de doutoramento sobre tipologia de associações lexicais e seu tratamento lexicográfico.
São exemplos dos vários tipos de combinatórias os seguintes casos:
- expressões fixas (patrão fora, dia santo na loja);
- expressões semi-fixas em que o significado é não composicional (esticar o pernil) e que não aceitam alterações sintácticas (*esticar o grande pernil; *o pernil foi esticado), embora possam aceitar variação flexional de um ou mais elementos (esticar / esticaram o pernil);
- expressões semi-fixas que podem ter significado composicional e que são, por vezes, semanticamente idiossincráticas (onda de assaltos; países membros; perder os sentidos), admitindo a substituição de um dos elementos da combinatória por outros elementos lexicais semanticamente relacionados (onda/maré/vaga de assaltos; países/estados membros);
- associações lexicais preferenciais, que constituem unidades sintácticas. Embora estas expressões sejam semantica e sintacticamente composicionais, apresentam valores estatísticos combinatoriais muito significativos, bem como uma frequência muito alta, que pode indicar não só uma preferência associativa, mas também uma possível lexicalização progressiva do grupo de palavras (instaurar um processo; ar puro; armas de destruição massiva; erros e imprecisões; absolutamente indispensável).
A extracção de combinatórias lexicais requer o recurso a um vasto conjunto de dados do português. Para este projecto, foi desenhado o corpus COMBINA, um corpus escrito e equilibrado com 50 milhões de palavras, constituído a partir do CRPC.
O quadro seguinte apresenta a constituição do corpus Combina.
CONSTITUIÇÃO DO CORPUS | ||||||
---|---|---|---|---|---|---|
Jornal | 30.000.000 | |||||
Livro | literário | 6.237.551 | ||||
técnico | 3.827.551 | |||||
didáctico | 852.787 | 10.818.719 | ||||
Revista | informativa | 5.709.061 | ||||
técnica | 1.790.939 | 7.500.000 | ||||
Varia | 1.851.828 | |||||
Folheto | 104.889 | |||||
Acórdãos do Supremo Tribunal | 313.962 | |||||
Diário da Assembleia da República | 277.586 | |||||
TOTAL | 50.866.984 |
A tarefa relativa à extracção e selecção das combinatórias foi realizada com a ferramenta do CLUL Concor.cb, que permite extrair de um corpus os grupos de 2, 3, 4 ou 5 palavras que ocorram um número mínimo de vezes definido pelo utilizador. Permite ainda, opcionalmente, eliminar combinatórias que incluam elementos de pontuação e combinatórias de duas palavras em que uma delas é uma palavra gramatical. O Concor.cb trata ainda estas combinatórias estatisticamente, com aplicação da medida de associação lexical Mutual Information (Church & Hanks, 1990) e ordena os resultados de acordo com este índice, evidenciando as associações de palavras mais significativas.
O quadro seguinte apresenta um exemplo dos resultados do programa Concor.cb:
# 10 noite de consoada 1 eg(3) og(10) ic(8.588317) fg(10) fe(16971 2290575 52) N(50866984) | |||
---|---|---|---|
209764730 | s da SIC -- que o transmitirá na | noite de consoada | -- tomam os se |
209764737 | Povinho" à droga, passando pela | noite de consoada, | a discoteca e |
209764744 | ulham presentes numa evocação da | noite de consoada. | À medida que |
209764751 | e vai continuar a trabalhar pela | noite de consoada | adentro. Texto |
209764758 | ezes, faltar alguma coisa para a | noite de consoada. | Ainda que o l |
209764765 | as. Saiu para a rua. Nem parecia | noite de consoada. | Aqui e ali, e |
209764772 | À memória vêm-lhe imagens de uma | noite de Consoada, | muito tradici |
209764779 | enor: ao falar, por telefone, na | noite de consoada, | no intervalo |
209764786 | a vida foi deslizando assim. Na | noite de Consoada, | porém, aconte |
209764793 | ário O ADEUS ÀS ARMAS Quando, na | noite de consoada, | se iniciou a |
Na linha inicial do quadro acima, o programa apresenta as seguintes informações:
- Frequência;
- Combinatória;
- Distância: os grupos de dois elementos podem ser contíguos ou separados por um máximo de 3 elementos, enquanto que os grupos de 3, 4 ou 5 palavras são contíguos (primeiro número após a combinatória);
- Número de elementos do grupo (eg);
- Frequência do grupo numa distância específica, no caso dos pares de palavras que podem ser ou não contíguos (og);
- Medida de associação lexical, que resulta da relação entre a frequência do grupo no corpus e a frequência isolada de cada palavra do grupo (ic);
- Frequência total do grupo em todas as distâncias em que ocorre (fg);
- Frequência de cada palavra do grupo (fe);
- Número total de palavras do corpus (N);
As linhas seguintes do quadro apresentam as concordâncias da combinatória no corpus em formato KWIC (Key Word in Context), com o código de indexação do contexto no corpus.
Para a fase de selecção e tratamento das combinatórias extraídas, foi desenvolvida uma ferramenta, Combina2004, que consiste numa base de dados relacional com plataforma SQL e interface em formato Access, que permite:
- a importação automática dos resultados do Concor.cb;
- a selecção manual das combinatórias significativas, com visualização simultânea das suas concordâncias no corpus;
- a eliminação manual, nas concordâncias, dos casos de contextos erradamente identificados pelo programa como exemplos dessa combinatória;
- neste último caso, a revisão automática do número de linhas de contextos e anotação automática noutro campo da base de dados da frequência real revista da combinatória no corpus;
- a lematização das combinatórias.
Foi seleccionado um conjunto de lemas (nomes, verbos, adjectivos e advérbios) cujas combinatórias foram manualmente validadas e organizadas. As combinatórias lexicais, sendo co-ocorrências preferenciais ou sequências (semi-)fixas, mostram tendência para ocorrer apenas nalgumas das formas possíveis de um lema, pelo que não é possível proceder a uma lematização total dos dados.
Assim, num primeiro nível, foi feita uma indexação dos grupos para identificar uma forma abstracta que permite reunir possíveis variantes flexionais sob um mesmo identificador, que designamos como lema de grupo. Em muitos casos, a combinatória não apresenta qualquer variação flexional no corpus. Nestes casos, mantém-se como lema de grupo a forma que ocorreu, embora seja lematizada ao nível do lema principal.
Num segundo nível, foi identificado o lema principal da combinatória. A combinatória é lematizada de acordo com o lema a partir do qual é trabalhada, não estando assim associada a todos os lemas das formas que nela ocorrem. Assim, posto de abastecimento e postos de abastecimento são ambos associados ao lema de grupo POSTO DE ABASTECIMENTO. Por sua vez, o lema de grupo é associado ao lema ABASTECIMENTO, dado ter sido feita a selecção com base na forma abastecimento. Apresenta-se abaixo um exemplo parcial do lema de grupo posto de abastecimento (lema principal, lema de grupo, grupos e concordâncias do corpus).
LEMA: Abastecimento |
LEMA DE GRUPO: posto de abastecimento |
Grupo: posto de bastecimento |
num "Honda Civic", assaltaram o posto de abastecimento "Galp", i |
riação, com carácter urgente, do posto de abastecimento. Há dez d |
comercial portuguesa. Num outro posto de abastecimento local, os |
, disse ao JN um dos clientes do posto de abastecimento. Mais far |
carem-se propositadamente ao seu posto de abastecimento. Mas já h |
ssaltaram, anteontem à noite, um posto de abastecimento "Mobil", |
assim, o funcionário de um outro posto de abastecimento na zona d |
Vilar Formoso, que dispõe de um posto de abastecimento, o gasóle |
e abrigo que não têm telefone, o posto de abastecimento, o que po |
Grupo: postos de abastecimento |
, afectado significativamente os postos de abastecimento localiza |
de adição decorrer nos próprios postos de abastecimento, mas à r |
das autoridades em controlar os postos de abastecimento. Mas que |
igando ao encerramento de alguns postos de abastecimento. Nas Ast |
onível na esmagadora maioria dos postos de abastecimento, pelo me |
o. As entidades exploradoras dos postos de abastecimento que, à d |
O mesmo processo foi realizado com combinatórias que contêm uma forma verbal:
LEMA: Abordar |
LEMA DE GRUPO: abordar a questão |
Grupo: abordar a questão |
go com os distribuidores, há que abordar a questão com cuidado. S |
ta secção deste trabalho, tentou abordar a questão, concentrando- |
e se tratava de uma boa forma de abordar a questão. Desde o login |
cias" como do PÚBLICO tiveram de abordar a questão do tratamento |
arco António Costa, preferiu não abordar a questão, limitando-se |
Grupo: abordou a questão |
sições tomadas. Arouca também já abordou a questão e o pedido de |
com a vereadora da Acção Social, abordou a questão, tendo sido in |
nto nos seus clubes, Artur Jorge abordou a questão assim: "Estamo |
que revelou grande ironia quando abordou a questão relacionada co |
No final do projecto, foram seleccionadas 48.000 combinatórias e foram criados 20.291 lemas de grupo e 1170 lemas principais. O trabalho sobre este léxico de combinatórias irá ainda prosseguir através do trabalho de doutoramento que se iniciou a partir do final do projecto e que prevê, entre outros aspectos, acrescentar combinatórias extraídas do corpus oral do CLUL (subcorpus do CRPC) para uma análise contrastiva escrita/oralidade.
Os resultados do projecto podem ser consultados nesta página Consulta das Combinatórias.