Este léxico resulta de um estudo na área do Processamento de Língua Natural, cujo principal objectivo consistia no desenvolvimento de uma taxonomia semântica para classificação de Unidades Lexicais Multipalavra (ULM) nominais, em Português Europeu (PE). Apesar de serem constituídas por palavras simples, as ULM não apresentam um significado composicional e têm restrições morfossintácticas. Estas unidades têm um peso considerável no conteúdo informativo de qualquer tipo de texto, sendo, por conseguinte, a sua identificação e classificação fundamentais para a extracção e recuperação de informação em Processamento de Língua Natural

Neste contexto, adaptou-se e aplicou-se uma taxonomia semântica, baseada no léxico semântico de Lancaster1, a uma lista de ULM extraída do CETEMPúblico2.

A extracção automática de ULM do CETEMPúblico foi realizada com recurso ao sistema Unitex3. A lista assim obtida foi, em seguida, tratada manualmente, para excluir ULM não nominais, entidades mencionadas e palavras repetidas, sendo a lista final composta por 5068 ULM nominais.

Assim, este recurso inclui duas listas: (i) Lista de ULM Nominais em PE; e (ii) Lista de ULM Nominais em PE Classificadas Semanticamente. A primeira lista apresenta as ULM nominais e, a segunda, as ULM nominais classificadas semanticamente. A lista classificada resulta da aplicação da taxonomia semântica adaptada a partir do léxico semântico de Lancaster à lista de ULM nominais.
 

Piao, Scott et alii (2005) "A Large Semantic Lexicon for Corpus Annotation". In Proceedings from The Corpus Linguistics Conference Series, Corpus Linguistics 2005. Birmingham.
2 http://www.linguateca.pt/cetempublico/.
3 http://www-igm.univ-mlv.fr/~unitex/.

 

Abalada, S., Cardoso, A., & Cabarrão, V. (2010). Proposta de Classificação Semântica de Unidades Lexicais Multipalavra Nominais. In XXV Encontro Nacional da Associação Portuguesa de Linguística. Textos Seleccionados (Ana Maria Brito, Fátima Silva, João Veloso & Alexandra Fiéis, pp. 81-94). Porto: Edições Colibri/APL.