Recursos Linguísticos para o Português: um corpus e instrumentos para a sua consulta e análise

Concluído

Data

01 Janeiro 2000

Referencia

Programa Lusitânia PLUS/1999/LIN/15152

Instituição financiadora

Fundação Calouste Gulbenkian

Instituto Camões

FCT – Fundação para a Ciência e a Tecnologia

Grupo

Gramática & Recursos

Descrição do Projecto:

Este projecto resultou na disponibilização de um corpus equilibrado de português europeu, falado e escrito, para consultas on-line na página do CLUL. O projecto também inclui a anotação morfossintáctica de um subcorpus de 500 000 palavras, financiada pela Fundação Calouste Gulbenkian.O projecto tinha como objectivo responder aos crescentes pedidos de recursos linguísticos para o português para trabalhos teóricos e práticos, no âmbito da linguística computacional, do ensino da língua e da lexicografia, entre outras áreas.O corpus é composto por 9 milhões de palavras, seleccionadas do Corpus de Referência do Português Contemporâneo (CRPC), corpus desenvolvido no CLUL com mais de 200 milhões de palavras. Os textos escritos foram extraídos de livros, jornais e revistas, e ainda de panfletos, brochuras, documentos oficiais, etc., cobrindo vários géneros (literário, informativo, científico, técnico e didáctico) numa grande diversidade temática.

Constituição do corpus:

O corpus final é constituído por 9 171 480 palavras, distribuídas da seguinte forma:

Fontes do corpus: As amostragens que constituem o corpus são provenientes das seguintes fontes:- Corpus oral:
Conversas informais recolhidas para o projecto Português Fundamental, transcritas e publicadas na obra:
Bacelar do Nascimento, M. F. et al. Português Fundamental, vol. II - Métodos e Documentos, tomo 1 - Inquérito de Frequência, Lisboa, INIC, CLUL, 1987;- Corpus escrito:Livro literário - 70 títulos de 53 Autores da Literatura Portuguesa dos séculos XIX e XX;
Livro técnico - 39 títulos de 38 Autores, publicados no final do século XX e no século XXI;
Jornal - vários números do ano de 2000 dos seguintes jornais: "A BOLA", "Diário de Notícias", "Expresso", "Jornal de Notícias" e "PÚBLICO";
Revista - números 83 a 95 da "Revista do Instituto do Consumidor", dos anos 1999 e 2000;
Varia - artigos vários da "Enciclopédia Verbo", de Actas de reuniões científicas, de páginas da internet, de entrevistas publicadas no jornal "O Primeiro de Janeiro", de folhas de apontamentos para alunos universitários, de relatórios finais de estágio para licenciatura, de recensão crítica, etc.

Direitos de autor: Foram desenvolvidas negociações com os autores portugueses de obras literárias representadas no corpus, em associação com a Sociedade Portuguesa de Autores (SPA), para obter as autorizações necessárias para utilização dos respectivos textos para pesquisas de concordâncias.

Anotação morfossintáctica:

Um subcorpus de 500 000 palavras foi anotado morfossintacticamente e revisto manualmente. Os textos foram automaticamente anotados utilizando uma versão adaptada do etiquetador de Eric Brill, sendo que uma parte do corpus foi revista manualmente para resolução de ambiguidade e de erros. Esta parte, revista manualmente, foi usada como corpus de treino para a anotação da totalidade do conjunto das 500 000 palavras.O corpus anotado também estará disponível para consultas on-line na página do CLUL.

Corpus oral transcrito constituído por conversas informais:	105964
ORAL_RL		105964
Corpus escrito constituído por:
jornal_RL	4097868
livrolit_RL	1792590
livrotec_RL	1440625
revista_RL	420792
varia_RL	812599
jornal_anotado_RL	336151
livro_anotado_RL	125434
revista_anotado_RL	25908
varia_anotado_RL	13549
subcorpus_anotado_RL		501042
ESCRITO_RL		9065516
TOTAL_RL		9171480

Mendes, A., Amaro, R., & Bacelar do Nascimento, M. F. (2003). Reusing resources for the morphosyntactic annotation of a spoken Portuguese corpus. In A. Branco, Mendes, A., & Ribeiro, R. (Eds.), Tagging and Shallow Processing of Portuguese: workshop notes of TASHA 2003. Lisboa: Departamento de Informática da Faculdade de Ciências da Universidade de Lisboa.

Membros

Amália Mendes

Florbela Barreto

João Miguel Casteleiro

Maria Lúcia Garcia Marques

Parcerias

CLUL - Centro de Linguística da Universidade de Lisboa

SPA - Sociedade Portuguesa de Autores