Recursos Linguísticos para o Português: um corpus e instrumentos para a sua consulta e análise
Descrição do Projecto:
Este projecto resultou na disponibilização de um corpus equilibrado de português europeu, falado e escrito, para consultas on-line na página do CLUL. O projecto também inclui a anotação morfossintáctica de um subcorpus de 500 000 palavras, financiada pela Fundação Calouste Gulbenkian.O projecto tinha como objectivo responder aos crescentes pedidos de recursos linguísticos para o português para trabalhos teóricos e práticos, no âmbito da linguística computacional, do ensino da língua e da lexicografia, entre outras áreas.O corpus é composto por 9 milhões de palavras, seleccionadas do Corpus de Referência do Português Contemporâneo (CRPC), corpus desenvolvido no CLUL com mais de 200 milhões de palavras. Os textos escritos foram extraídos de livros, jornais e revistas, e ainda de panfletos, brochuras, documentos oficiais, etc., cobrindo vários géneros (literário, informativo, científico, técnico e didáctico) numa grande diversidade temática.
Constituição do corpus:
O corpus final é constituído por 9 171 480 palavras, distribuídas da seguinte forma:
Fontes do corpus: As amostragens que constituem o corpus são provenientes das seguintes fontes:- Corpus oral:
Conversas informais recolhidas para o projecto Português Fundamental, transcritas e publicadas na obra:
Bacelar do Nascimento, M. F. et al. Português Fundamental, vol. II - Métodos e Documentos, tomo 1 - Inquérito de Frequência, Lisboa, INIC, CLUL, 1987;- Corpus escrito:Livro literário - 70 títulos de 53 Autores da Literatura Portuguesa dos séculos XIX e XX;
Livro técnico - 39 títulos de 38 Autores, publicados no final do século XX e no século XXI;
Jornal - vários números do ano de 2000 dos seguintes jornais: "A BOLA", "Diário de Notícias", "Expresso", "Jornal de Notícias" e "PÚBLICO";
Revista - números 83 a 95 da "Revista do Instituto do Consumidor", dos anos 1999 e 2000;
Varia - artigos vários da "Enciclopédia Verbo", de Actas de reuniões científicas, de páginas da internet, de entrevistas publicadas no jornal "O Primeiro de Janeiro", de folhas de apontamentos para alunos universitários, de relatórios finais de estágio para licenciatura, de recensão crítica, etc.
Direitos de autor: Foram desenvolvidas negociações com os autores portugueses de obras literárias representadas no corpus, em associação com a Sociedade Portuguesa de Autores (SPA), para obter as autorizações necessárias para utilização dos respectivos textos para pesquisas de concordâncias.
Anotação morfossintáctica:
Um subcorpus de 500 000 palavras foi anotado morfossintacticamente e revisto manualmente. Os textos foram automaticamente anotados utilizando uma versão adaptada do etiquetador de Eric Brill, sendo que uma parte do corpus foi revista manualmente para resolução de ambiguidade e de erros. Esta parte, revista manualmente, foi usada como corpus de treino para a anotação da totalidade do conjunto das 500 000 palavras.O corpus anotado também estará disponível para consultas on-line na página do CLUL.
Corpus oral transcrito constituído por conversas informais: |
105964 |
|
ORAL_RL |
105964 |
|
Corpus escrito constituído por: |
||
jornal_RL |
4097868 |
|
livrolit_RL |
1792590 |
|
livrotec_RL |
1440625 |
|
revista_RL |
420792 |
|
varia_RL |
812599 |
|
jornal_anotado_RL |
336151 |
|
livro_anotado_RL |
125434 |
|
revista_anotado_RL |
25908 |
|
varia_anotado_RL |
13549 |
|
subcorpus_anotado_RL |
501042 |
|
ESCRITO_RL |
9065516 |
|
TOTAL_RL |
9171480 |
(2003). Reusing resources for the morphosyntactic annotation of a spoken Portuguese corpus. In A. Branco, Mendes, A., & Ribeiro, R. (Eds.), Tagging and Shallow Processing of Portuguese: workshop notes of TASHA 2003. Lisboa: Departamento de Informática da Faculdade de Ciências da Universidade de Lisboa. . |