CRPC - Corpus de Referência do Português Contemporâneo

CRPC

CRPC - Corpus de Referência do Português Contemporâneo

Em curso

Data

01 Janeiro 1988

Instituição financiadora

Fundação Calouste Gulbenkian

Junta Nacional de Investigação Científica e Tecnológica

FCT – Fundação para a Ciência e a Tecnologia

Instituto Camões

Comissão Europeia

União Latina

Caixa Geral de Depósitos

IR do Projeto

Amália Mendes

Grupo

Gramática & Recursos

Descrição
Equipa

version 3.0 2012

Pesquisa online do subcorpus escrito: platforma CQPweb

Pesquisa online do subcorpus oral: plataforma TEITOK

ISLRN: 151-982-545-991-0

O CRPC é um vasto corpus electrónico da variedade europeia do Português e de outras variedades (Brasil, Angola, Cabo Verde, Guiné-Bissau, Moçambique, São Tomé e Príncipe, Goa, Macau, Timor-Leste). Contendo 311,4 milhões de palavras, este corpus abrange diferentes tipos de textos escritos (literário, jornalístico, técnico, etc.) e de registos orais (formal e informal).
O subcorpus escrito do CRPC (309 milhões de palavras) pode ser pesquisado online e subpartes do corpus encontram-se disponíveis no catálogo ELRA.

Citação do corpus
"dados extraídos do Corpus de Referência do Português Contemporâneo (CRPC) do Centro de Linguística da Universidade de Lisboa – CLUL (versão 3.0 2012, através da plataforma CQPWeb no período [mês/ano])”

Composição

O CRPC é composto por 309,8 milhões de palavras provenientes de textos escritos e 1,6 milhões de palavras provenientes de transcrições de gravações de registos orais.

É considerado um corpus de referência na medida em que os textos escritos foram sujeitos a um processo de amostragem previamente à sua inclusão no corpus.

Tipos de texto

O CRPC abrange diversos tipos de textos escritos: literário, jornalístico, técnico, científico, didáctico, folhetos, decisões do Supremo Tribunal de Justiça, sessões parlamentares, etc.
O CRPC é também constituído por um subcorpus oral que inclui discurso formal e informal. Este subcorpus cobre diferentes tipos de interacção: monólogos, diálogos, conversas, telefonemas, leituras, homilias, etc.

Datação

O CRPC contém textos da segunda metade do século XIX até 2006, embora a maioria dos textos seja posterior ao ano de 1970.

Variedades do Português

Os textos incluídos no CRPC pertencem maioritariamente à variedade europeia do Português, mas encontram-se também representadas no corpus outras variedades nacionais, como o Português do Brasil, de África (Angola, Cabo Verde, Guiné-Bissau, Moçambique e São Tomé e Príncipe) e da Ásia (Macau, Goa e Timor-Leste).

O mapa que abaixo se apresenta assinala todas as variedades abrangidas pelo CRPC. Nele pode encontrar-se informação acerca do número de palavras existente para cada uma das variedades.
Para obter informações sobre a distribuição de textos escritos e orais por variedade, consulte-se esta tabela.

mapa_crpc_FINAL

Anotação

Preparação do corpus

O CRPC foi limpo com a ferramenta Ncleaner (Evert, 2008), adaptada com recurso a 200 documentos anotados, seleccionados aleatoriamente do CRPC. Foi assim possível limpar os textos de informação repetida ou não relevante (publicidade, spam).

Anotação

Os textos foram automaticamente tokenizados com o tokenizador LX (Branco & Silva, 2004), que retira sinais de pontuação e detecta fronteiras de frase.

Para a etiquetagem morfossintáctica, foi treinado o etiquetador desenvolvido por Daelemans et al. (1996) com uma versão ligeiramente adaptada da parte escrita do corpus CINTIL. O sistema de anotação usado contém um conjunto de 80 etiquetas.

Para a lematização automática, foi criada uma versão portuguesa do lematizador MBLEM (van den Bosch & Daelemans, 1999). O MBLEM atribui lemas a cada forma do corpus, aliando a pesquisa em dicionários com a aprendizagem automática. Como dicionário, foi usada a lista de lemas construída no âmbito do projecto DEP – Dicionário Electrónico do Português, coordenado no CLUL por Maria Elisa Macedo (tendo a aplicação informática sido desenvolvida por João Miguel Casteleiro).

Alinhamento das transcrições do subcorpus oral

O alinhamento de transcrições ortográficas com o sinal acústico foi realizado com o programa EXMARaLDA (Schmidt, 2004). No âmbito do projecto C-ORAL-ROM, foi ainda utilizado o programa WinPitch.

Pesquisas online
O subcorpus escrito do CRPC, composto por 309 milhões de tokens, encontra-se disponível para pesquisas online através da interface CQPWeb.

O registo, obrigatório e gratuito, é feito por pedido endereçado a: crpc.cqpweb at gmail.com

O subcorpus oral do CRPC, com alinhamento texto-som, pode ser pesquisado na plataforma TEITOK.

Disponibilidade

Subcorpora disponíveis ou recursos deles derivados
Nome do Projecto e Descrição	Autoria	Disponível em
Português Fundamental - amostra publicada. Subcorpus oral do CRPC com 106 488 palavras. Versão transcrita e alinhada no formato EXMARaLDA disponível no catálogo ELRA (gratuita para investigação)	CLUL	aqui versão alinhada: catálogo ELRA
Português Falado - Variedades Geográficas e Sociais 86 transcrições de discursos autênticos com alinhamento com o sinal acústico. Versão transcrita e alinhada no formato EXMARaLDA disponível no catálogo ELRA (gratuita para investigação)	CLUL, Univ. de Toulouse-le-Mirail e Univ. de Provence Aix-Marseille	4 Cd-Rom editados por CLUL/Instituto Camões Também disponíveis versão alinhada: catálogo ELRA
Subcorpus PAROLE subcorpus composto por 3 milhões de palavras e extraído do corpus PAROLE; contém 250 000 palavras etiquetadas com informação morfossintáctica.	CLUL e INESC	Catálogo ELRA
LT Corpus Corpus de obras literárias livres de direitos de autor (61 obras portuguesas e 9 obras do Brasil), publicadas antes de 1940. Disponível no catálogo ELRA (gratuito para investigação)	CLUL	Catálogo ELRA
PTPARL Corpus Corpus com 1,076 transcrições dos Diários da Assembleia da República, com 1,000,441 tokens e anotação PoS e NP chunks. Disponível no catálogo ELRA (gratuito para investigação)	CLUL	Catálogo ELRA
LMCPC léxico composto por 26 980 lemas e 140 976 formas com informação morfológica e quantitativa.	CLUL, INESC e Editorial Verbo	aqui
PAROLE LEXICON léxico composto por 20 000 unidades etiquetadas morfossintacticamente com descrição sintáctica.	CLUL, INESC e Editorial Verbo	Catálogo ELRA
SIMPLE subléxico do PAROLE com 300 unidades acompanhadas de descrição semântica.	CLUL, parceria Portuguesa e Europeia

História
O projecto CRPC teve início em 1988, no CLUL. A equipa responsável por este projecto havia estado também envolvida na compilação do corpus oral Português Fundamental. Assim, o novo projecto surgiu no seguimento daquele com o objectivo de abranger textos escritos e orais. O corpus foi inicialmente pensado para ser um corpus equilibrado, mas acabou por se tornar um corpus "monitor”. Um subcorpus de 11 milhões de palavras foi inicialmente disponibilizado online para pesquisa de concordâncias e frequências através da ferramenta Concor. A totalidade do CRPC escrito está agora disponível na plataforma CQPWeb, que permite um vasto leque de opções de pesquisa (ver informação abaixo).

Agradecimentos

Financiamento

Fundação Calouste Gulbenkian
Junta Nacional de Investigação Científica e Tecnológica (JNICT) - Programa Estímulo em Ciências sociais e Humanas
Fundação para a Ciência e Tecnologia (FCT) - Fundos Programáticos
Instituto Camões
União Latina
Caixa Geral de Depósitos
Comissão Europeia: projectos LE-PAROLE e C-ORAL-ROM.

Entidades que disponibilizaram textos

Academia das Ciências de Lisboa
Agência Lusa
Assembleia da República
Caixa Geral de Depósitos
Centro de Informática do Ministério da Justiça
Coimbra Editora
DECO
Editora Colibri
Editora Nova Fronteira - Brasil
Editorial Verbo
Estação de Rádio TSF
Fundação Calouste Gulbenkian - Serviço de Bibliotecas e Apoio à Leitura
Instituto do Consumidor
Sociedade Bíblica Portugal
Jornais portugueses: A Bola, A Capital, Diário de Notícias, Diário Económico, Expresso, Jornal de Notícias, Diário do Minho, O Independente, Público
Jornais cabo-verdianos: A Semana, Correio Quinze, Novo Jornal
Procuradoria-Geral da República
Corpus do Português Contemporâneo (Universidade Estadual Paulista - UNESP
Projecto NURC-BR (São Paulo e Rio de Janeiro)
Projecto PEUL (Rio de Janeiro)
Periódicos: Grande Reportagem, Ingenium, Máxima, ProTeste, Visão; Selecções do Reader's Digest

A interface CQPweb foi projectada e desenvolvida por Andrew Hardie. Gostaríamos de lhe agradecer por nos ajudar a adaptar a interface para o Português. Agradecemos igualmente ao Grupo NLX (Natural Language and Speech) da Faculdade de Ciências da Universidade de Lisboa, coordenado por António Branco, por nos dar acesso ao programa tokenizador LX.

Agradecemos também a Thomas Schmidt por adaptar o software EXMARaLDA a formatos anteriormente usados no CLUL.

Contacto

Para qualquer questão ou sugestão relativamente ao CRPC, por favor contacte-nos através do endereço electrónico amaliamendes@letras.ulisboa.pt.

Investigação

O CRPC foi já usado em vários trabalhos de mestrado e doutoramento conduzidos em Portugal e no estrangeiro, bem como em trabalhos de investigação como o Dicionário da Língua Portuguesa Contemporânea da Academia das Ciências de Lisboa, em que se recorreu ao CRPC como fonte de abonações. O CRPC foi ainda usado nos seguintes projectos do CLUL:

Referências bibliográficas
van den Bosch, Antal and Walter Daelemans (1999) Memory-based morphological analysis. In Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics (ACL '99). Association for Computational Linguistics, Stroudsburg, PA, USA, 285-292.

Branco, António e João Silva (2004) Evaluating Solutions for the Rapid Development of State-of-the-Art POS Taggers for Portuguese. In Maria Teresa Lino, Maria Francisca Xavier, Fátima Ferreira, Rute Costa and Raquel Silva (orgs.), Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC2004), Paris, ELRA, ISBN 2-9517408-1-6, pp.507-510.

Evert, Stefan (2008) A lightweight and efficient tool for cleaning web pages. In 6th International Conference on Language Resources and Evaluation (LREC 2008), Marrakech, Morocco.

MBT: A Memory-Based Part of Speech Tagger-Generator. Walter Daelemans, Jakub Zavrel, Peter Berck and Steven Gillis. in: E. Ejerhed and I. Dagan (eds.) Proceedings of the Fourth Workshop on Very Large Corpora, Copenhagen, Denmark, 14-27, 1996.

Schmidt, Thomas (2004) Transcribing and annotating spoken language with EXMARaLDA. In: Proceedings of the LREC-Workshop on XML based richly annotated corpora, Lisbon 2004, Paris: ELRA.

IR do Projeto

Amália Mendes

Membros

Maarten Janssen

Michel Géneréux

Anteriores membros da equipa

Maria Fernanda Bacelar do Nascimento (coordenadora)
João Malaca Casteleiro
Maria Lúcia Garcia Marques
José Bettencourt Gonçalves
Raquel Amaro
Florbela Barreto
João Miguel Casteleiro
Tiago Sá
Sandra Antunes
Rita Veloso