CRPC

CRPC - Corpus de Referência do Português Contemporâneo

Em curso
Data
Instituição financiadora
Fundação Calouste Gulbenkian
Junta Nacional de Investigação Científica e Tecnológica
FCT – Fundação para a Ciência e a Tecnologia
Instituto Camões
Comissão Europeia
União Latina
Caixa Geral de Depósitos
IR do Projeto
Amália Mendes
co-IR do Projeto
Fernanda Bacelar do Nascimento

version 3.0 2012

Pesquisa online do subcorpus escrito: platforma CQPweb

Pesquisa online do subcorpus oral: plataforma TEITOK

ISLRN: 151-982-545-991-0


O CRPC é um vasto corpus electrónico da variedade europeia do Português e de outras variedades (Brasil, Angola, Cabo Verde, Guiné-Bissau, Moçambique, São Tomé e Príncipe, Goa, Macau, Timor-Leste). Contendo 311,4 milhões de palavras, este corpus abrange diferentes tipos de textos escritos (literário, jornalístico, técnico, etc.) e de registos orais (formal e informal).
O subcorpus escrito do CRPC (309 milhões de palavras) pode ser pesquisado online e subpartes do corpus encontram-se disponíveis no catálogo ELRA.
 

Citação do corpus
"dados extraídos do Corpus de Referência do Português Contemporâneo (CRPC) do Centro de Linguística da Universidade de Lisboa – CLUL (versão 3.0 2012, através da plataforma CQPWeb no período [mês/ano])”

 

Composição

O CRPC é composto por 309,8 milhões de palavras provenientes de textos escritos e 1,6 milhões de palavras provenientes de transcrições de gravações de registos orais.

É considerado um corpus de referência na medida em que os textos escritos foram sujeitos a um processo de amostragem previamente à sua inclusão no corpus.

  • Tipos de texto

O CRPC abrange diversos tipos de textos escritos: literário, jornalístico, técnico, científico, didáctico, folhetos, decisões do Supremo Tribunal de Justiça, sessões parlamentares, etc.
O CRPC é também constituído por um subcorpus oral que inclui discurso formal e informal. Este subcorpus cobre diferentes tipos de interacção: monólogos, diálogos, conversas, telefonemas, leituras, homilias, etc.

  • Datação

O CRPC contém textos da segunda metade do século XIX até 2006, embora a maioria dos textos seja posterior ao ano de 1970.

  • Variedades do Português

Os textos incluídos no CRPC pertencem maioritariamente à variedade europeia do Português, mas encontram-se também representadas no corpus outras variedades nacionais, como o Português do Brasil, de África (Angola, Cabo Verde, Guiné-Bissau, Moçambique e São Tomé e Príncipe) e da Ásia (Macau, Goa e Timor-Leste).

O mapa que abaixo se apresenta assinala todas as variedades abrangidas pelo CRPC. Nele pode encontrar-se informação acerca do número de palavras existente para cada uma das variedades.
Para obter informações sobre a distribuição de textos escritos e orais por variedade, consulte-se esta tabela.


mapa_crpc_FINAL

Anotação

  • Preparação do corpus

O CRPC foi limpo com a ferramenta Ncleaner (Evert, 2008), adaptada com recurso a 200 documentos anotados, seleccionados aleatoriamente do CRPC. Foi assim possível limpar os textos de informação repetida ou não relevante (publicidade, spam).

  • Anotação

Os textos foram automaticamente tokenizados com o tokenizador LX (Branco & Silva, 2004), que retira sinais de pontuação e detecta fronteiras de frase.

Para a etiquetagem morfossintáctica, foi treinado o etiquetador desenvolvido por Daelemans et al. (1996) com uma versão ligeiramente adaptada da parte escrita do corpus CINTIL. O sistema de anotação usado contém um conjunto de 80 etiquetas.

Para a lematização automática, foi criada uma versão portuguesa do lematizador MBLEM (van den Bosch & Daelemans, 1999). O MBLEM atribui lemas a cada forma do corpus, aliando a pesquisa em dicionários com a aprendizagem automática. Como dicionário, foi usada a lista de lemas construída no âmbito do projecto DEP – Dicionário Electrónico do Português, coordenado no CLUL por Maria Elisa Macedo (tendo a aplicação informática sido desenvolvida por João Miguel Casteleiro).
 

  • Alinhamento das transcrições do subcorpus oral

O alinhamento de transcrições ortográficas com o sinal acústico foi realizado com o programa EXMARaLDA (Schmidt, 2004). No âmbito do projecto C-ORAL-ROM, foi ainda utilizado o programa WinPitch.
 

Pesquisas online
O subcorpus escrito do CRPC, composto por 309 milhões de tokens, encontra-se disponível para pesquisas online através da interface CQPWeb.

Existem dois tipos de acesso: não registado e registado.
Apenas um pequeno conjunto de características, como criar subcorpora, requer um acesso registado.
O registo é gratuito e, para o obter, é necessário preencher um formulário de registo.

 

O subcorpus oral do CRPC, com alinhamento texto-som, pode ser pesquisado na plataforma TEITOK.
 

Disponibilidade
 

Subcorpora disponíveis ou recursos deles derivados
Nome do Projecto
e Descrição
Autoria Disponível em

Português Fundamental - amostra publicada.
Subcorpus oral do CRPC com 106 488 palavras.

Versão transcrita e alinhada no formato EXMARaLDA disponível no catálogo ELRA (gratuita para investigação)

CLUL

aqui

versão alinhada: catálogo ELRA

Português Falado - Variedades Geográficas e Sociais
86 transcrições de discursos autênticos com alinhamento com o sinal acústico.

Versão transcrita e alinhada no formato EXMARaLDA disponível no catálogo ELRA (gratuita para investigação)

CLUL, Univ. de Toulouse-le-Mirail e Univ. de Provence Aix-Marseille

4 Cd-Rom
editados por CLUL/Instituto Camões
Também disponíveis

versão alinhada: catálogo ELRA 

Subcorpus PAROLE
subcorpus composto por 3 milhões de palavras e extraído do corpus PAROLE; contém 250 000 palavras etiquetadas com informação morfossintáctica.
CLUL e INESC Catálogo ELRA

LT Corpus

Corpus de obras literárias livres de direitos de autor (61 obras portuguesas e 9 obras do Brasil), publicadas antes de 1940. Disponível no catálogo ELRA (gratuito para investigação)

CLUL Catálogo ELRA

PTPARL Corpus  

Corpus com 1,076 transcrições dos Diários da Assembleia da República, com 1,000,441 tokens e anotação PoS e NP chunks. Disponível no catálogo ELRA (gratuito para investigação)

CLUL Catálogo ELRA
LMCPC
léxico composto por 26 980 lemas e 140 976 formas com informação morfológica e quantitativa.
CLUL, INESC
e Editorial Verbo
aqui

PAROLE LEXICON
léxico composto por 20 000 unidades etiquetadas morfossintacticamente com descrição sintáctica.

CLUL, INESC
e Editorial Verbo
Catálogo ELRA
SIMPLE
subléxico do PAROLE com 300 unidades acompanhadas de descrição semântica.
CLUL, parceria Portuguesa e Europeia  

 

História
O projecto CRPC teve início em 1988, no CLUL. A equipa responsável por este projecto havia estado também envolvida na compilação do corpus oral Português Fundamental. Assim, o novo projecto surgiu no seguimento daquele com o objectivo de abranger textos escritos e orais. O corpus foi inicialmente pensado para ser um corpus equilibrado, mas acabou por se tornar um corpus "monitor”. Um subcorpus de 11 milhões de palavras foi inicialmente disponibilizado online para pesquisa de concordâncias e frequências através da ferramenta Concor. A totalidade do CRPC escrito está agora disponível na plataforma CQPWeb, que permite um vasto leque de opções de pesquisa (ver informação abaixo).


Agradecimentos

Financiamento

  • Fundação Calouste Gulbenkian
  • Junta Nacional de Investigação Científica e Tecnológica (JNICT) - Programa Estímulo em Ciências sociais e Humanas
  • Fundação para a Ciência e Tecnologia (FCT) - Fundos Programáticos
  • Instituto Camões
  • União Latina
  • Caixa Geral de Depósitos
  • Comissão Europeia: projectos LE-PAROLE e C-ORAL-ROM.

 

Entidades que disponibilizaram textos

  • Academia das Ciências de Lisboa
  • Agência Lusa
  • Assembleia da República
  • Caixa Geral de Depósitos
  • Centro de Informática do Ministério da Justiça
  • Coimbra Editora
  • DECO
  • Editora Colibri
  • Editora Nova Fronteira - Brasil
  • Editorial Verbo
  • Estação de Rádio TSF
  • Fundação Calouste Gulbenkian - Serviço de Bibliotecas e Apoio à Leitura
  • Instituto do Consumidor
  • Sociedade Bíblica Portugal
  • Jornais portugueses: A Bola, A Capital, Diário de Notícias, Diário Económico, Expresso, Jornal de Notícias, Diário do Minho, O Independente, Público
  • Jornais cabo-verdianos: A Semana, Correio Quinze, Novo Jornal
  • Procuradoria-Geral da República
  • Corpus do Português Contemporâneo (Universidade Estadual Paulista - UNESP
  • Projecto NURC-BR (São Paulo e Rio de Janeiro)
  • Projecto PEUL (Rio de Janeiro)
  • Periódicos: Grande Reportagem, Ingenium, Máxima, ProTeste, Visão; Selecções do Reader's Digest


A interface CQPweb foi projectada e desenvolvida por Andrew Hardie. Gostaríamos de lhe agradecer por nos ajudar a adaptar a interface para o Português. Agradecemos igualmente ao Grupo NLX (Natural Language and Speech) da Faculdade de Ciências da Universidade de Lisboa, coordenado por António Branco, por nos dar acesso ao programa tokenizador LX.

Agradecemos também a Thomas Schmidt por adaptar o software EXMARaLDA a formatos anteriormente usados no CLUL.
 


Contacto

Para qualquer questão ou sugestão relativamente ao CRPC, por favor contacte-nos através do endereço electrónico amaliamendes@letras.ulisboa.pt.

 

Investigação

O CRPC foi já usado em vários trabalhos de mestrado e doutoramento conduzidos em Portugal e no estrangeiro, bem como em trabalhos de investigação como o Dicionário da Língua Portuguesa Contemporânea da Academia das Ciências de Lisboa, em que se recorreu ao CRPC como fonte de abonações. O CRPC foi ainda usado nos seguintes projectos do CLUL:

 

Referências bibliográficas
van den Bosch, Antal and Walter Daelemans (1999) Memory-based morphological analysis. In Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics (ACL '99). Association for Computational Linguistics, Stroudsburg, PA, USA, 285-292.

Branco, António e João Silva (2004) Evaluating Solutions for the Rapid Development of State-of-the-Art POS Taggers for Portuguese. In Maria Teresa Lino, Maria Francisca Xavier, Fátima Ferreira, Rute Costa and Raquel Silva (orgs.), Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC2004), Paris, ELRA, ISBN 2-9517408-1-6, pp.507-510.

Evert, Stefan (2008) A lightweight and efficient tool for cleaning web pages. In 6th International Conference on Language Resources and Evaluation (LREC 2008), Marrakech, Morocco.

MBT: A Memory-Based Part of Speech Tagger-Generator. Walter Daelemans, Jakub Zavrel, Peter Berck and Steven Gillis. in: E. Ejerhed and I. Dagan (eds.) Proceedings of the Fourth Workshop on Very Large Corpora, Copenhagen, Denmark, 14-27, 1996.

Schmidt, Thomas (2004) Transcribing and annotating spoken language with EXMARaLDA. In: Proceedings of the LREC-Workshop on XML based richly annotated corpora, Lisbon 2004, Paris: ELRA.

 

IR do Projeto
Anteriores membros da equipa
João Malaca Casteleiro
Maria Lúcia Garcia Marques
José Bettencourt Gonçalves
Raquel Amaro
Florbela Barreto
João Miguel Casteleiro
Tiago Sá