Corpus
PTPARL

Corpus do Parlamento Português anotado com POS

O PTPARL Corpus é um corpus escrito de registo político constituído por transcrições das sessões do parlamento português, que ficaram disponíveis em 2004. Considera-se que estes textos pertencem ao registo escrito por terem sido submetidos a revisões e intervenções no que respeita à forma (e não ao conteúdo) na altura da transcrição. Este corpus inclui 1076 textos, num total de, aproximadamente, 975,806 palavras de português europeu.

O PTPARL Corpus é composto por um ficheiro de texto (que corresponde ao corpus) e um ficheiro com anotação PoS ao nível dos tokens, incluindo a pontuação. Os grupos nominais também foram identificados e anotados com etiquetas específicas. Toda a anotação foi feita automaticamente.

Este corpus pode ser útil quer na investigação linguística quer no auxílio do desenvolvimento de ferramentas para o Processamento da Língua Natural. 

Este recurso está disponível gratuitamente no Catálogo do ELRA, tendo-lhe sido atribuído o ISLRN (International Standard Language Resource Number) 294-303-577-819-2. Para mais informação, pode consultar a página www.islrn.org.