Corpus

Corpus SANTOS - Português Europeu


Corpus de fala de crianças e fala dirigida a crianças 
 

corpus Santos - Português Europeu é um corpus de fala de crianças e de fala dirigida a crianças transcrito de acordo com o formato definido no projeto CHILDES  (Child Language Data Exchange System) e utilizando o software CLAN (MacWhinney, 2000). Este corpus inclui 52 horas de interação entre adultos e crianças e contém 27595 enunciados produzidos por crianças e 70736 enunciados produzidos por adultos (descrição mais completa em Santos 2006 e Santos et al. 2014). O corpus está disponível na base de dados CHILDES, através desta ligação: https://childes.talkbank.org/data/Romance/Portuguese/

corpus, ​registado como  ISLRN: 532-620-702-768-3, foi ainda automaticamente anotado recorrendo a um etiquetador desenvolvido no CLUL (Généreux, Hendrickx & Mendes, 2012), podendo ser encontrada informação sobre as etiquetas usadas no seguinte manual: http://alfclul.clul.ul.pt/CQPnet/doc/CRPCmanual.v1_2_en.pdf 

corpus inclui dados de três crianças, como descrito na seguinte tabela:

CRIANÇA   IDADE MLUW NÚMERO DE FICHEIROS   NÚMERO DE ENUNCIADOS PRODUZIDOS PELA CRIANÇA
INI 1;6.6 - 3;11.12 1.530 - 3.827 21 6,591
TOM 1;6.18 - 3;10.16 1.286 - 3.089 30 15,548
INM 1;5.9 - 2;9.3 1.345 - 2.834 16 5,456

 


Os trabalhos que usem este corpus devem citar:

Santos, A. L. (2006). Minimal Answers. Ellipsis, Syntax and Discourse in the Acquisition of European Portuguese. Ph.D. Dissertation. Universidade de Lisboa. (Published 2009, Amsterdam / Philadelphia: John Benjamins).

Santos, A. L., M. Génereux, A. Cardoso, C. Agostinho, S. Abalada (2014) A corpus of European Portuguese child and child-directed speech. In Proceedings of the 9th Conference on Language Resources and Evaluation – LREC 2014. European Language Resources Association (ELRA).

Este corpus (ou uma sua versão anterior) foi usado como fonte para as seguintes bases de dados:

Santos, Ana Lúcia, Maria João Freitas & Aida Cardoso (2014) CEPLEXicon - A Lexicon of Child European Portuguese. Lisboa: Anagrama (CLUL, FLUL). ISLRN: 408-817-203-152-3 , ELRA ID: ELRA-L0094

CDS_EP - A lexicon of child directed speech for European Portuguese from the FrePOP database 

Coordenador