Corpus SANTOS - Português Europeu
Corpus de fala de crianças e fala dirigida a crianças
O corpus Santos - Português Europeu é um corpus de fala de crianças e de fala dirigida a crianças transcrito de acordo com o formato definido no projeto CHILDES (Child Language Data Exchange System) e utilizando o software CLAN (MacWhinney, 2000). Este corpus inclui 52 horas de interação entre adultos e crianças e contém 27595 enunciados produzidos por crianças e 70736 enunciados produzidos por adultos (descrição mais completa em Santos 2006 e Santos et al. 2014). O corpus está disponível na base de dados CHILDES, através desta ligação: https://childes.
O corpus, registado como ISLRN: 532-620-702-768-3, foi ainda automaticamente anotado recorrendo a um etiquetador desenvolvido no CLUL (Généreux, Hendrickx & Mendes, 2012), podendo ser encontrada informação sobre as etiquetas usadas no seguinte manual: http://alfclul.clul.
O corpus inclui dados de três crianças, como descrito na seguinte tabela:
CRIANÇA | IDADE | MLUW | NÚMERO DE FICHEIROS | NÚMERO DE ENUNCIADOS PRODUZIDOS PELA CRIANÇA |
---|---|---|---|---|
INI | 1;6.6 - 3;11.12 | 1.530 - 3.827 | 21 | 6,591 |
TOM | 1;6.18 - 3;10.16 | 1.286 - 3.089 | 30 | 15,548 |
INM | 1;5.9 - 2;9.3 | 1.345 - 2.834 | 16 | 5,456 |
Os trabalhos que usem este corpus devem citar:
Santos, A. L. (2006). Minimal Answers. Ellipsis, Syntax and Discourse in the Acquisition of European Portuguese. Ph.D. Dissertation. Universidade de Lisboa. (Published 2009, Amsterdam / Philadelphia: John Benjamins).
Santos, A. L., M. Génereux, A. Cardoso, C. Agostinho, S. Abalada (2014) A corpus of European Portuguese child and child-directed speech. In Proceedings of the 9th Conference on Language Resources and Evaluation – LREC 2014. European Language Resources Association (ELRA).
Este corpus (ou uma sua versão anterior) foi usado como fonte para as seguintes bases de dados:
Santos, Ana Lúcia, Maria João Freitas & Aida Cardoso (2014) CEPLEXicon - A Lexicon of Child European Portuguese. Lisboa: Anagrama (CLUL, FLUL). ISLRN: 408-817-203-152-3 , ELRA ID: ELRA-L0094
CDS_EP - A lexicon of child directed speech for European Portuguese from the FrePOP database