Corpus

Corpus Leiria (1991)

Apresentação 

O conjunto de dados aqui disponibilizado constitui o ‘corpus’ que esteve na base do trabalho de Leiria (1991), “A aquisição por falantes de Português Europeu, língua não materna, dos aspectos verbais expressos pelos Pretéritos Perfeito e Imperfeito”, desenvolvido na FLUL, com vista à obtenção do grau de Mestre em Linguística.

Vinte anos após a sua recolha e análise, o ‘corpus’ continua a constituir uma excelente base de dados empíricos, capaz de servir a investigação na área da aquisição do Português L2. Pode, inclusivamente, ser complementado com outros ‘corpora’  posteriores que, sendo em parte semelhantes, no seu conjunto formam uma grande base de dados de produções escritas de aprendentes de português em contexto formal (recolha de dados produzidos por aprendentes de português no estrangeiro realizada pelo CLUL) e semi-formal (recolha de dados produzidos por aprendentes de português que se encontram a viver em Portugal e frequentam aulas de língua (cf. Leiria (2001) e acervo de dados de PLE do CELGA). 

Os dados foram recolhidos no âmbito de uma prova de compreensão oral e produção escrita do exame do Curso Básico de língua Portuguesa do Departamento de Língua e Cultura Portuguesa da Faculdade de Letras de Lisboa, à época ministrado pela empreendedora da recolha, então Prof. Doutora Isabel Leiria. Na sua totalidade foram recolhidos 218 documentos, escritos por 168 aprendentes de PLE. Os alunos, à data da recolha, frequentavam diferentes níveis de aprendizagem do português. Os níveis variam de 1 a 4 semestres de exposição formal.

Metodologia

Uma vez que os dados foram recolhidos no âmbito de um exame, as orientações que nortearam a recolha dos mesmos foram as apresentadas nos enunciados de cada uma das três provas contempladas. A actividade consistia num reconto escrito de uma de três narrativas ouvidas pelos informantes. O texto 1 trata-se de um conto popular que, como é próprio deste subgénero, apresenta um esquema textual mais simples, e até previsível, visto ser comum às literaturas orais e tradicionais de outras culturas. Os textos 2 e 3 apelam a conhecimentos extralinguísticos relacionados com aspectos sócio-políticos portugueses. O seu esquema narrativo é menos previsível, exigindo, por isso, uma maior capacidade de processamento por parte dos sujeitos (cf. Leiria 1991: 62). Cada texto foi lido duas vezes pelo professor. A primeira leitura foi um pouco mais lenta do que a segunda e precedida pela apresentação do título. A leitura do texto 2 foi precedida de um curto texto introdutório (cf. Enunciado texto 2). 

Consulte os enunciados e as respectivas narrativas apresentadas aos alunos:
a) Enunciado_texto 1
b) Enunciado_texto 2
c) Enunciado_texto 3

Após a sua recolha, os dados foram transcritos, codificados e organizados, segundo as directrizes a seguir apresentadas. 

1. Dados dos Informantes

Os informantes têm idades compreendidas entre os 18 e os 55 anos de idade, sendo 59% do sexo feminino e 41% do sexo masculino. Note-se que uma das duas únicas exigências à frequência do Curso é que os estudantes tenham mais de 17 anos. A segunda é que estes estejam alfabetizados numa língua ocidental. Desde logo, as condições de inscrição no Curso pouco selectivas geram uma enorme heterogeneidade de públicos, em termos etários, culturais e mesmo em conhecimentos prévios em geral. 

São falantes de 16 línguas maternas diferentes, representantes de três famílias linguísticas: (i) o chinês, uma língua sino-siamesa; (ii) o árabe, uma língua semita; (iii) as restantes 14 são línguas índo-europeias, subdividindo-se entre línguas românicas, germâncias ou eslavas. 

Embora, por vezes, tivesse sido possível aceder a informação sobre outras línguas conhecidas pelos informantes, a autora da recolha optou por não ter em conta essa informação, uma vez que "aquilo que cada um considera que é saber uma língua não materna, e a atitude que manifesta em relação a esse saber, envolve conhecimentos e pressupostos muito diversos" (cf. Leiria 1991: 66). 

Encontrando-se em Portugal, os alunos foram expostos não só a input formal - 14 horas lectivas semanais, ao longo do semestre (Novembro a Fevereiro ou Fevereiro a Maio) - como também a input informal que, tendo em conta a heterogeneidade do grupo, pode ser bastante variado.  

2. Normas de Transcrição

De acordo com Leiria 1991, a transcrição de corpora de língua não materna que tem como principal objectivo a sua integração em bases de dados para investigação, deve ser equiparada à de textos literários, uma vez que o referido processo se deve desenvolver com semelhante rigor. Neste sentido, as transcrições do presente ‘corpus’ foram efectuadas de acordo com alguns dos símbolos e procedimentos das edições críticas de índole genética. As mesmas normas foram, inclusivamente, adoptadas em projectos de recolha de dados subsequentes, já anteriormente mencionados, o que contribui, desde logo, para a compatibilidade dos mesmos no que concerne a este tipo de convenções.

< xxx > segmentos riscados

<#> palavras ilegíveis  

< # > riscados ilegíveis

/* xxx / leituras conjecturadas

3. Codificação dos textos recolhidos

Cada um dos 218 documentos que constituem o corpus está devidamente codificado com um número que o identifica, e, entre parênteses curvos, com algumas especificações sobre as condições em que foi produzido:

a) número do texto-estímulo a que foi exposto
b) língua materna do informante
c) número do informante
d) tempo de aprendizagem

Assim sendo, por exemplo, o código 145(3.AL8.98.2) indica que o documento número 145 resulta da exposição ao texto-estímulo número 3 e foi produzido por um informante que tem o Alemão como língua-materna (o Alemão é a oitava língua-materna na organização do corpus) e que tem o número 98. À data da realização do exame escrito, estava inscrito no Curso Básico há dois semestres lectivos.

Dados

corpus é constituído por 218 produções escritas, realizadas por 168 informantes, falantes de 16 diferentes línguas maternas. A diferença entre o número dos documentos (218) e o número dos informantes (168) deve-se ao facto de alguns informantes terem contribuído com mais do que um texto-resposta, por se terem apresentado mais do que uma vez ao exame escrito. 

Os documentos estão organizados segundo as línguas maternas dos informantes, sendo, dentro de cada conjunto, o primeiro documento o mais curto dos textos-resposta ao texto-estímulo número 1 e o último o mais longo dos textos-resposta ao texto-estímulo número 3. Por conjunto entenda-se o número de textos produzidos por informantes com uma mesma L1. Considera-se que o texto mais curto é aquele que apresenta o menor número de palavras não riscadas, ou seja, qualquer grafema/conjunto de grafemas separado(s) por um espaço anterior e posterior ou precedido/seguido de hífen.

Consulte aqui, através do sistema de filtros, o número de documentos produzidos por estímulo, bem como as línguas maternas e o tempo de aprendizagem do português dos respectivos informantes. 


Na sua totalidade, o corpus soma cerca de 55.000 palavras transcritas.

1. Número de textos por LM dos informantes

 

Alemão 29 
Árabe 18
Búlgaro 5
Chinês 68
Dinamarquês 2
Espanhol 14
Francês 10
Hindi 10

 

 

Inglês  23
Italiano 10
Neerlandês 5
Norueguês 1
Persa 12
Polaco 2
Servo-Croata 2
Sueco 7

 

2. Textos

a) Consulte um ficheiro tipo: 145 (3.AL8.98.2)
b) Aceda ao corpus integral: corpus_leiria1991