Corpus

Recolha de dados de PLE

Apresentação 
Os materiais aqui disponibilizados resultam do projecto de "Recolha de dados de aprendizagem de português língua estrangeira", realizado ao abrigo de um protocolo entre o Instituto Camões e o Centro de Linguística da Universidade de Lisboa. 

O projecto teve como principal objectivo recolher produções de aprendentes de português língua estrangeira com vista à criação de uma base de dados que possa apoiar a investigação na área da língua portuguesa e, de modo particular, a formação de professores e a produção de materiais didácticos de português enquanto LE.  O corpus, agora disponibilizado, sendo compatível com materiais que integram recolhas efectuadas no âmbito de outros projectos (Recolha de Corpora PL2 e Leiria 2001), possibilitará aos interessados o contacto com um conjunto de dados empíricos mais representativo, instrumento de trabalho fundamental para a investigação em aquisição/aprendizagem de PLE.

Desde o início dos trabalhos em Outubro de 2008, até à conclusão do projecto em Outubro de 2010, foram recolhidas produções de 397 aprendentes de PLE. Os alunos, à data da recolha, frequentavam cursos, em diferentes níveis de aprendizagem (A1-C1), em dezoito universidades dos seguintes países: Alemanha, Áustria, Bulgária, Coreia do Sul, Espanha, Estados Unidos da América, França, Índia, Itália, Polónia, Reino Unido, República Checa e Roménia.

Colaboraram na recolha de dados os seguintes docentes que, ao serviço do Instituto Camões, asseguravam a promoção da língua e cultura portuguesas nos referidos países: Ana Catarina de Castro, Ana Catarina de Matos, Ana Filipa Velosa, Ana Mendes e Land, Daniel Perdigão, Delfim da Silva, Francisco Nazareth, Hiteshkumar Chimanial Parmar, Joaquim Ramos, José Carlos Dias, Leonor Moura e Silva, Lia Ferreira, Mónica Pereira, Pedro Martins, Sandra Pinheiro e Vanessa Castagna.

Metodologia
Os dados foram recolhidos, junto dos participantes, mediante orientações previamente definidas que incluiam (i) o preenchimento de uma ficha de perfil linguístico à qual foi atribuída um número e (ii) a tarefa de redacção identificada com o respectivo número do informante. A utilização deste sistema de códigos permitiu identificar produções efectuadas pelo mesmo informante, a partir de dois ou mais estímulos diferentes, sem que fosse necessário o preenchimento de uma nova ficha de perfil linguístico. 
Após a sua recepção, os materiais foram transcritos, codificados e organizados. 

1. Dados dos informantes 
Num primeiro momento, procedeu-se à realização de um documento, em ficheiro Excel, que reunisse os dados sociolinguísticos dos participantes. A informação, organizada por universidades onde foi efectuada a recolha, contempla os seguintes itens que podem ser pesquisados individualmente através do sistema de filtros:

a) dados pessoais – idade; sexo; nacionalidade; curso e respectivo ano de curso; universidade em que o frequenta;

b) percurso linguístico – língua materna; língua de escolarização; outras línguas que estuda/conhece além do português; avaliação do domínio da língua na qual tem maior proficiência linguística, além da LM, segundo os níveis do Quadro Europeu Comum de Referência para as Línguas (QECR) nas competências de compreensão oral e escrita; produção oral e escrita; e interação oral.

c) percurso linguístico da língua portuguesa - ano de início de estudo do português; outras disciplinas de língua/cultura portuguesa, além do português, que frequenta(ou); contacto com outros falantes do português; avaliação do domínio do português, segundo os níveis do QECR nas competências de compreensão oral e escrita; produção oral e escrita; e interação oral.

Obs. Pela sua divulgação, em particular no espaço europeu, foram utilizados os níveis do QECR. No entanto, é fundamental ter presente que, em falantes não monolingues, a activação de uma língua num dado momento e contexto está dependente de inúmeros factores envolvidos na compreensão e na produção linguísticas. Além disso, a inclusão de um sujeito num determinado nível depende, entre muitos outros, dos critérios do agente de ensino responsável pela atribuição desse nível.

d) estímulos utilizados (cf. ponto 2 da Metodologia).

2. Produções Escritas 
Cada produção escrita foi obtida a partir de um estímulo. Aos professores participantes foi disponibilizada uma lista com 83 propostas de redacção (revistas e ampliadas a partir das concebidas para a tese de doutoramento da coordenadora do presente projecto, Isabel Leiria), organizadas em  três grandes áreas temáticas contempladas no projecto do Português Fundamental:

1. O indivíduo
2. A sociedade
3. O meio ambiente

A selecção dos estímulos a apresentar aos participantes foi tarefa dos professores colaboradores. Fora pedido, aquando da divulgação do projecto, que, com o objectivo de ir ao encontro das preferências dos informantes, fossem propostos um/dois estímulos de cada um dos grandes temas (1, 2, e 3), seleccionados de acordo com o nível de aprendizagem dos alunos. Consulte aqui os estímulos seleccionados, bem como o número de produções obtidas em cada um deles.

Obs. Os materiais facultados pela Universidade de Pusan, identificados com o código - PU,  não foram recolhidos segundo as orientações e estímulos do projecto de recolha de dados PLE. Constituem produções realizadas em provas escritas, facultadas pela leitora, após a solicitação de colaboração no projecto. Os dados sociolinguísticos dos informantes não foram disponibilizados neste caso. Com vista a respeitar o sistema de identificação dos materiais, foi atribuído o número de estímulo que melhor se adequava à tarefa realizada. 

3. Normas de Transcrição
Os textos obtidos foram transcritos de acordo com as seguintes convenções (cf. Leiria, I. 2006 - Léxico, aquisição e ensino do Português Europeu língua não materna. Lisboa: FCG/FCT, p. 201):

< xxx > segmentos riscados 
< (...) > segmentos riscados ilegíveis 
/ xxx / segmentos acrescentados 
/* xxx / leituras conjecturadas

Com vista a ocultar os nomes próprios e outros elementos passíveis de permitir a reconstituição da identidade do informante foi utilizado o código XXXXX. O uso desta notação, inicialmente não contemplada nas convenções do projecto, procura responder não só ao referido objectivo, como também contribuir para a compatibilidade com a Recolha de Corpora de PL2 da Universidade de Coimbra que seguiu o protocolo do presente projecto.

4. Codificação dos textos recolhidos
Cada documento está devidamente identificado com (i) iniciais relativas à universidade onde foi efectuada a recolha; (ii) nível de proficiência em português no momento da recolha (os códigos 1, 2 e 3 atribuídos referem-se aos níveis A1-A2, B1-B2 e C1-C2 do QECR); (iii) número de informante (atribuído na ficha de perfil linguístico) e (iv) código do estímulo (foram respeitados os códigos apresentados na lista de estímulos cedida aos professores). 

Assim sendo, um texto redigido na Universidade de Rutgers (RU), produzido por um aluno de nível A1-A2 (1), com o número de identificação 07, sob o estímulo 45.2L, tem a seguinte identificação: RU_1_07_45.2L.


Dados
corpus é constituído por 470 produções escritas, realizadas por 397 informantes, falantes de 28 diferentes línguas maternas.

Sendo que cada um dos documentos tem em média 150 palavras, o corpus soma cerca de 70.500 palavras transcritas.

1. Número de textos por LM dos informantes

Alemão 41       Inglês 37
Apache 1   Italiano 112
Búlgaro 7   Japonês/Português 1
Búlgaro/Turco 1   Konkani 13
Catalão 2   Konkani/Inglês 1
Coreano 59   Luxemburguês 1
Checo 2   Polaco 21
Croata 3   Português 12
Eslovaco 1   Romeno 52
Espanhol 79   Ruandês 1
Espanhol/Italiano 1   Russo 5
Francês 8   Sérvio 2
Francês/Português 2   Sueco 1
Hindi 4      

2. Textos

a) Aceda ao corpus integral: corpus_ple
b) Aceda individualmente às produções escritas:

BU_1_01_1.1A PR_2_01_1.1A  MA_2_29_55.2M  VA_3_04_44.2L  RU_3_01_45.2L
BU_1_02_1.1A PR_2_02_6.1B MA_2_30_8.1B VA_3_04_69.3Q RU_3_02_35.1J
BU_1_03_5.1B PR_2_3_55.2M MA_2_30_83.3V VA_3_05_1.1A RU_3_02_65.2O
BU_1_04_5.1B SI_2_01_34.1J MA_2_31_83.3V VA_3_05_69.3Q RU_3_03_37.1J
BU_1_05_1.1A SI_2_01_50.2L PA_1_01_1.1A VA_3_06_44.2L RU_3_03_45.2L
BU_1_06_1.1A SI_2_02_53.2L PA_1_02_75.3S VA_3_06_45.2L RU_3_04_37.1J
BU_1_07_1.1A SI_2_02_70.3Q PA_1_03_1.1A VA_3_06_69.3Q RU_3_04_45.2L
BU_1_08_1.1A SI_2_03_1.1A PA_1_04_1.1A VA_3_07_69.3Q RU_3_05_37.1J
BU_1_09_1.1A SI_2_03_53.2L PA_1_05_1.1A ED_1_01_10.1C RU_3_05_45.2L
BU_1_10_5.1B MA_1_01_1.1A PA_1_06_75.3S ED_1_02_22.1G RU_3_06_65.2O
BU_1_11_6.1B MA_1_02_1.1A PA_1_07_75.3S ED_1_03_22.1G RU_3_07_45.2L
BU_1_12_6.1B MA_1_03_1.1A PA_2_08_60.2M ED_1_04_50.2L RU_3_08_45.2L
BU_1_13_6.1B MA_1_04_1.1A PA_2_09_10.1C ED_1_05_22.1G RU_2_09_37.1J
BU_1_14_5.1B MA_1_05_1.1A PA_2_10_5.1B ED_1_06_50.2L RU_2_10_37.1J
BU_1_15_1.1A MA_1_06_1.1A PA_2_11_5.1B ED_1_07_50.2L RU_2_10_45.2L
BU_1_16_1.1A MA_1_07_1.1A PA_2_12_48.2L ED_1_08_67.2P RU_2_11_35.1J
BU_1_17_1.1A MA_1_08_1.1A PA_2_13_78.3T ED_1_09_50.2L RU_2_12_35.1J
BU_1_18_1.1A MA_1_08_55.2M PA_2_14_5.1B ED_1_10_50.2L RU_2_13_37.1J
BU_1_19_1.1A MA_1_08_78.3T PA_2_15_5.1B ED_1_11_22.1G RU_2_14_35.1J
BU_1_20_6.1B MA_1_09_1.1A PA_2_16_48.2L ED_1_12_22.1G RU_2_15_37.1J
BU_1_21_1.1A MA_1_11_1.1A PA_2_17_10.1C ED_1_13_10.1C RU_2_16_37.1J
BU_1_22_1.1A MA_1_12_1.1A PA_2_18_60.2M ED_1_14_22.1G RU_2_17_35 1J
BU_2_23_45.2L MA_2_13_8.1B PA_2_19_10.1C ED_1_15_10.1C RU_2_18_37.1J
BU_2_24_7.1B MA_2_13_55.2M PA_2_20_48.2L ED_1_16_50.2L RU_2_19_37.1J
BU_2_25_10.1C MA_2_14_8.1B PA_2_21_60.2M ED_1_17_50.2L GO_2_01_1.1A
BU_2_26_70.3Q MA_2_14_55.2M PA_2_22_60.2M ED_1_18_75.3S GO_2_02_1.1A
BU_2_27_70.3Q MA_2_15_55.2M PA_2_23_48.2L ED_1_19_50.2L GO_2_03_45.2L
BU_2_28_70.3Q MA_2_15_83.3V PA_2_24_60.2M ED_1_20_50.2L GO_2_04_1.1A
BU_2_29_7.1B MA_2_16_55.2M PA_2_25_5.1B ED_1_21_50.2L GO_2_05_1.1A
BU_2_30_7.1B MA_2_16_83.3V PA_2_26_66.2O ED_1_22_75.3S GO_2_05_45.2L
BU_2_31_7.1B MA_2_17_55.2M PA_2_27_39.1J ED_1_23_67.2P GO_2_06_45.2L
BU_2_32_10.1C MA_2_17_83.3V PA_2_28_39.1J ED_1_24_22.1G GO_2_07_1.1A
BU_2_33_70.3Q MA_2_18_8.1B PA_2_29_39.1J SO_2_01_4.1A GO_2_08_1.1A
BU_2_34_70.3Q MA_2_18_55.2M PA_2_30_67.2P SO_2_02_4.1A GO_2_09_45.2L
BU_2_35_70.3Q MA_2_19_8.1B PA_2_31_66.2O SO_2_03_45.2L GO_2_10_1.1A
BU_2_36_70.3Q MA_2_19_83.3V PA_2_32_66.2O SO_2_04_4.1A GO_2_11_45.2L
BU_2_37_70.3Q MA_2_20_8.1B PA_2_33_5.1B SO_2_05_69.3Q GO_2_12_45.2L
BU_2_38_10.1C MA_2_20_55.2M PA_2_34_5.1B SO_2_06_4.1A GO_2_13_1.1A
BU_2_39_7.1B MA_2_21_52.2L PA_2_35_39.1J SO_2_07_69.3Q GO_2_14_45.2L
BU_2_40_70.3Q MA_2_22_78.3T PA_2_36_39.1J SO_2_08_4.1A GO_2_15_45.2L
BU_2_41_7.1B MA_2_23_78.3T PA_2_37_39.1J NI_1_01_1.1A GO_2_16_1.1A
BU_2_42_1.1A MA_2_24_78.3T PA_2_38_66.2O NI_1_02_1.1A GO_2_17_45.2L
BU_2_42_7.1B MA_2_25_55.2M VA_3_01_3.1A NI_1_03_1.1A AU_1_01_25.1H
BU_2_43_70.3Q MA_2_26_55.2M VA_3_01_69.3Q NI_1_04_1.1A AU_1_02_25.1H
BU_2_44_45.2L MA_2_26_83.3V VA_3_02_3.1A NI_1_05_1.1A AU_1_03_25.1H
BU_2_45_10.1C MA_2_27_8.1B VA_3_02_69.3Q NI_1_06_1.1A AU_1_04_25.1H
BU_2_46_7.1B MA_2_27_55.2M VA_3_03_44.2L NI_1_07_1.1A AU_1_05_25.1H
BU_2_47_7.1B MA_2_28_8.1B VA_3_03_45.2L NI_1_08_1.1A AU_1_06_25.1H
BU_2_48_70.3Q MA_2_28_83.3V VA_3_03_69.3Q NI_1_09_1.1A AU_1_07_25.1H
BU_2_49_7.1B MA_2_29_8.1B VA_3_04_3.1A NI_1_10_1.1A SA_1_01_25.1H
SA_1_02_71.3Q SA_1_03_25.1H SA_1_04_25.1H SA_1_05_25.1H SA_1_06_45.2L
SA_1_07_25.1H SA_1_08_25.1H SA_1_09_25.1H SA_1_10_25.1H SA_1_11_25.1H
SA_1_11_45.2L SA_1_12_45.2L SA_1_13_25.1H SA_1_14_45.2L LI_1_01_1.1A
LI_1_02_1.1A LI_1_03_1.1A LI_1_04_1.1A LI_1_05_1.1A LI_1_06_1.1A
LI_1_07_1.1A LI_1_08_1.1A LI_1_09_1.1A LI_1_10_1.1A AL_1_01_1.1A
AL_1_02_1.1A AL_1_03_1.1A AL_1_04_1.1A AL_1_05_1.1A AL_1_06_1.1A
AL_1_07_1.1A AL_2_08_1.1A AL_2_08_6.1B AL_2_08_31.1I AL_2_08_59.2M
AL_2_08_70.3Q AL_2_09_1.1A AL_2_09_6.1B AL_2_09_31.1I AL_2_09_59.2M
AL_2_09_70.3Q AL_2_10_1.1A AL_2_10_6.1B AL_2_10_31.1I AL_2_10_59.2M
AL_2_10_70.3Q AL_2_11_1.1A AL_2_11_6.1B AL_2_11_31.1I AL_2_11_59.2M
AL_2_11_70.3Q AL_2_12_1.1A AL_2_12_6.1B AL_2_12_31.1I AL_2_12_59.2M
AL_2_12_70.3Q AL_1_13_1.1A AL_1_14_1.1A AL_1_15_1.1A AL_1_16_1.1A
AL_1_17_1.1A AL_1_18_1.1A AL_1_19_1.1A AL_1_20_1.1A AL_1_21_1.1A
AL_1_22_1.1A AL_1_23_1.1A AL_1_24_1.1A AL_1_25_1.1A AL_1_26_1.1A
AL_1_27_1.1A HU_1_01_7.1b HU_1_02_6.1B HU_1_03_8.1B HU_1_04_6.1B
HU_1_05_6.1B HU_1_06_6.1B HU_1_07_6.1B HU_1_08_7.1B HU_1_09_15.1D
HU_1_10_7.1B HU_1_11_8.1B HU_1_12_15.1D HU_1_13_15.1D HU_1_14_7.1B
HU_1_15_18.1F HU_1_16_24.1H HU_1_17_24.1H HU_1_18_24.1H HU_1_19_24.1H
HU_1_20_1.1A HU_1_21_1.1A HU_1_22_1.1A HU_1_23_1.1A HU_1_24_1.1A
HU_1_25_1.1A HU_1_26_1.1A VE_1_01_1.1A VE_1_02_1.1A VE_1_03_1.1A
VE_1_03_80.3U VE_1_04_1.1A VE_1_05_1.1A VE_1_05_74.3R VE_1_06_1.1A
VE_1_06_34.1J VE_1_07_1.1A VE_1_08_1.1A VE_1_09_1.1A VE_1_09_55.2M
VE_1_09_80.3U VE_1_10_1.1A VE_1_10_34.1J VE_1_10_48.2L VE_1_11_80.3U
VE_1_12_55.2M VE_1_12_83.3V VE_1_13_48.2L VE_1_14_1.1A VE_1_15_1.1A
VE_1_15_80.3U VE_1_16_1.1A VE_1_16_80.3U VE_1_17_1.1A VE_1_18_1.1A
VE_1_18_74.3R VE_1_19_1.1A VE_1_19_55.2M VE_1_20_1.1A VE_1_20_80.3U
VE_1_21_10.1C VE_1_21_34.1J VE_1_22_1.1A VE_1_22_26.1H VE_1_23_1.1A
VE_1_23_34.1J VE_1_24_1.1A VE_1_25_1.1A VE_1_26_57.2M VE_1_29_26.1H
VE_1_30_26.1H VE_1_30_74.3R VE_1_31_80.3U VE_1_32_26.1H VE_1_33_55.2M
VE_1_34_80.3U VE_1_35_26.1H VE_1_36_34.1J VE_1_37_34.1J VE_1_38_80.3U
VE_1_39_54.2L VE_1_40_55.2M VE_1_41_34.1J VE_3_01_34.1J VE_3_01_48.2L
VE_3_01_80.3U VE_3_02_1.1A VE_3_02_55.2M VE_3_03_83.3V VE_3_04_26.1H
VE_3_04_48.2L VE_3_05_71.3Q PU_1_01_1.1A PU_1_02_1.1A PU_1_03_1.1A
PU_1_04_1.1A PU_1_05_1.1A PU_1_06_1.1A PU_1_07_1.1A PU_1_08_1.1A
PU_1_09_1.1A PU_1_10_1.1A PU_1_11_1.1A PU_1_12_1.1A PU_1_13_1.1A
PU_1_14_1.1A PU_1_15_1.1A PU_1_16_1.1A PU_1_17_1.1A PU_1_18_1.1A
PU_1_19_1.1A PU_1_20_1.1A PU_1_21_1.1A PU_1_22_1.1A PU_1_23_1.1A
PU_1_24_1.1A PU_3_01_73.3R PU_3_02_73.3R PU_3_03_73.3R PU_3_04_73.3R
PU_3_05_73.3R PU_3_06_73.3R PU_3_07_73.3R PU_3_08_73.3R PU_3_09_73.3R
PU_3_10_73.3R PU_3_11_73.3R PU_3_12_73.3R PU_3_13_73.3R PU_3_14_73.3R
PU_3_15_73.3R PU_3_16_73.3R PU_3_17_73.3R PU_3_18_24.1H PU_3_19_24.1H
PU_3_20_24.1H PU_3_21_24.1H PU_3_22_24.1H PU_3_23_24.1H PU_3_24_24.1H
PU_3_25_24.1H PU_3_26_24.1H PU_3_27_24.1H PU_3_28_24.1H PU_3_29_24.1H
PU_3_30_24.1H PU_3_31_24.1H PU_3_32_24.1H PU_3_33_24.1H PU_3_34_24.1H
PU_3_35_24.1H  
Coordenador
Colaboradores