Base de Dados para a Identificação do Português Língua Nativa

Base de dados

NLI-PT

Base de Dados para a Identificação do Português Língua Nativa

Grupo

Descrição

NLI-PT é o primeiro conjunto de dados português compilado para a NLI (Native Language Identification), a tarefa de identificar a língua nativa do autor de um texto escrito numa segunda língua.

O conjunto de dados inclui 1.868 ensaios escritos por alunos de Português Europeu, falantes nativos das seguintes L1s: Chinês, Inglês, Espanhol, Alemão, Russo, Francês, Japonês, Italiano, Holandês, Tétum, Árabe, Polaco, Coreano, Romeno e Sueco . Coletamos dados de três fontes diferentes: dois corpora de aprendizagem, COPLE2 e PEAPL2 e o conjunto de dados do projeto "Recolha de dados de aprendizagem de língua inglesa estrangeira". Com o objetivo de unificar os dados dos alunos reunidos a partir dessas várias fontes, aplicamos uma metodologia que foi usada anteriormente para a compilação de corpora com diferentes idiomas (Tan et al., 2014).

NLI-PT inclui o texto original do aluno e quatro tipos diferentes de anotação: POS, POS detalhado, análise de constituintes e análise de dependências. Utilizamos o LX Parser para o POS simples e o módulo morfológico Português de Freeling para POS detalhado. No que diz respeito às anotações sintáticas, usamos o LX Parser para análise de constituentes e o kit de ferramentas DepPattern para dependências.

NLI-PT pode ser usado não apenas na NLI, mas também em pesquisas sobre vários tópicos no campo de Aquisição de Segunda Língua e PLN educacional.

O recurso é descrito na seguinte publicação:

del Río, I., Zampieri, M. & Malmasi, S. 2018. A Portuguese Native Language Identification Dataset. The 13th Workshop on Innovative Use of NLP for Building Educational Applications, NAACL 2018. 05th June. New Orleans, USA. [pdf]

E pode ser descarregado aqui.