Gramática & Recursos

Este grupo centra-se na modelação do conhecimento linguístico integrando conhecimento sobre interfaces entre diferentes áreas da gramática e conhecimento sobre o uso da língua. O grupo tem como característica distintiva o trabalho conjunto nas áreas da fonologia, do léxico, da sintaxe e da semântica, com o objetivo de construir um modelo integrado de gramática, considerando a forma como o conhecimento linguístico é representado na mente humana, bem como a forma como esse conhecimento poderá ser modelado computacionalmente; o trabalho sobre a aquisição de L1 e L2 está naturalmente no centro deste programa de investigação. A integração de modelos de representação do conhecimento linguístico e de modelos de uso da língua é conseguida através do estudo de corpora.

A produção de corpora e recursos em geral serve ainda o objetivo do grupo de produzir documentação e descrições do português europeu contemporâneo, bem como de línguas menos estudadas que resultam de contacto linguístico (crioulos de base lexical portuguesa, variedades nacionais do português em África e na Ásia). O grupo produz ainda recursos para o estudo da aquisição do português como L1 e como L2 em diferentes situações de aquisição. O grupo integra o CLARIN LP.

A investigação desenvolvida por vários membros do grupo na área da aquisição de L1 e L2 contribui diretamente para o objetivo geral do CLUL de articulação entre investigação fundamental e aplicada, nomeadamente nas áreas da Linguística Educacional e da Linguística Clínica.

São, atualmente, grandes objetivos do grupo:

- Produzir novos recursos para o estudo do português e de crioulos de base lexical portuguesa;

- Continuar investigação fundamental que visa a modelação do conhecimento linguístico, integrando conhecimento sobre interfaces internas à gramática;

- Continuar a documentação e descrição de crioulos e novas variedades do português que emergiram em situação de contacto de línguas;

- Desenvolver o estudo da aquisição do português, dando especial atenção a situações de contacto linguístico (no âmbito do recente Heritage Language Consortium) e à comparação entre desenvolvimento típico e atípico;

- Explorar a potencialidade da linguística comparada para a produção de recursos para a tradução e promover, na mesma área, ligações à indústria.

Recursos Tipo
A Lexicon of Child European Portuguese - CEPLEXicon Léxico
Acquisition of European Portuguese Databank - AcEP Base de dados
Banco do Discurso para o português - CRPC-DB Corpus
Base de dados de citações - CRPC-quotations Base de dados
Base de Dados para a Identificação do Português Língua Nativa - NLI-PT Base de dados
Biografias de personalidades portuguesas - Bio-PT Base de dados
Child-Adult Interaction Corpus - CAI Corpus
Child-Adult interaction European Portuguese Base de dados
CoKri: a corpus of Guinea-Bissau Kriol / um corpus do Kriol da Guiné-Bissau - CoKri Corpus
Corpus Almeida - European Portuguese / French Corpus
Corpus Angolar Corpus
Corpus C-ORAL-ROM Corpus
Corpus CCF Corpus
Corpus CINTIL Corpus
Corpus de Português de Cabo Verde Corpus
Corpus de Português do Sri Lanka Corpus
Corpus de Referência do Português Contemporâneo - CRPC Corpus
Corpus de Textos Literários - LT Corpus Corpus
Corpus do Parlamento Português anotado com POS - PTPARL Corpus
Corpus Fadambo Corpus
Corpus Leiria (1991) Corpus
Corpus Online de Escrita e Fala de Crianças nos Primeiros Anos de Escolaridade - EFFE-On Corpus
Corpus PESTRA Corpus
Corpus Português Fundamental - Corpus PF Corpus
Corpus Principense Corpus
Corpus REDIP Corpus
Corpus Santome Corpus
Corpus SANTOS - Português Europeu Corpus
Crosslinguistic Child Phonology Project - Português Europeu - CLCP-PE Ferramenta
Dados Orais de Cabo Verde - CV Words Base de dados
Demo de Subespecificação e Desambiguação de Escopo Ferramenta
Dicionário de Hindi-Português-Hindi Base de dados
Discurso Informal de Lisboa e Braga - DILeB Corpus
Diu Indo-Portuguese Data Set Base de dados
Interacção Pessoa-Máquina em Linguagem Natural - INQUER Base de dados
Learner Corpus of Portuguese L2 - COPLE2 Corpus
Léxico de modalidade - MODAL-LEX-PT Léxico
Léxico Multifuncional Computorizado do Português Contemporâneo Léxico
NPChunks: Corpus of 1000 sentences annotated with PoS and nominal chunks - NPChunks Corpus
Online Dictionary Portuguese-Slovak/Slovak-Portuguese Base de dados
Pereira&Freitas - EP Corpus
PhonoDis Corpus
Português Controlado - CLG Base de dados
Português Falado - Variedades Geográficas e Sociais Corpus
Portuguese Corpus Annotated for Modality - MODAL Corpus
Portuguese Lexicon of Discourse Markers - LDM-PT Léxico
Portuguese Technical Lexica - LEXTEC Léxico
Ramalho – EP Corpus
Recolha de dados de PLE Corpus
Reconhecedor de Entidades Nomeadas - CRPC-NER Ferramenta
Santome Structure Dataset Base de dados
Spoken Corpus Mozambique 1986-87 - SCM Corpus
Tarefas de Consciência Fonológica para Crianças do 1.º Ciclo do Ensino Básico - TCFC Ferramenta
Tarefas de produção orais e escritas de sequências consonânticas - PORESC Ferramenta
Unidades Lexicais Multipalavra Nominais em Português Europeu Léxico
Vocativos em Português Europeu Corpus
Word Combination in European Portuguese - LEX-MWE-PT Léxico
WordNet.PT Léxico
Recensão Crítica
Hagemeijer, T. (2020). Negation and negative concord: The view from creoles. (V. Déprez & Henri, F., Eds.), Journal of Pidgin and Creole Languages. Amsterdam / Philadelphia: John Benjamins Publishing Company.
Hagemeijer, T. (2010). Review of Maurer, Philippe. Principense. Grammar, Texts, And Vocabulary Of The Afro-Portuguese Creole Of The Island Of Príncipe, Gulf Of Guinea. London: Battlebridge Publications. Journal Of Language Contact: Varia.
Artigo em Atas
Costa, T., Freitas, M. J., Frota, S., Martins, F., & Vigário, M. (2007). Sobre o PA na periferia esquerda da palavra. In Textos seleccionados (pp. 315-328). XXII Encontro Nacional da Associação Portuguesa de Linguística. Lisboa: APL.
Freitas, M. J., Frota, S., Vigário, M., & Martins, F. (2006). Efeitos prosódicos e efeitos de frequência no desenvolvimento silábico em Português Europeu. In Textos seleccionados (pp. 397-412). XXI Encontro Nacional da Associação Portuguesa de Linguística, org. F. Oliveira & J. Barbosa. Lisboa: APL.
Vigário, M., Frota, S., & Freitas, M. J. (2003). From signal to grammar: Rhythm and the acquisition of syllable structure. In Proceedings of the 27th Annual Boston University Conference on Language Development (pp. 809-821). Dommerville, Massachusetts: Cascadilla Press.
Ávila, L. B., Mendes, A., & Hendrickx, I. (2015). Towards a Unified Approach to Modality Annotation in Portuguese. In Proceedings of the IWCS Workshop on Models for Modality Annotation (MOMA 2015), Association for Computational Linguistics (Vol. 14, pp. 1-8). (Original work published apr)
Brito, J. A., Matos, G., & Pratas, F. (2015). Commitative Coordination in Capeverdean. In Selected Proceedings of 44th Annual Conference on African Linguistics-ACAL 44. (Kramer, R; Zsiga, L.; Boyer, O., pp. 17-27). Somerville, MA: Cascadilha Press. (Original work published 2015)
Cabarrão, V., Moniz, H., Ferreira, J., Batista, F., Trancoso, I., Mata, A. I., & Curto, S. (2015). Prosodic classification of discourse markers. In Proceedings of the 18th International Congress of Phonetic Sciences. The Scottish Consortium for ICPhS 2015, Glasgow, UK: University of Glasgow. Retrieved from http://www.icphs2015.info/pdfs/Papers/ICPHS0634.pdf
Duarte, I., Santos, A. L., & Abalada, S. (2015). Periferias esquerda e direita: assimetrias. In XXX Encontro Nacional da Associação Portuguesa de Linguística. Textos Seleccionados (António Moreno, Fátima Silva & João Veloso, pp. 229-246). Braga: Edições Colibri/APL.
Lejeune, P. (2015). Traducir el sintagma nominal sujeto escueto del inglés: casos del español y del francês. In Actas del VI Congreso Internacional de la Asociación Ibérica de Estudios de Traducción e Interpretación, Servicio de Publicaciones de la Universidad de las Palmas de Gran Canaria (CdRom) (J. Amigo Extremera).
Necsulescu, S., Mendes, S., Jurgens, D., Bel, N., & Navigli, R. (2015). Reading between the lines: Overcoming data sparsity for accurate classification of lexical relationships. In Proceedings of the 4th Joint Conference on Lexical and Computational Semantics – *SEM 2015 (pp. 182-192). Denver, Colorado, EUA.
Ramalho, A. M., Almeida, L., & Freitas, M. J. (2015). Adaptação ao Português Europeu de um instrumento interlinguístico de avaliação fonológica: CLCP-PE. In XXX Encontro Nacional da Associação Portuguesa de Linguística. Textos Selecionados (A. Moreno, F. Silva & J. Veloso, pp. 463-472). Porto: APL.
Santos, A. L., Gonçalves, A., & Hyams, N. (2015). Aspects of the acquisition of object control and ECM-type verbs in EP. In Language Acquisition and Development. Proceedings of GALA 2013 (C. Hamann & E. Ruigendijk, pp. 403-415). Newcastle upon Tyne: Cambridge Scholars Publishing.
Santos, A. L., Freitas, M. J., & Cardoso, A. (2015). CEPLEXicon – um Léxico de Aquisição do Português Europeu. In XXX Encontro da Associação Portuguesa de Linguística. Textos Seleccionados (A. Moreno, F. Silva & J. Veloso, pp. 505-511). Porto: APL.
Cabarrão, V., Mata, A. I., & Trancoso, I. (2016). Affirmative constituents in European Portuguese dialogues: prosodic and pragmatic properties. In Proceedings Speech Prosody 2016, Boston (pp. 634-638). Boston.
Lejeune, P., Mendes, A., & Martins, N. (2016). Some considerations on the use of main verbs to express rhetorical relations. In L. Degand, Dér, C., Furkó, P., & Webber, B. (Eds.), Conference Handbook of TextLink – Structuring Discourse in Multilingual Europe Second Action Conference (pp. 11-14). Budapest: Debrecen University Press. (Original work published apr)
Mendes, A., & Lejeune, P. (2016). LDM-PT. A Portuguese Lexicon of Discourse Markers". In L. Degand, Dér, C., Furkó, P., & Webber, B. (Eds.), Conference Handbook of TextLink – Structuring Discourse in Multilingual Europe Second Action Conference (pp. 11-14). Budapest: Debrecen University Press. (Original work published apr)
Mendes, A., Antunes, S., Janssen, M., & Gonçalves, A. (2016). The COPLE2 Corpus: a Learner Corpus for Portuguese. In Proceedings of the 10th International Conference on Language Resources and Evaluation, LREC 2016, 23-28 may 2016, Portorož, Slovenia (pp. 3207-3214).
del Río, I., Antunes, S., Mendes, A., & Janssen, M. (2016). Towards error annotation in a learner corpus for Portuguese. In Proceedings of Joint 5th NLP4CALL and 1st NLP4LA, SLTC2016. (Original work published nov)
Rodrigues, C., Martins, F., & Brissos, F. (2016). Investigação interdisciplinar em fonética forense: estudo de caso de identidade e disfarce de voz. In Actas da II Conferência do Instituto Medicina Legal e Ciências Forenses, 29-30 de Setembro 2015, Coimbra (Vol. 2015, pp. 60-61).
Santos, A. L., Freitas, M. J., & Cardoso, A. (2016). CEPLEXicon – A Lexicon of Child European Portuguese. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), May 23-28, Portorož, Slovenia (Calzolari, N. and K. Choukri and T. Declerck and S. Goggi and M. Grobelnik and B. Maegaard and J. Mariani and H. Mazo and A. Moreno and J. Odijk and S. Piperidis).
Sequeira, J., Gonçalves, T., Quaresma, P., Mendes, A., & Hendrickx, I. (2016). Using syntactic and semantic features for classifying modal values in the Portuguese language. In Proceedings of CICLing-16, 17th international Conference on Intelligent Text Processing and Computational Linguistics. Lecture Notes in Computer Science. Springer.
Comparin, L., & Mendes, S. (2017). Using error annotation to evaluate machine translation and human post-editing in a business environment. In 20th Annual Conference of the European Association for Machine Translation – EAMT 2017 (pp. 68-73). Praga, República Checa. Retrieved from https://pdfs.semanticscholar.org/c9d2/8db57b3cedfd75a2fe694dcc59ba8caf7029.pdf
Comparin, L., & Mendes, S. (2017). Error detection and error correction for improving quality in machine translation and human post-editing. In 20th International Conference on Intelligent Text Processing and Computational Linguistics – CICLing 2017, reprinted in International Journal of Computer Applications. Retrieved from https://repositorio.ul.pt/bitstream/10451/33007/1/error%20detection_Comparin%26Mendes2017.pdf
Mendes, A., Antunes, S., & Quaresma, P. (2017). The Annotation Coreference Task at IberEval’2017: The experience of CLUL/UE. In Proceedings of the Second Workshop on Evaluation of Human Language Technologies for Iberian Languages (IberEval’2017), co-located with 33rd Conference of the Spanish Society for Natural Language Processing (SEPLN 2017). Murcia, Spain.
Quaresma, P., Mendes, A., Hendrickx, I., & Gonçalves, T. (2014). Tagging and Labeling Portuguese Modal Verbs. In J. Baptista & Mamede, N. (Eds.), PROPOR 2014 - LNCS 3960. Springer-Verlag. (Original work published oct)
Antunes, S., & Mendes, A. (2014). An Evaluation of the Role of Statistical Measures and Frequency for MWE Identification. In Proceedings of the Ninth International Conference on Language Resources and Evaluation – LREC’14, May 26-31, Reykjavik, Iceland (pp. 4046-4051).
Hagemeijer, T., Généreux, M., Hendrickx, I., Mendes, A., Tiny, A., & Zamora, A. (2014). The Gulf of Guinea Creole Corpora. In Proceedings of the Ninth International Conference on Language Resources and Evaluation – LREC’14, May 26-31, Reykjavik, Iceland (pp. 523-529).
Quaresma, P., Mendes, A., Hendrickx, I., & Gonçalves, T. (2014). Automatic tagging of modality: identifying triggers and modal values. In H. Bunt (Ed.), Proceedings 10th Joint ISO - ACL SIGSEM Workshop on Interoperable Semantic Annotation (pp. 95-101).
Généreux, M., Mendes, A., & Hamon, T. (2013). Experiments in synonymy: weakly supervised term matching to concepts. In Proceedings of the 10th International Conference on Terminology and Artificial Intelligence (pp. 181-184). (Original work published oct)