Gramática & Recursos

Este grupo centra-se na modelação do conhecimento linguístico integrando conhecimento sobre interfaces entre diferentes áreas da gramática e conhecimento sobre o uso da língua. O grupo tem como característica distintiva o trabalho conjunto nas áreas da fonologia, do léxico, da sintaxe e da semântica, com o objetivo de construir um modelo integrado de gramática, considerando a forma como o conhecimento linguístico é representado na mente humana, bem como a forma como esse conhecimento poderá ser modelado computacionalmente; o trabalho sobre a aquisição de L1 e L2 está naturalmente no centro deste programa de investigação. A integração de modelos de representação do conhecimento linguístico e de modelos de uso da língua é conseguida através do estudo de corpora.

A produção de corpora e recursos em geral serve ainda o objetivo do grupo de produzir documentação e descrições do português europeu contemporâneo, bem como de línguas menos estudadas que resultam de contacto linguístico (crioulos de base lexical portuguesa, variedades nacionais do português em África e na Ásia). O grupo produz ainda recursos para o estudo da aquisição do português como L1 e como L2 em diferentes situações de aquisição. O grupo integra o CLARIN LP.

A investigação desenvolvida por vários membros do grupo na área da aquisição de L1 e L2 contribui diretamente para o objetivo geral do CLUL de articulação entre investigação fundamental e aplicada, nomeadamente nas áreas da Linguística Educacional e da Linguística Clínica.

São, atualmente, grandes objetivos do grupo:

- Produzir novos recursos para o estudo do português e de crioulos de base lexical portuguesa;

- Continuar investigação fundamental que visa a modelação do conhecimento linguístico, integrando conhecimento sobre interfaces internas à gramática;

- Continuar a documentação e descrição de crioulos e novas variedades do português que emergiram em situação de contacto de línguas;

- Desenvolver o estudo da aquisição do português, dando especial atenção a situações de contacto linguístico (no âmbito do recente Heritage Language Consortium) e à comparação entre desenvolvimento típico e atípico;

- Explorar a potencialidade da linguística comparada para a produção de recursos para a tradução e promover, na mesma área, ligações à indústria.

Recursos Tipo
A Lexicon of Child European Portuguese - CEPLEXicon Léxico
Acquisition of European Portuguese Databank - AcEP Base de dados
Banco do Discurso para o português - CRPC-DB Corpus
Base de dados de citações - CRPC-quotations Base de dados
Base de Dados para a Identificação do Português Língua Nativa - NLI-PT Base de dados
Biografias de personalidades portuguesas - Bio-PT Base de dados
Child-Adult Interaction Corpus - CAI Corpus
Child-Adult interaction European Portuguese Base de dados
CoKri: a corpus of Guinea-Bissau Kriol / um corpus do Kriol da Guiné-Bissau - CoKri Corpus
Corpus Almeida - European Portuguese / French Corpus
Corpus Angolar Corpus
Corpus C-ORAL-ROM Corpus
Corpus CCF Corpus
Corpus CINTIL Corpus
Corpus de Português de Cabo Verde Corpus
Corpus de Português do Sri Lanka Corpus
Corpus de Referência do Português Contemporâneo - CRPC Corpus
Corpus de Textos Literários - LT Corpus Corpus
Corpus do Parlamento Português anotado com POS - PTPARL Corpus
Corpus Fadambo Corpus
Corpus Leiria (1991) Corpus
Corpus Online de Escrita e Fala de Crianças nos Primeiros Anos de Escolaridade - EFFE-On Corpus
Corpus PESTRA Corpus
Corpus Português Fundamental - Corpus PF Corpus
Corpus Principense Corpus
Corpus REDIP Corpus
Corpus Santome Corpus
Corpus SANTOS - Português Europeu Corpus
Crosslinguistic Child Phonology Project - Português Europeu - CLCP-PE Ferramenta
Dados Orais de Cabo Verde - CV Words Base de dados
Demo de Subespecificação e Desambiguação de Escopo Ferramenta
Dicionário de Hindi-Português-Hindi Base de dados
Discurso Informal de Lisboa e Braga - DILeB Corpus
Diu Indo-Portuguese Data Set Base de dados
Interacção Pessoa-Máquina em Linguagem Natural - INQUER Base de dados
Learner Corpus of Portuguese L2 - COPLE2 Corpus
Léxico de modalidade - MODAL-LEX-PT Léxico
Léxico Multifuncional Computorizado do Português Contemporâneo Léxico
NPChunks: Corpus of 1000 sentences annotated with PoS and nominal chunks - NPChunks Corpus
Online Dictionary Portuguese-Slovak/Slovak-Portuguese Base de dados
Pereira&Freitas - EP Corpus
PhonoDis Corpus
Português Controlado - CLG Base de dados
Português Falado - Variedades Geográficas e Sociais Corpus
Portuguese Corpus Annotated for Modality - MODAL Corpus
Portuguese Lexicon of Discourse Markers - LDM-PT Léxico
Portuguese Technical Lexica - LEXTEC Léxico
Ramalho – EP Corpus
Recolha de dados de PLE Corpus
Reconhecedor de Entidades Nomeadas - CRPC-NER Ferramenta
Santome Structure Dataset Base de dados
Spoken Corpus Mozambique 1986-87 - SCM Corpus
Tarefas de Consciência Fonológica para Crianças do 1.º Ciclo do Ensino Básico - TCFC Ferramenta
Tarefas de produção orais e escritas de sequências consonânticas - PORESC Ferramenta
Unidades Lexicais Multipalavra Nominais em Português Europeu Léxico
Vocativos em Português Europeu Corpus
Word Combination in European Portuguese - LEX-MWE-PT Léxico
WordNet.PT Léxico
Artigo em Atas
Généreux, M., Mendes, A., & Hamon, T. (2013). Experiments in synonymy: weakly supervised term matching to concepts. In Proceedings of the 10th International Conference on Terminology and Artificial Intelligence (pp. 181-184). (Original work published oct)
Antunes, S., & Mendes, A. (2013). MWE in Portuguese: proposal for a typology for annotation in running text. In The 9th Workshop on Multiword Expressions (MWE 2013), Workshop at NAACL 2013. (Original work published jun)
Mendes, A., Hendrickx, I., Salgueiro, A., & Ávila, L. (2013). Annotating the Interaction between Modality and Focus: the case of exclusive particles. In Proceedings of the 7th Linguistic Annotation Workshop and Interoperability with Discourse (LAW VII), Association for Computational Linguistics, August 8-9 2013, Sofia, Bulgaria (pp. 228-237).
Mendes, A., Généreux, M., Hendrickx, I., Pereira, L., Bacelar do Nascimento, M. F., & Antunes, S. (2012). CQPWeb: Uma nova plataforma de pesquisa para o CRPC. In A. L. Costa, Flores, C., & Alexandre, N. (Eds.), XXVII Encontro Nacional da Associação Portuguesa de Linguística. Textos Seleccionados 2011. Lisboa: APL.
Hendrickx, I., Mendes, A., & Mencarelli, S. (2012). Modality in Text: a proposal for corpus annotation. In Proceedings of the Eighth International Conference on Language Resources and Evaluation - LREC 2012, May 21-27 2012, Istanbul (pp. 1805-1812).
Généreux, M., Hendrickx, I., & Mendes, A. (2012). Introducing the Reference Corpus of Contemporary Portuguese On-Line. In Proceedings of the Eighth International Conference on Language Resources and Evaluation - LREC 2012, May 21-27 2012, Istanbul (pp. 2237-2244).
Généreux, M., Hendrickx, I., & Mendes, A. (2012). A Large Portuguese Corpus On-Line : Cleaning and Preprocessing. In Computational Processing of the Portuguese Language. Proceedings of the 10th International Conference PROPOR1012 (H. Caseli et al., pp. 113-120). Berlin, Heidelberg: Springer-Verlag.
Miguel, M., Mendes, A., & Mota, M. A. (2012). Fenómenos de concordância em variedades do português: construções com verbos copulativos e com verbos transitivos predicativos. In La lengua, lugar de encuentro, Actas del XVI Congresso Internacional de la ALFAL (Cestero Mancera, A. M., I. M. Martos, F. P. Garcia).
Hendrickx, I., Mendes, A., Pereira, S., Gonçalves, A., & Duarte, I. (2010). Complex Predicates annotation in a corpus of Portuguese. In Proceedings of the fourth Linguistic Annotation Workshop (LAW IV), Association for Computational Linguistics, Uppsala, Sweden (pp. 100-108).
Hendrickx, I., Mendes, A., & Antunes, S. (2010). Proposal for Multi-word Expression annotation in running text. In Proceedings of the fourth Linguistic Annotation Workshop (LAW IV), Association for Computational Linguistics, Uppsala, Sweden (pp. 152-156).
Généreux, M., Mendes, A., Bacelar do Nascimento, M. F., & Pereira, L. (2010). Lexical analysis of pre and post revolution discourse in Portugal. In Proceedings of the Third Workshop on Building Comparable Corpora, 7th International Conference on Language Resources and Evaluation (LREC 2010), Malta.
Gonçalves, A., Oliveira, F., Miguel, M., Mendes, A., Cunha, L. F., Silvano, P., et al. (2010). Propriedades Predicativas dos Verbos Leves Dar, Ter e Fazer: Estrutura Argumental e Eventiva. In P. C. López, Ansoar, S. C., Quiroga, B. D., López, I. F., & Varela, L. Z. (Eds.), Actas del XXXIX Simpósio de la Sociedad Española de Lingüística. Santiago de Compostela: Unidixital (CD-Rom).
Mendes, A., & Pereira, S. (2010). Anotação de predicados complexos num corpus de português. In Actas del XXXIX Simpósio de la Sociedad Española de Lingüística (P. C. López, S. C. Ansoar, B. D. Quiroga, I. F. López, L. Z. Varela). Santiago de Compostela: Unidixital (CD-Rom).
Duarte, I., Colaço, M., Gonçalves, A., Mendes, A., & Miguel, M. (2009). Predicados complexos do tipo "verbo leve-nome derivado": uma análise baseada em corpora. In D. da Hora (Ed.), Anais do VI Congresso Internacional da Abralin (D. da Hora, pp. 1858-1867). Idéia.
Mendes, A., Bacelar do Nascimento, M. F., Estrela, A., & Pereira, L. (2008). Corpus annotation and lexical analysis of African varieties of Portuguese. In V. Lyding (Ed.), Proceedings of LULCL II - Lesser Used Languages and Computer Linguistics (V. Lyding, pp. 43-57). Bolzano: Institute for Specialised Communication and Multilingualism.
Bacelar do Nascimento, M. F., Estrela, A., Mendes, A., & Pereira, L. (2008). On the use of comparable corpora of African varieties of Portuguese for linguistic description and teaching/learning applications. In P. Zweigenbaum (Ed.), Proceedings of the Workshop on Building and Using Comparable Corpora. VI Language Resources and Evaluation Conference - LREC2008 (P. Zweigenbaum et al., pp. 39-46). Marrakech.
Barreto, F., Branco, A., Ferreira, E., Mendes, A., Bacelar do Nascimento, M. F., Nunes, F., & Silva, J. R. (2006). Linguistic Resources and Software for Shallow Processing. In F. Oliveira, Barbosa, J., & Oliveira, F. (Eds.), Actas do XXI Encontro Nacional de Linguística (pp. 203-217). Lisboa: Associação Portuguesa de Linguística.
Antunes, S., Bacelar do Nascimento, M. F., Casteleiro, J. M., Mendes, A., Pereira, L., & Sá, T. (2006). A Lexical Database of Portuguese Multiword Expressions. In R. Vieira (Ed.), PROPOR 2006 - LNCS 3960 (pp. 238-243). Berlin: Springer-Verlag.
Barreto, F., Branco, A., Ferreira, E., Mendes, A., Bacelar do Nascimento, M. F., Nunes, F., & Silva, J. R. (2006). Open Resources and Tools for the Shallow Processing of Portuguese: the TagShare project. In Proceedings of the V International Conference on Language Resources and Evaluation - LREC2006, May 22-28 2006, Genoa.
Mendes, A., Antunes, S., Bacelar do Nascimento, M. F., Casteleiro, J. M., Pereira, L., & Sá, T. (2006). COMBINA-PT: a Large Corpus-extracted and Hand-checked Lexical Database of Portuguese Multiword Expressions. In Proceedings of the V International Conference on Language Resources and Evaluation - LREC2006, May 22-28 2006, Genoa.
Antunes, S., Bacelar do Nascimento, M. F., Casteleiro, J. M., Mendes, A., Pereira, L., & Sá, T. (2006). Corpus-based extraction and identification of Portuguese Multiword Expressions. In Actes de la 13eme conférence Traitement Automatique des Langues Naturelles - TALN 2006, April 10-13 2006, Leuven.
Bacelar do Nascimento, M. F., Mendes, A., & Pereira, L. (2004). Providing on-line access to Portuguese language resources: corpora and lexicons. In Proceedings of the IV International Conference on Language Resources and Evaluation - LREC2004, May 26-28 2004, Lisbon, Centro de Cultural de Belém (pp. 1825-1828).
Mendes, A., Amaro, R., & Bacelar do Nascimento, M. F. (2003). Reusing resources for the morphosyntactic annotation of a spoken Portuguese corpus. In A. Branco, Mendes, A., & Ribeiro, R. (Eds.), Tagging and Shallow Processing of Portuguese: workshop notes of TASHA 2003. Lisboa: Departamento de Informática da Faculdade de Ciências da Universidade de Lisboa.
Pereira, L. A. S., & Mendes, A. (2002). An Electronic Dictionary of Collocations for European Portuguese: Methodology, Results and Applications. In Proceedings of the 10th EURALEX International Congress, August 13-17 2002, Copenhagen, Denmark.
Mendes, A. (2002). Uma análise dos verbos psicológicos com base nos dados de um corpus: regularidade, variação e polissemia verbal. In I. M. Duarte, Barbosa, J., Matos, S., & Hüsgen, T. (Eds.), Encontro comemorativo dos 25 anos do Centro de Linguística da Universidade do Porto (Vol. 1, pp. 21-34).
Bacelar do Nascimento, M. F., Mendes, A., & Santos, D. (1993). O corpus e a classificação sintáctica dos verbos. In Actas do Actas do 1º Encontro de Processamento da Língua Portuguesa Escrita e Falada - EPLP 93, Lisboa, INESC, UNINOVA, CLUL (pp. 125-129).
Mendes, A. (1992). A importância de um corpus para a elaboração de um dicionário. In Textes de la Réunion de travail - Texts of the Final Workshop PROTON I-II, September 21-22 1992, Leuven.
Cardoso, A., & Alexandre, N. (2013). Relativas clivadas em variedades não padrão do português. In Textos Selecionados do XVIII ENAPL 2012 (F. Silva, I. Falé & I. Pereira, pp. 205-227). Porto: APL.
Alexandre, N., Gonçalves, R., & Hagemeijer, T. (2011). A formação de frases relativas em português oral de Cabo Verde e de São Tomé. In Textos Seleccionados do XXVI ENAPL 2010 (A. Costa, P. Barbosa & I. Falé, pp. 17-34). Lisboa: APL.
Alexandre, N., & Hagemeijer, T. (2011). Os crioulos da Alta Guiné e do Golfo da Guiné: uma comparação sintáctica. In 7º Congresso Ibérico de Estudos Africanos – CIEA7, painel sobre Línguas crioulas de base portuguesa na África. Lisboa. Retrieved from http://repositorio-iul.iscte.pt/handle/10071/2412"