O CRPC-DB é um banco do discurso para o português, anotado de acordo com o esquema do Penn Discourse Treebank - PDTB (Prasad et al., 2008). O corpus está anotado com relações discursivas (ou relações retóricas ou relações de coerência), tais como causa e condição, que ligam dois segmentos de texto e contribuem para a coesão e coerência. O esquema segue os princípios de anotação do PDTB 2.0 e a hierarquia de sentidos do PDTB 3.0 (Webber et al., 2016). O corpus é constituído por 319 textos do corpus PAROLE, um subconjunto do Corpus de Referência do Português Contemporâneo - CRPC (Généreux et al., 2012). Estão incluídos textos de jornal, textos didático-científicos e textos literários.
O CRPC-DB inclui relações discursivas intra e interfrásicas. Uma relação discursiva é considerada Explícita quando ocorre um conetor que denota o sentido da relação. Quando existem outros elementos com função semelhante à dos conetores, a relação é de tipo Lexicalização Alternativa (AltLex), como por exemplo "a razão é que" ou "um exemplo disso é". Quando não ocorre um conetor ou uma lexicalização alternativa, a relação é anotada como Implícita e o anotador propõe um conetor que expressa o sentido da relação. Uma relação é anotada como EntRel quando o segundo segmento da relação desenvolve uma entidade introduzida no primeiro segmento. Finalmente, quando não existe relação, os dois segmentos são marcados com a relação NoRel. Cada relação do tipo Explícito, AltLex e Implícito, é etiquetada com um sentido, identificado a partir da hierarquia de 3 níveis do PDTB 3.0. O conjunto de sentidos está organizado em 4 sentidos de primeiro nível: Temporal, Contingência, Comparação e Expansão
Referências
Généreux, M., Hendrickx, I., and Mendes, A. (2012). Introducing the reference corpus of contemporary portuguese on-line. In Nicoletta Calzolari, et al., editors, LREC’2012 – Eighth International Conference on Language Resources and Evaluation, pages 2237–2244, Istanbul,Turkey, May. European Language Resources Association (ELRA).
Prasad, R., Dinesh, N., Lee, A., Miltsakaki, E., Robaldo, L., Joshi, A. K., and Webber, B. L. (2008). The Penn Discourse Treebank 2.0. In LREC2008.
Webber, B., Prasad, R., Lee, A., and Joshi, A. (2016). A discourse-annotated corpus of conjoined VPs. In Proceedings of the 10th Linguistics Annotation Workshop, pages 22–31.