Nota: O corpus "Português Falado", editado em CD-ROM, está agora disponível para download na página do CLUL. As informações e instruções relativas à versão em CD-ROM mantêm-se válidas para os ficheiros descarregados. Cuidados importantes a ter: A cada documento correspondem três ficheiros com o mesmo nome mas extensões diferentes: .txt para o ficheiro de texto; .wav para o ficheiro de som e .dat para o ficheiro de alinhamento. Para que o programa de alinhamento (lingua.exe) funcione, é estritamente necessário que os três ficheiros relacionados se encontrem na mesma directoria. Por isso, aconselha-se os utilizadores a manterem a estrutura de directorias tal como está disponível para download. O programa lingua.exe funciona “apenas” como interface de alinhamento entre texto e som; não serve, por isso, para edição de texto. Se os utilizadores pretenderem, por qualquer razão, editar ou alterar o texto, deverão utilizar qualquer programa de processamento de texto (word, notepad, etc., abrindo o ficheiro .txt através do menu destas aplicações). No caso de os utilizadores efectuarem qualquer alteração ao ficheiro de texto, deverão salvá-lo com um nome diferente ou noutra directoria. Se não o fizerem perdem o alinhamento entre texto e som. Some advices: Each document is encoded in three files, with the same name but different extensions: .txt for the text file; .wav for the sound file and .dat for the alignment file. The alignment software (lingua.exe) works if and only if the three related files are in the same directory. We therefore advise users to maintain the folder structure such as available for download. Lingua.exe is a text to sound alignment tool; it is not a text editor. So, if users intend to edit or change the text, they should use a text processing software (such as word, notepad, etc., opening the .txt file through the menu of the chosen application). If any change in the text file is to be saved, users must save it with a different name or in a different location, otherwise they will loose text to sound alignment. Edição em CD-ROM: Disc 1/4 (Portugal, anos 90) Disc 2/4 (Portugal, anos 70 e 80, Macau, Timor e S. Tomé e Príncipe) Disc 3/4 (Angola, Cabo Verde, Guiné-Bissau e Moçambique) Disc 4/4 (Brasil e Goa) Instruções: Para ouvir um texto, basta abrir o ficheiro (.txt) através do menu File (Open) do programa lingua e em seguida fazer Play (Start/Stop). Pode ouvir-se qualquer parte do texto, seleccionando, através do rato (click no botão esquerdo), essa zona do texto. Português Falado Os materiais constantes destes quatro CD-ROM foram, na sua maior parte, produzidos no âmbito do projecto Português Falado, Variedades Geográficas e Sociais que decorreu ao abrigo dos programas LINGUA e SOCRATES/LINGUA da Comissão Europeia. O projecto, iniciado em 1/1/1995 e terminado em 31/11/1997, foi coordenado pelo CLUL - Centro de Linguística da Universidade de Lisboa (responsáveis: João Malaca Casteleiro e Maria Fernanda Bacelar do Nascimento), e realizado em parceria com as Universidades de Toulouse-le-Mirail (responsável: Paul Rivenc), e de Provence - Aix-Marseille I (responsável: Claire Blanche-Benveniste). Deste projecto resultou um corpus de amostragens de variedades do português falado em Portugal, no Brasil, nos países africanos de língua oficial portuguesa e em Macau. Uma grande parte do corpus assim constituído integra a presente publicação, que contém, ainda, amostragens do português falado em Goa e em Timor-Leste, recolhidas posteriormente. Estas amostragens de discurso oral, gravadas em lugares, datas e situações diversificadas, são acompanhadas das correspondentes transcrições ortográficas alinhadas. A preparação da versão final dos CD-ROM (8h e 44m de gravação e 91.966 palavras gráficas), realizada pelo CLUL, e a sua publicação devem-se, exclusivamente, ao apoio técnico e financeiro do Instituto Camões. Conteúdo dos CD-ROM Estes quatro CD-ROM contêm um corpus de português falado - som e transcrição ortográfica alinhados - recolhido junto de falantes sociolinguisticamente diversificados que têm o português como língua materna ou como língua segunda. O corpus é constituído por 86 gravações, quer de conversas informais entre pessoas conhecidas ou entre amigos e familiares, quer de intervenções mais formais como, por exemplo, as de programas radiofónicos. São textos exemplificativos do português falado em Portugal (30), no Brasil (20), nos países africanos de língua oficial portuguesa: Angola, Cabo Verde, Guiné-Bissau, Moçambique e São Tomé e Príncipe (5 de cada), em Macau (5), em Goa (3) e em Timor-Leste (3). As gravações abrangem um período de tempo que vai de 1970 a 2001, com uma incidência de cerca de 70% na última década. Estes exemplos de variedades do português estão distribuídos pelos quatro CD-ROM da seguinte forma: 1 - Portugal (gravações da década de 90); 2 - Portugal (gravações das décadas de 70 e 80), Macau, São Tomé e Príncipe e Timor-Leste; 3 - Angola, Cabo Verde, Guiné-Bissau e Moçambique; 4 - Brasil e Goa. Intervêm nas gravações 94 falantes. Nos textos escritos, as intervenções do informante são antecedidas do sinal "->". Para cada transcrição há um cabeçalho com dados sobre o informante (sexo, idade, profissão e nível de instrução), com observações sobre o local, a data e a situação em que ocorreu a gravação ou outras informações relevantes. Relativamente a um número pouco significativo de textos, como sejam os retirados de programas radiofónicos, não foi possível obter a caracterização completa dos informantes. Objectivos da publicação É conhecida a escassez de documentos orais autênticos para apoio ao ensino do português; em sua substituição, usam-se, muitas vezes, textos escritos com os quais se pretende, evidentemente sem êxito, simular a oralidade espontânea. De facto, estas representações artificiais não contribuem para melhorar o conhecimento da língua falada pelo que, no intuito de colmatar esta lacuna, se publicam, nestes quatro CD-ROM, textos autênticos recolhidos em situações de comunicação reais e em que participam falantes muito diversificados. São, pois, todos eles, exemplos de variedades e usos atestados do português falado. A transcrição ortográfica dos textos orais pode ser lida em simultâneo com a audição da gravação: uma faixa luminosa vai acompanhando, sobre o texto escrito, a voz dos falantes. O utilizador pode ouvir todo o documento ou seleccionar excertos e pode também avançar ou retroceder no texto sempre que o desejar. A transcrição ortográfica, para além de facilitar a compreensão do oral, constitui uma base consistente para o estudo dos aspectos morfofonológicos, lexicais, sintácticos e discursivos do português falado contemporâneo. A produção destes CD-ROM teve como objectivo principal contribuir para desenvolver a capacidade de compreensão (e também de produção) em estudantes de Português - Língua Estrangeira, de níveis avançado ou superior. A forma como os materiais são apresentados favorece grandemente a utilização de processos de auto-aprendizagem. Importa ainda mencionar que esta colecção de textos, não tendo sido organizada em função de um determinado perfil de utilizador, interessará não só a estudantes e professores, mas, também, entre outros, a investigadores, tradutores e intérpretes, que podem seleccionar e analisar os materiais de acordo com os seus objectivos particulares. Normas de transcrição utilizadas Para a transcrição adoptou-se a ortografia convencional do português europeu. Assim, às formas fonéticas do tipo de "òspois", "falá" (Bras.), corresponde a transcrição ortográfica convencional "ao depois", "falar". As contracções ou truncagens, mesmos as mais frequentes, são também transcritas com a grafia convencional: "tar" - "estar"; "né" - "não é". Quando se considerou pertinente, foram feitos comentários a formas fonéticas do tipo das mencionadas, no campo "Observações" do cabeçalho do texto. Evitou-se o uso de sinais de pontuação e de diacríticos, mas, sempre que facilitavam a compreensão do texto, foram usados com os mesmos valores com que são usados na escrita, em português, tendo, alguns deles, sido utilizados também nos seguintes casos: Vírgula - segue sequências de discuro que foram reformuladas, quer haja ou não pausa entre as sequências: desculpe voltar a incomodá-la por causa da, do tipo de prato - enquadra expressões fáticas ou marcas de hesitação: fizeram, sabe, porque o, a piscina furou, também servia para quando, enfim, eh, se matava porcos Reticências - assinalam uma pausa no discurso quando não há reformulação da estrutura: salgar, e era muito bom, porque... esse líquido sa[...], essa água... salgada Aspas simples - assinalam palavras inexistentes em português ou produzidas noutra língua: depois 'larra', põe numa panela limpa (por "rala") -> 'intra'! (forma crioula de Cabo Verde) Aspas duplas - assinalam títulos de obras: acompanho aquela, uma "Unchained Melody" (título de uma música anglo-saxónica) Para as palavras truncadas (que não foram totalmente pronunciadas ou que não são totalmente compreensíveis), adoptou-se o símbolo [...] a seguir ao troço de palavra produzido/compreendido: es[...]. Usa-se o mesmo símbolo para sequências incompreensíveis, mas, desta vez, entre espaços. Pode corresponder a uma ou mais palavras: as pessoas saíam, [...] acabavam de ter o bebé, O mesmo símbolo, centrado em linha separada, significa que há cortes na gravação. [...] Se o corte da gravação deturpou alguma palavra mas é possível reconstituí-la, a reconstituição é dada dentro de parentesis curvos: dar [...] (con)certos