en | fr | es | gl
|
Equipo
|
Contacto

Sobre PaFreS


O Corpus Paralelo Francés/Español, PaFreS, forma parte dun proxecto máis amplo, PaCorES, Parallel Corpora Spanish, que desenvolve corpus paralelos bilingües co español como lingua central. Até o momento, realizaronse dous corpus: alemán/español (www.corpuspages.eu), inglés/español (www.corpuspaens.eu) e este mesmo.

O corpus PaFreS está composto por textos orixinais en francés ou español e as súas traducións ou tamén por traducións francesas e españolas dunha terceira lingua. Actualmente, PaFreS contén arredor de 3.000.000 de tokens, segmentados en 58.000 bisegmentos, isto é, pares de unidades textuais alineadas a nivel oracional ou suboracional.

Con este corpus preténdese construír un recurso lingüístico multifuncional e representativo para o par de linguas francés/español, capaz de satisfacer necesidades diferenciadas dos usuarios e que poida ser explotado para múltiples propósitos, tales como investigación xeral en lingüística contrastiva, tipoloxía lingüística, estudos de tradución e lexicografía bilingüe, así como fornecer datos para o adestramento de sistemas de tradución automática.

O obxectivo primordial do corpus PaFreS é constituírse nunha ferramenta útil e fácil de usar para tradutores e estudantes de francés ou español como lingua estranxeira de nivel intermedio e avanzado. Con este recurso poden obter multitude de suxestións de tradución realizadas por humanos e presentadas en exemplos de uso real.

Actualmente inclúe as seguintes coleccións:

  1. Unha Colección de 12 libros de literatura clásica, 5 deles orixinais en francés y 7 en inglés.
  2. Brontë, Charlotte (1847): Jane Eyre.
               [Jane Eyre.  Tradución: András Farkas]
               Revisión do alineado: I. Doval. [32001]

    Carroll, Lewis (1865): Alice's Adventures in Wonderland.
               [Alice au pays des merveilles.  Tradución: András Farkas]
               Revisión do alineado: I. Doval. [32002]

    Defoe, Daniel (1719): Robinson Crusoe.
               [Robinson Crusoe.  Tradución: András Farkas]
               Revisión do alineado: I. Doval. [32003]

    Doyle, Arthur Conan (1902): The Hound of the Baskervilles.
               [Le Chien des Baskerville.  Tradución: András Farkas]
               Revisión do alineado: I. Doval. [32004]

    Doyle, Arthur Conan (1887): A Study in Scarlet.
               [Une étude en rouge.  Tradución: András Farkas]
               Revisión do alineado: I. Doval. [32005]

    Poe, Edgar Allan (1839): The Fall of the House of Usher.
               [La chute de la maison Usher.  Tradución: András Farkas]
               Revisión do alineado: I. Doval. [32006]

    Wilde, Oscar (1890): The Picture of Dorian Gray.
               [Le Portrait de Dorian Gray.  Tradución: András Farkas]
               Revisión do alineado: I. Doval. [32007]

    Dumas, Alexandre (1844): Les Trois Mousquetaires.
               [Los tres mosqueteros.  Tradución: András Farkas]
               Revisión do alineado: I. Doval. [32008]

    Verne, Jules (1870): Vingt mille lieues sous les mers.
               [Veinte mil leguas de viaje submarino.  Tradución: András Farkas]
               Revisión do alineado: I. Doval. [32009]

    Verne, Jules (1875): L'île mystérieuse.
               [La isla misteriosa.  Tradución: András Farkas]
               Revisión do alineado: I. Doval. [32010]

    Verne, Jules (1759): Le Tour du monde en quatre-vingts jours.
               [La vuelta al mundo en 80 días.  Tradución: András Farkas]
               Revisión do alineado: I. Doval. [32011]

    Voltaire (1759): Candide, ou l'Optimisme Candide, ou l'Optimisme.
               [Cándido o el optimismo.  Tradución: András Farkas]
               Revisión do alineado: I. Doval. [32012]

  3. Europarl v7, un corpus das actas (Verbatim reports) do Parlamento Europeo de 1996 a 2011.
  4. Ted-Talks, un corpus que recolle as traduccións ao francés e ao español de 2008 transcripciones de Ted-Talks de los años 2006 a 2016.
  5. Global-Voices un corpus de 2362 textos escritos por unha comunidade internacional, multilingüe e maiormente voluntaria de escritores, traductores, académicos e activistas de dereitos humanos.

Dado que se trata dun proxecto en curso, está previsto no futuro engadir novas coleccións de textos bilingües de orixe diverso.

Aviso:

Se empregas PaFreS nos teus traballos, por favor indícao e comunícanoslo a: corpus.pafres@usc.es. Así contribuyes a la sostenibilidad del proyecto.

Estatísticas PaFreS (Noviembre 2023)


COLECCIÓN IDIOMA TOKENS PALABRAS MSTTRATIO* BISEGMENTOS
Literatura   Francés 1.399.200 1.151.212 0,545 57.733
Español 1.282.476 1.106.637 0,537
Europarl v7   Francés 59.651.196 51.954.734 0,496 1.944.439
Español 53.583.854 48.664.574 0,482
TED-Talks   Francés 5.197.553 4.332.950 0,496 254.222
Español 4.686.514 4.062.259 0,504
Global Voices   Francés 1.179.414 1.016.690 0,539 50.270
Español 1.097.488 985.542 0,553
Total   Francés 67.427.363 58.455.586 0,523 2.306.664
Español 60.650.332 54.819.012 0,515

*MSTTR é a TTR (relación Tipo/Token, polas súas siglas en inglés) media para cada segmento non superposto de tamaño igual (neste caso, 1000 tokens).

                                                    
PaFreS Vers. 1.0
Derradeira actualización : 15.04.2023
©PaCorES
Creative Commons Licencia Creative Commons
Universidade de Santiago de Compostela
Este proxecto está financiado pola Axencia Estatal de Investigación do Ministerio de Ciencia, Innovación e Universidades (PID2021-125313OB-I00).