en | fr | es | gl
|
Equipo
|
Contacto

Sobre PaFreS


El Corpus Paralelo Francés/Español, PaFreS, forma parte de un proyecto más amplio, PaCorES, Parallel Corpora Spanish, que desarrolla corpus paralelos bilingüs con el español como lengua central. Hasta el momento, se han realizado dos corpus: alemán/español (www.corpuspages.eu), el inglés/español (www.corpuspaens.eu) y éste mismo.

El corpus PaFreS está compuesto por textos originales en francés o español y su traducción o bien por traducciones francesas y españolas de una tercera lengua. Actualmente PaFreS contiene unos 3.000.000 de tokens, segmentados en 58.000 bisegmentos, esto es pares de unidades textuales alineadas a nivel oracional o suboracional.

Con este corpus se pretende construir un recurso lingüístico multifuncional y representativo para el par de lenguas francés / español, capaz de satisfacer necesidades diferenciadas de los usuarios y que pueda ser explotado para múltiples propósitos, tales como la investigación general en lingüística contrastiva, la tipología lingüística, estudios de traducción y lexicografía bilingüe, así como suministrar datos para el entrenamiento de sistemas de traducción automática.

Objetivo primordial del corpus PaFreS es constituirse en una herramienta útil y fácil de usar para traductores y estudiantes de francés o español como lengua extranjera de nivel intermedio y avanzado. Con este recurso pueden obtener multitud de sugerencias de traducción realizadas por humanos y presentadas en ejemplos de uso real.

Actualmente incluye las siguientes colecciones:

  1. Una Colección de 12 libros de literatura clásica, 5 de ellos originales en francés y 7 en inglés.
  2. Brontë, Charlotte (1847): Jane Eyre.
               [Jane Eyre.  Traducción: András Farkas]
               Revisión del alineado: I. Doval. [32001]

    Carroll, Lewis (1865): Alice's Adventures in Wonderland.
               [Alice au pays des merveilles.  Traducción: András Farkas]
               Revisión del alineado: I. Doval. [32002]

    Defoe, Daniel (1719): Robinson Crusoe.
               [Robinson Crusoe.  Traducción: András Farkas]
               Revisión del alineado: I. Doval. [32003]

    Doyle, Arthur Conan (1902): The Hound of the Baskervilles.
               [Le Chien des Baskerville.  Traducción: András Farkas]
               Revisión del alineado: I. Doval. [32004]

    Doyle, Arthur Conan (1887): A Study in Scarlet.
               [Une étude en rouge.  Traducción: András Farkas]
               Revisión del alineado: I. Doval. [32005]

    Poe, Edgar Allan (1839): The Fall of the House of Usher.
               [La chute de la maison Usher.  Traducción: András Farkas]
               Revisión del alineado: I. Doval. [32006]

    Wilde, Oscar (1890): The Picture of Dorian Gray.
               [Le Portrait de Dorian Gray.  Traducción: András Farkas]
               Revisión del alineado: I. Doval. [32007]

    Dumas, Alexandre (1844): Les Trois Mousquetaires.
               [Los tres mosqueteros.  Traducción: András Farkas]
               Revisión del alineado: I. Doval. [32008]

    Verne, Jules (1870): Vingt mille lieues sous les mers.
               [Veinte mil leguas de viaje submarino.  Traducción: András Farkas]
               Revisión del alineado: I. Doval. [32009]

    Verne, Jules (1875): L'île mystérieuse.
               [La isla misteriosa.  Traducción: András Farkas]
               Revisión del alineado: I. Doval. [32010]

    Verne, Jules (1759): Le Tour du monde en quatre-vingts jours.
               [La vuelta al mundo en 80 días.  Traducción: András Farkas]
               Revisión del alineado: I. Doval. [32011]

    Voltaire (1759): Candide, ou l'Optimisme Candide, ou l'Optimisme.
               [Cándido o el optimismo.  Traducción: András Farkas]
               Revisión del alineado: I. Doval. [32012]

  3. Europarl v7, un corpus de las actas (Verbatim reports) del Parlamento Europeo de 1996 a 2011.
  4. Ted-Talks, un corpus que recoge las traducciones al francés y al español de 2008 transcripciones de Ted-Talks de los años 2006 a 2016.
  5. Global-Voices un corpus de 2362 textos escritos por una comunidad internacional, multilingüe y mayormente voluntaria de escritores, traductores, académicos y activistas de derechos humanos.

Dado que se trata de un proyecto en curso, está previsto en el futuro añadir nuevas colecciones de textos bilingües de origen diverso.

Aviso:

Si utilizas PaFreS en tus trabajos, por favor indícalo y comunícanoslo a: corpus.pafres@usc.es. Así contribuyes a la sostenibilidad del proyecto.

Estadísticas PaFreS (Noviembre 2023)


COLECCIÓN IDIOMA TOKENS PALABRAS MSTTRATIO* BISEGMENTOS
Literatura   Francés 1.399.200 1.151.212 0,545 57.733
Español 1.282.476 1.106.637 0,537
Europarl v7   Francés 59.651.196 51.954.734 0,496 1.944.439
Español 53.583.854 48.664.574 0,482
TED-Talks   Francés 5.197.553 4.332.950 0,496 254.222
Español 4.686.514 4.062.259 0,504
Global Voices   Francés 1.179.414 1.016.690 0,539 50.270
Español 1.097.488 985.542 0,553
Total   Francés 67.427.363 58.455.586 0,523 2.306.664
Español 60.650.332 54.819.012 0,515

*MSTTR es la TTR (relación Tipo/Token, por sus siglas en inglés) promedio para cada segmento no superpuesto de igual tamaño (en este caso, 1000 tokens).

                                                    
PaFreS Vers. 1.0
Última actualización: 15.04.2023
©PaCorES
Creative Commons Licencia Creative Commons
Universidad de Santiago de Compostela
Este proyecto es financiado por la Agencia Estatal de Investigación del Ministerio de Ciencia, Innovación e Universidades (PID2021-125313OB-I00).