Sobre PaFreS

El Corpus Paralelo Francés/Español, PaFreS, forma parte de un proyecto más amplio, PaCorES, Parallel Corpora Spanish, que desarrolla corpus paralelos bilingüs con el español como lengua central. Hasta el momento, se han realizado dos corpus: alemán/español (www.corpuspages.eu), el inglés/español (www.corpuspaens.eu) y éste mismo.

El corpus PaFreS está compuesto por textos originales en francés o español y su traducción o bien por traducciones francesas y españolas de una tercera lengua. Actualmente PaFreS contiene unos 3.000.000 de tokens, segmentados en 58.000 bisegmentos, esto es pares de unidades textuales alineadas a nivel oracional o suboracional.

Con este corpus se pretende construir un recurso lingüístico multifuncional y representativo para el par de lenguas francés / español, capaz de satisfacer necesidades diferenciadas de los usuarios y que pueda ser explotado para múltiples propósitos, tales como la investigación general en lingüística contrastiva, la tipología lingüística, estudios de traducción y lexicografía bilingüe, así como suministrar datos para el entrenamiento de sistemas de traducción automática.

Objetivo primordial del corpus PaFreS es constituirse en una herramienta útil y fácil de usar para traductores y estudiantes de francés o español como lengua extranjera de nivel intermedio y avanzado. Con este recurso pueden obtener multitud de sugerencias de traducción realizadas por humanos y presentadas en ejemplos de uso real.

Actualmente incluye las siguientes colecciones:

Una Colección de 12 libros de literatura clásica, 5 de ellos originales en francés y 7 en inglés.

Brontë, Charlotte (1847): Jane Eyre.
[Jane Eyre. Traducción: András Farkas]
Revisión del alineado: I. Doval. [32001]

Carroll, Lewis (1865): Alice's Adventures in Wonderland.
[Alice au pays des merveilles. Traducción: András Farkas]
Revisión del alineado: I. Doval. [32002]

Defoe, Daniel (1719): Robinson Crusoe.
[Robinson Crusoe. Traducción: András Farkas]
Revisión del alineado: I. Doval. [32003]

Doyle, Arthur Conan (1902): The Hound of the Baskervilles.
[Le Chien des Baskerville. Traducción: András Farkas]
Revisión del alineado: I. Doval. [32004]

Doyle, Arthur Conan (1887): A Study in Scarlet.
[Une étude en rouge. Traducción: András Farkas]
Revisión del alineado: I. Doval. [32005]

Poe, Edgar Allan (1839): The Fall of the House of Usher.
[La chute de la maison Usher. Traducción: András Farkas]
Revisión del alineado: I. Doval. [32006]

Wilde, Oscar (1890): The Picture of Dorian Gray.
[Le Portrait de Dorian Gray. Traducción: András Farkas]
Revisión del alineado: I. Doval. [32007]

Dumas, Alexandre (1844): Les Trois Mousquetaires.
[Los tres mosqueteros. Traducción: András Farkas]
Revisión del alineado: I. Doval. [32008]

Verne, Jules (1870): Vingt mille lieues sous les mers.
[Veinte mil leguas de viaje submarino. Traducción: András Farkas]
Revisión del alineado: I. Doval. [32009]

Verne, Jules (1875): L'île mystérieuse.
[La isla misteriosa. Traducción: András Farkas]
Revisión del alineado: I. Doval. [32010]

Verne, Jules (1759): Le Tour du monde en quatre-vingts jours.
[La vuelta al mundo en 80 días. Traducción: András Farkas]
Revisión del alineado: I. Doval. [32011]

Voltaire (1759): Candide, ou l'Optimisme Candide, ou l'Optimisme.
[Cándido o el optimismo. Traducción: András Farkas]
Revisión del alineado: I. Doval. [32012]

Europarl v7, un corpus de las actas (Verbatim reports) del Parlamento Europeo de 1996 a 2011.
Ted-Talks, un corpus que recoge las traducciones al francés y al español de 2008 transcripciones de Ted-Talks de los años 2006 a 2016.
Global-Voices un corpus de 2362 textos escritos por una comunidad internacional, multilingüe y mayormente voluntaria de escritores, traductores, académicos y activistas de derechos humanos.

Dado que se trata de un proyecto en curso, está previsto en el futuro añadir nuevas colecciones de textos bilingües de origen diverso.

Aviso:

Si utilizas PaFreS en tus trabajos, por favor indícalo y comunícanoslo a: corpus.pafres@usc.es. Así contribuyes a la sostenibilidad del proyecto.

Estadísticas PaFreS (Noviembre 2023)

COLECCIÓN	IDIOMA	TOKENS	PALABRAS	MSTTRATIO*	BISEGMENTOS
Literatura	Francés	1.399.200	1.151.212	0,545	57.733
Literatura	Español	1.282.476	1.106.637	0,537	57.733
Europarl v7	Francés	59.651.196	51.954.734	0,496	1.944.439
Europarl v7	Español	53.583.854	48.664.574	0,482	1.944.439
TED-Talks	Francés	5.197.553	4.332.950	0,496	254.222
TED-Talks	Español	4.686.514	4.062.259	0,504	254.222
Global Voices	Francés	1.179.414	1.016.690	0,539	50.270
Global Voices	Español	1.097.488	985.542	0,553	50.270
Total	Francés	67.427.363	58.455.586	0,523	2.306.664
Total	Español	60.650.332	54.819.012	0,515	2.306.664

*MSTTR es la TTR (relación Tipo/Token, por sus siglas en inglés) promedio para cada segmento no superpuesto de igual tamaño (en este caso, 1000 tokens).