El Corpus Paralelo Francés/Español, PaFreS, forma parte de un proyecto más amplio, PaCorES, Parallel Corpora Spanish, que desarrolla corpus paralelos bilingüs con el español como lengua central. Hasta el momento, se han realizado dos corpus: alemán/español (www.corpuspages.eu), el inglés/español (www.corpuspaens.eu) y éste mismo.
El corpus PaFreS está compuesto por textos originales en francés o español y su traducción o bien por traducciones francesas y españolas de una tercera lengua. Actualmente PaFreS contiene unos 3.000.000 de tokens, segmentados en 58.000 bisegmentos, esto es pares de unidades textuales alineadas a nivel oracional o suboracional.
Con este corpus se pretende construir un recurso lingüístico multifuncional y representativo para el par de lenguas francés / español, capaz de satisfacer necesidades diferenciadas de los usuarios y que pueda ser explotado para múltiples propósitos, tales como la investigación general en lingüística contrastiva, la tipología lingüística, estudios de traducción y lexicografía bilingüe, así como suministrar datos para el entrenamiento de sistemas de traducción automática.
Objetivo primordial del corpus PaFreS es constituirse en una herramienta útil y fácil de usar para traductores y estudiantes de francés o español como lengua extranjera de nivel intermedio y avanzado. Con este recurso pueden obtener multitud de sugerencias de traducción realizadas por humanos y presentadas en ejemplos de uso real.
Actualmente incluye las siguientes colecciones:
Brontë, Charlotte (1847): Jane Eyre.
[Jane Eyre.
Traducción: András Farkas]
Revisión del alineado: I. Doval. [32001]
Carroll, Lewis (1865): Alice's Adventures in Wonderland.
[Alice au pays des merveilles.
Traducción: András Farkas]
Revisión del alineado: I. Doval. [32002]
Defoe, Daniel (1719): Robinson Crusoe.
[Robinson Crusoe.
Traducción: András Farkas]
Revisión del alineado: I. Doval. [32003]
Doyle, Arthur Conan (1902): The Hound of the Baskervilles.
[Le Chien des Baskerville.
Traducción: András Farkas]
Revisión del alineado: I. Doval. [32004]
Doyle, Arthur Conan (1887): A Study in Scarlet.
[Une étude en rouge.
Traducción: András Farkas]
Revisión del alineado: I. Doval. [32005]
Poe, Edgar Allan (1839): The Fall of the House of Usher.
[La chute de la maison Usher.
Traducción: András Farkas]
Revisión del alineado: I. Doval. [32006]
Wilde, Oscar (1890): The Picture of Dorian Gray.
[Le Portrait de Dorian Gray.
Traducción: András Farkas]
Revisión del alineado: I. Doval. [32007]
Dumas, Alexandre (1844): Les Trois Mousquetaires.
[Los tres mosqueteros.
Traducción: András Farkas]
Revisión del alineado: I. Doval. [32008]
Verne, Jules (1870): Vingt mille lieues sous les mers.
[Veinte mil leguas de viaje submarino.
Traducción: András Farkas]
Revisión del alineado: I. Doval. [32009]
Verne, Jules (1875): L'île mystérieuse.
[La isla misteriosa.
Traducción: András Farkas]
Revisión del alineado: I. Doval. [32010]
Verne, Jules (1759): Le Tour du monde en quatre-vingts jours.
[La vuelta al mundo en 80 días.
Traducción: András Farkas]
Revisión del alineado: I. Doval. [32011]
Voltaire (1759): Candide, ou l'Optimisme Candide, ou l'Optimisme.
[Cándido o el optimismo.
Traducción: András Farkas]
Revisión del alineado: I. Doval. [32012]
Dado que se trata de un proyecto en curso, está previsto en el futuro añadir nuevas colecciones de textos bilingües de origen diverso.
Aviso:
Si utilizas PaFreS en tus trabajos, por favor indícalo y comunícanoslo a: corpus.pafres@usc.es. Así contribuyes a la sostenibilidad del proyecto.
Estadísticas PaFreS (Noviembre 2023)
COLECCIÓN | IDIOMA | TOKENS | PALABRAS | MSTTRATIO* | BISEGMENTOS |
Literatura | Francés | 1.399.200 | 1.151.212 | 0,545 | 57.733 |
Español | 1.282.476 | 1.106.637 | 0,537 | ||
Europarl v7 | Francés | 59.651.196 | 51.954.734 | 0,496 | 1.944.439 |
Español | 53.583.854 | 48.664.574 | 0,482 | ||
TED-Talks | Francés | 5.197.553 | 4.332.950 | 0,496 | 254.222 |
Español | 4.686.514 | 4.062.259 | 0,504 | ||
Global Voices | Francés | 1.179.414 | 1.016.690 | 0,539 | 50.270 |
Español | 1.097.488 | 985.542 | 0,553 | ||
Total | Francés | 67.427.363 | 58.455.586 | 0,523 | 2.306.664 |
Español | 60.650.332 | 54.819.012 | 0,515 |
*MSTTR es la TTR (relación Tipo/Token, por sus siglas en inglés) promedio para cada segmento no superpuesto de igual tamaño (en este caso, 1000 tokens).