Sobre PaFreS

O Corpus Paralelo Francés/Español, PaFreS, forma parte dun proxecto máis amplo, PaCorES, Parallel Corpora Spanish, que desenvolve corpus paralelos bilingües co español como lingua central. Até o momento, realizaronse dous corpus: alemán/español (www.corpuspages.eu), inglés/español (www.corpuspaens.eu) e este mesmo.

O corpus PaFreS está composto por textos orixinais en francés ou español e as súas traducións ou tamén por traducións francesas e españolas dunha terceira lingua. Actualmente, PaFreS contén arredor de 3.000.000 de tokens, segmentados en 58.000 bisegmentos, isto é, pares de unidades textuais alineadas a nivel oracional ou suboracional.

Con este corpus preténdese construír un recurso lingüístico multifuncional e representativo para o par de linguas francés/español, capaz de satisfacer necesidades diferenciadas dos usuarios e que poida ser explotado para múltiples propósitos, tales como investigación xeral en lingüística contrastiva, tipoloxía lingüística, estudos de tradución e lexicografía bilingüe, así como fornecer datos para o adestramento de sistemas de tradución automática.

O obxectivo primordial do corpus PaFreS é constituírse nunha ferramenta útil e fácil de usar para tradutores e estudantes de francés ou español como lingua estranxeira de nivel intermedio e avanzado. Con este recurso poden obter multitude de suxestións de tradución realizadas por humanos e presentadas en exemplos de uso real.

Actualmente inclúe as seguintes coleccións:

Unha Colección de 12 libros de literatura clásica, 5 deles orixinais en francés y 7 en inglés.

Brontë, Charlotte (1847): Jane Eyre.
[Jane Eyre. Tradución: András Farkas]
Revisión do alineado: I. Doval. [32001]

Carroll, Lewis (1865): Alice's Adventures in Wonderland.
[Alice au pays des merveilles. Tradución: András Farkas]
Revisión do alineado: I. Doval. [32002]

Defoe, Daniel (1719): Robinson Crusoe.
[Robinson Crusoe. Tradución: András Farkas]
Revisión do alineado: I. Doval. [32003]

Doyle, Arthur Conan (1902): The Hound of the Baskervilles.
[Le Chien des Baskerville. Tradución: András Farkas]
Revisión do alineado: I. Doval. [32004]

Doyle, Arthur Conan (1887): A Study in Scarlet.
[Une étude en rouge. Tradución: András Farkas]
Revisión do alineado: I. Doval. [32005]

Poe, Edgar Allan (1839): The Fall of the House of Usher.
[La chute de la maison Usher. Tradución: András Farkas]
Revisión do alineado: I. Doval. [32006]

Wilde, Oscar (1890): The Picture of Dorian Gray.
[Le Portrait de Dorian Gray. Tradución: András Farkas]
Revisión do alineado: I. Doval. [32007]

Dumas, Alexandre (1844): Les Trois Mousquetaires.
[Los tres mosqueteros. Tradución: András Farkas]
Revisión do alineado: I. Doval. [32008]

Verne, Jules (1870): Vingt mille lieues sous les mers.
[Veinte mil leguas de viaje submarino. Tradución: András Farkas]
Revisión do alineado: I. Doval. [32009]

Verne, Jules (1875): L'île mystérieuse.
[La isla misteriosa. Tradución: András Farkas]
Revisión do alineado: I. Doval. [32010]

Verne, Jules (1759): Le Tour du monde en quatre-vingts jours.
[La vuelta al mundo en 80 días. Tradución: András Farkas]
Revisión do alineado: I. Doval. [32011]

Voltaire (1759): Candide, ou l'Optimisme Candide, ou l'Optimisme.
[Cándido o el optimismo. Tradución: András Farkas]
Revisión do alineado: I. Doval. [32012]

Europarl v7, un corpus das actas (Verbatim reports) do Parlamento Europeo de 1996 a 2011.
Ted-Talks, un corpus que recolle as traduccións ao francés e ao español de 2008 transcripciones de Ted-Talks de los años 2006 a 2016.
Global-Voices un corpus de 2362 textos escritos por unha comunidade internacional, multilingüe e maiormente voluntaria de escritores, traductores, académicos e activistas de dereitos humanos.

Dado que se trata dun proxecto en curso, está previsto no futuro engadir novas coleccións de textos bilingües de orixe diverso.

Aviso:

Se empregas PaFreS nos teus traballos, por favor indícao e comunícanoslo a: corpus.pafres@usc.es. Así contribuyes a la sostenibilidad del proyecto.

Estatísticas PaFreS (Noviembre 2023)

COLECCIÓN	IDIOMA	TOKENS	PALABRAS	MSTTRATIO*	BISEGMENTOS
Literatura	Francés	1.399.200	1.151.212	0,545	57.733
Literatura	Español	1.282.476	1.106.637	0,537	57.733
Europarl v7	Francés	59.651.196	51.954.734	0,496	1.944.439
Europarl v7	Español	53.583.854	48.664.574	0,482	1.944.439
TED-Talks	Francés	5.197.553	4.332.950	0,496	254.222
TED-Talks	Español	4.686.514	4.062.259	0,504	254.222
Global Voices	Francés	1.179.414	1.016.690	0,539	50.270
Global Voices	Español	1.097.488	985.542	0,553	50.270
Total	Francés	67.427.363	58.455.586	0,523	2.306.664
Total	Español	60.650.332	54.819.012	0,515	2.306.664

*MSTTR é a TTR (relación Tipo/Token, polas súas siglas en inglés) media para cada segmento non superposto de tamaño igual (neste caso, 1000 tokens).