O Corpus Paralelo Francés/Español, PaFreS, forma parte dun proxecto máis amplo, PaCorES, Parallel Corpora Spanish, que desenvolve corpus paralelos bilingües co español como lingua central. Até o momento, realizaronse dous corpus: alemán/español (www.corpuspages.eu), inglés/español (www.corpuspaens.eu) e este mesmo.
O corpus PaFreS está composto por textos orixinais en francés ou español e as súas traducións ou tamén por traducións francesas e españolas dunha terceira lingua. Actualmente, PaFreS contén arredor de 3.000.000 de tokens, segmentados en 58.000 bisegmentos, isto é, pares de unidades textuais alineadas a nivel oracional ou suboracional.
Con este corpus preténdese construír un recurso lingüístico multifuncional e representativo para o par de linguas francés/español, capaz de satisfacer necesidades diferenciadas dos usuarios e que poida ser explotado para múltiples propósitos, tales como investigación xeral en lingüística contrastiva, tipoloxía lingüística, estudos de tradución e lexicografía bilingüe, así como fornecer datos para o adestramento de sistemas de tradución automática.
O obxectivo primordial do corpus PaFreS é constituírse nunha ferramenta útil e fácil de usar para tradutores e estudantes de francés ou español como lingua estranxeira de nivel intermedio e avanzado. Con este recurso poden obter multitude de suxestións de tradución realizadas por humanos e presentadas en exemplos de uso real.
Actualmente inclúe as seguintes coleccións:
Brontë, Charlotte (1847): Jane Eyre.
[Jane Eyre.
Tradución: András Farkas]
Revisión do alineado: I. Doval. [32001]
Carroll, Lewis (1865): Alice's Adventures in Wonderland.
[Alice au pays des merveilles.
Tradución: András Farkas]
Revisión do alineado: I. Doval. [32002]
Defoe, Daniel (1719): Robinson Crusoe.
[Robinson Crusoe.
Tradución: András Farkas]
Revisión do alineado: I. Doval. [32003]
Doyle, Arthur Conan (1902): The Hound of the Baskervilles.
[Le Chien des Baskerville.
Tradución: András Farkas]
Revisión do alineado: I. Doval. [32004]
Doyle, Arthur Conan (1887): A Study in Scarlet.
[Une étude en rouge.
Tradución: András Farkas]
Revisión do alineado: I. Doval. [32005]
Poe, Edgar Allan (1839): The Fall of the House of Usher.
[La chute de la maison Usher.
Tradución: András Farkas]
Revisión do alineado: I. Doval. [32006]
Wilde, Oscar (1890): The Picture of Dorian Gray.
[Le Portrait de Dorian Gray.
Tradución: András Farkas]
Revisión do alineado: I. Doval. [32007]
Dumas, Alexandre (1844): Les Trois Mousquetaires.
[Los tres mosqueteros.
Tradución: András Farkas]
Revisión do alineado: I. Doval. [32008]
Verne, Jules (1870): Vingt mille lieues sous les mers.
[Veinte mil leguas de viaje submarino.
Tradución: András Farkas]
Revisión do alineado: I. Doval. [32009]
Verne, Jules (1875): L'île mystérieuse.
[La isla misteriosa.
Tradución: András Farkas]
Revisión do alineado: I. Doval. [32010]
Verne, Jules (1759): Le Tour du monde en quatre-vingts jours.
[La vuelta al mundo en 80 días.
Tradución: András Farkas]
Revisión do alineado: I. Doval. [32011]
Voltaire (1759): Candide, ou l'Optimisme Candide, ou l'Optimisme.
[Cándido o el optimismo.
Tradución: András Farkas]
Revisión do alineado: I. Doval. [32012]
Dado que se trata dun proxecto en curso, está previsto no futuro engadir novas coleccións de textos bilingües de orixe diverso.
Aviso:
Se empregas PaFreS nos teus traballos, por favor indícao e comunícanoslo a: corpus.pafres@usc.es. Así contribuyes a la sostenibilidad del proyecto.
Estatísticas PaFreS (Noviembre 2023)
COLECCIÓN | IDIOMA | TOKENS | PALABRAS | MSTTRATIO* | BISEGMENTOS |
Literatura | Francés | 1.399.200 | 1.151.212 | 0,545 | 57.733 |
Español | 1.282.476 | 1.106.637 | 0,537 | ||
Europarl v7 | Francés | 59.651.196 | 51.954.734 | 0,496 | 1.944.439 |
Español | 53.583.854 | 48.664.574 | 0,482 | ||
TED-Talks | Francés | 5.197.553 | 4.332.950 | 0,496 | 254.222 |
Español | 4.686.514 | 4.062.259 | 0,504 | ||
Global Voices | Francés | 1.179.414 | 1.016.690 | 0,539 | 50.270 |
Español | 1.097.488 | 985.542 | 0,553 | ||
Total | Francés | 67.427.363 | 58.455.586 | 0,523 | 2.306.664 |
Español | 60.650.332 | 54.819.012 | 0,515 |
*MSTTR é a TTR (relación Tipo/Token, polas súas siglas en inglés) media para cada segmento non superposto de tamaño igual (neste caso, 1000 tokens).