en | fr | es | gl
|
Team
|
Contact

About PaFreS


Le corpus parallèle Français<>Espagnol, PaFreS, fait partie d'un projet plus vaste en cours, PaCorES, Parallel Corpora Spanish, qui rassemble des corpus parallèles bilingues avec l'espagnol comme langue centrale. Jusqu'à présent, l'allemand<>espagnol (www.corpuspages.eu), l'anglais<>espagnol (www.corpuspaens.eu) et celui-ci.

Le corpus PaFreS est composé de textes originaux en français ou en espagnol et de leur traduction, ainsi que de traductions en français et en espagnol d'une troisième langue. Jusqu'à présent, PaFreS contient quelque 3 000 000 tokens, segmentés en 58 000 bisegments, c'est-à-dire des paires de unités textuelles alignés sur une phrase ou une sous-phrase.

Nous visons à construire une ressource linguistique multifonctionnelle et représentative de la paire de langues français/espagnol, capable de répondre aux besoins différenciés des utilisateurs et pouvant être exploitée à des fins multiples telles que la recherche générale en linguistique contrastive, la typologie linguistique, les études de traduction et la lexicographie bilingue, ainsi que la fourniture de données d'entraînement pour les systèmes de traduction automatique.

L'objectif principal du corpus PaFreS est d'être un outil utile et facile à utiliser pour les traducteurs et les apprenants de français ou d'espagnol comme langues étrangères aux niveaux intermédiaire et avancé. Cet outil leur permet d'obtenir une multitude de suggestions de traduction faites par des humains et présentées dans le cadre d'exemples d'utilisation réelle de la langue.

Il comprend jusqu'à présent:

  1. Une Collection de 12 livres de littérature classique, dont 5 originaux en français et 7 en anglais.
  2. Brontë, Charlotte (1847): Jane Eyre.
               [Jane Eyre.  Translation: András Farkas]
               Review of the alignment: I. Doval. [32001]

    Carroll, Lewis (1865): Alice's Adventures in Wonderland.
               [Alice au pays des merveilles.  Translation: András Farkas]
               Review of the alignment: I. Doval. [32002]

    Defoe, Daniel (1719): Robinson Crusoe.
               [Robinson Crusoe.  Translation: András Farkas]
               Review of the alignment: I. Doval. [32003]

    Doyle, Arthur Conan (1902): The Hound of the Baskervilles.
               [Le Chien des Baskerville.  Translation: András Farkas]
               Review of the alignment: I. Doval. [32004]

    Doyle, Arthur Conan (1887): A Study in Scarlet.
               [Une étude en rouge.  Translation: András Farkas]
               Review of the alignment: I. Doval. [32005]

    Poe, Edgar Allan (1839): The Fall of the House of Usher.
               [La chute de la maison Usher.  Translation: András Farkas]
               Review of the alignment: I. Doval. [32006]

    Wilde, Oscar (1890): The Picture of Dorian Gray.
               [Le Portrait de Dorian Gray.  Translation: András Farkas]
               Review of the alignment: I. Doval. [32007]

    Dumas, Alexandre (1844): Les Trois Mousquetaires.
               [Los tres mosqueteros.  Translation: András Farkas]
               Review of the alignment: I. Doval. [32008]

    Verne, Jules (1870): Vingt mille lieues sous les mers.
               [Veinte mil leguas de viaje submarino.  Translation: András Farkas]
               Review of the alignment: I. Doval. [32009]

    Verne, Jules (1875): L'île mystérieuse.
               [La isla misteriosa.  Translation: András Farkas]
               Review of the alignment: I. Doval. [32010]

    Verne, Jules (1759): Le Tour du monde en quatre-vingts jours.
               [La vuelta al mundo en 80 días.  Translation: András Farkas]
               Review of the alignment: I. Doval. [32011]

    Voltaire (1759): Candide, ou l'Optimisme Candide, ou l'Optimisme.
               [Cándido o el optimismo.  Translation: András Farkas]
               Review of the alignment: I. Doval. [32012]

  3. Europarl v7, un corpus des comptes-rendus (Verbatim) du Parlement européen de 1996 à 2011.
  4. Ted-Talks, un corpus qui rassemble les traductions françaises et espagnoles des transcriptions des Ted-Talks 2008 de 2006 à 2016.
  5. Global-Voices un corpus de 2362 textes écrits par une communauté internationale, multilingue et essentiellement bénévole d'écrivains, de traducteurs, d'universitaires et d'activistes des droits de l'homme.

Il s'agit d'un projet en cours et il est prévu d'ajouter à l'avenir de nouvelles collections de textes bilingues d'origines diverses.

Avis:

Si vous utilisez PaFreS dans votre travail, veuillez l'indiquer et nous en informer: corpus.pafres@usc.es. Vous contribuerez ainsi à la durabilité du projet.


Statistiques PaFreS (2023/06)


COLLECTION LANGUE TOKENS MOTS MSTTRATIO* BISEGMENTS
Littérature   Français 1.399.200 1.151.212 0,545 57.733
Espagnol 1.282.476 1.106.637 0,537
Europarl v7   Français 59.651.196 51.954.734 0,496 1.944.439
Espagnol 53.583.854 48.664.574 0,482
TED-Talks   Français 5.197.553 4.332.950 0,496 254.222
Espagnol 4.686.514 4.062.259 0,504
Global Voices   Français 1.179.414 1.016.690 0,539 50.270
Espagnol 1.097.488 985.542 0,553
Total   Français 67.427.363 58.455.586 0,523 2.306.664
Espagnol 60.650.332 54.819.012 0,515

*MSTTR est la TTR (relation Type/Token, par ses sigles en anglais) moyenne pour chaque segment non superpposé de même taille (dans ce cas, 1000 tokens).

                                                    
PaFreS Vers. 1.0
Last updated: 15.04.2023
©PaCorES
Creative Commons Licencia Creative Commons
University of Santiago de Compostela
This project is funded by the State Research Agency (AEI) of Spanish Ministry of Science, Innovation and University (PID2021-125313OB-I00).