La Commission rend public ses bases de données linguistiques

Bruxelles, 21/01/2008 (Agence Europe) - Dans un souci de transparence et pour favoriser le multilinguisme, la Commission européenne a annoncé, vendredi 18 janvier, la publication d'un vaste corpus de données linguistiques constitué à partir des textes multilingues publiés par les institutions européennes. Ce corpus contient environ un million de phrases et leurs traductions de haute qualité dans 22 des 23 langues officielles de l'UE (le gaélique n'est pas encore disponible). S'il existe de nombreuses traductions de textes anglais ou français sur l'internet, les ressources sont plus rares pour des langues comme le letton ou le roumain. Ce corpus sera d'une aide précieuse, par exemple, pour les concepteurs de traduction automatique dans lesquels le logiciel « apprend », à partir de textes traduits par l'homme, à traduire correctement des mots et des expressions remis en contexte. Les données peuvent également faciliter le développement d'autres outils logiciels linguistiques tels que les correcteurs grammaticaux et orthographiques, les dictionnaires en ligne et les systèmes de catégorisation de textes multilingues. Selon le commissaire au multilinguisme Leonard Orban, ce corpus permettra de rendre la traduction assistée par ordinateur plus facile, moins chère et plus accessible. D'autre part, « les citoyens appartenant aux communautés linguistiques les plus petites pourront accéder plus facilement aux documents et aux pages web qui ne sont disponibles que dans les langues les plus utilisées », s'est-il félicité. De son côté, le commissaire responsable de la science et de la recherche Janez Potocnik estime que ce corpus unique « contribuera à l'apparition d'une nouvelle génération d'outils logiciels pour le traitement du langage humain et aidera à renforcer la compétitivité du secteur des langues ». Le volet « technologies de l'information et de la communication » du 7ème programme-cadre de recherche et de développement soutient, en effet, la recherche sur la traduction automatique et sur d'autres technologies liées au langage. Pour rappel, la Commission a déjà ouvert ses bases de données documentaires et terminologiques Eur-lex et IATE au public. Le site European Media Monitoring, qui offre la possibilité de rechercher des articles de presse dans 35 langues, est disponible sur http: //emm.jrc.it/overview.html. Pour de plus amples informations sur les données de traduction, voir http: //langtech.jrc.it/DGT-TM.html. (I.L.)