Newer posts are loading.
You are at the newest post.
Click here to check if anything new just came in.
Click here to check if anything new just came in.
March 09 2010
Reposted from
fieryheads via
Technofrikus
Malin maligne:
@fxbodin : au niveau de la com ils sont bien! Suis étonnée d'apprendre qu'ils utilisent des prest externes pr leur refonte intranet
Malin maligne:
@fxbodin en l'occurence j'ai un mari qui aurait pu assister à ton atelier, voire 1ou2 connaissances
Alain THOMAS:
@fxbodin ouais pas simple ça va falloir virtualiser :P
Jacques Froissant:
@fxbodin Salve de PV pour toi ?
Google, traducteur universel
Ça commence à devenir problématique de trouver des titres que je n'ai pas déjà utilisés pour parler du binôme Google + traduction. Pour autant les progrès que fait la société dans ce secteur, aussi rapides que gigantesques, m'imposent de faire des mises à jour de temps en temps.
Cette fois l'occasion m'en est donnée par un article du New York Times intitulé Putting Google to the Test in Translation, qui compare la traduction humaine d'un extrait de texte avec celles des principaux traducteurs gratuits disponibles sur le Web : Google, Yahoo et Microsoft.
La comparaison du journal porte sur cinq langues source (français, espagnol, russe, allemand et arabe) vers une seule langue cible, l'anglais. Or je ne m'intéresserai ici qu'aux deux premières, tout simplement parce que le texte choisi pour l'extrait est littéraire : Le petit Prince de Saint-Exupéry pour le français, et Cent ans de solitude de García Márquez pour l'espagnol :
Donc, ce qui m'a énormément frappé dans ce texte, c'est que pour la première fois j'avais sous les yeux la preuve absolue de ce que j'énonçais il y a plus d'un an et demi dans Google et la traduction, à propos du concept de mémoire de traduction universelle :
Pour rappel, cette mémoire sert également à l'auto-apprentissage de Google, et par bitexte il faut comprendre que l'on a texte source (ou texte de départ) et texte cible (ou texte d'arrivée) en regard l'un de l'autre. Exemple.Or les deux échantillons pris en exemple par le New York Times montrent que Google construit bien cette mémoire !
(...)
Donc en nous livrant à un bref exercice de prospective, on peut très facilement imaginer que dans un avenir proche, non seulement Google pourra coupler par défaut l'opérateur à votre profil (en clair, sachant que vous êtes anglais, il vous proposera par défaut des termes traduits en anglais, sauf indications contraires de votre part), mais aussi, et surtout, qu'il pourra puiser pratiquement tous les termes du langage humain, dans toutes les langues, au fur et à mesure quesanotre mémoire de traduction universelle prendra forme.
Alimentée autant par les traducteurs humains qui utiliseront les outils de Google pour traduire, que par ses technos automatisées à grande échelle (à ne pas confondre avec le déploiement d'un système de traduction automatique en entreprise, par exemple), voire par la mise en parallèle des œuvres littéraires qui appartiennent au patrimoine de l'humanité et sont déjà traduites dans de nombreuses langues.
Pour les profanes, mettre en parallèle un texte c'est prendre Les Misérables de Hugo ou votre livre préféré, le segmenter et mettre en parallèle les segments du texte original avec les segments correspondants traduits dans la ou les langues de votre choix (à noter qu'un segment ne correspond pas forcément à une phrase, découpée en plusieurs segments si elle est trop longue, par exemple). Vous faites ça avec français-anglais, et vous avez la mémoire français-anglais des Misérables. Ensuite vous faites de même avec anglais-italien, espagnol-allemand, russe-chinois, etc., et vous obtenez autant de mémoires que de langues dans lesquelles l'ouvrage a été traduit.
La pierre de Rosette est un parfait exemple de textes mis en parallèle. Et pour me limiter à n'en mentionner qu'un seul autre, pensez aux milliers de traductions de la Bible qui existent déjà...
Donc ajoutez-y tous les grands classiques mondiaux déjà numérisés, construisez les mémoires de traduction correspondantes dans les couples de langues dont vous disposez, et vous comprendrez aisément qu'on n'est pas loin de pouvoir mettre en parallèle pratiquement l'ensemble du langage humain, à toutes les époques.
Depuis l'aube de l'humanité, nul n'a jamais été en mesure de faire ça. Jusqu'à Google...
En effet, par rapport à la traduction humaine, celle de Google est identique à près de 65% pour Le petit Prince (38 mots sur 59 qui forment des séquences équivalentes) et carrément à 99% pour Cent ans de solitude !!!
D'où une distanciation abyssale, en termes qualitatifs, vis-à-vis des deux autres traducteurs, qui ne réussiront jamais à combler leur retard s'ils ne passent pas à des modèles de traduction automatique fondés sur le couple "linguistique de corpus" + "analyse statistique". Et bien au contraire, l'écart se creusera démesurément au profit de Google et aux dépens de ses concurrents.
C'est là tout l'enjeu des mémoires de traduction à très grande échelle implémentées par Google :
Comme l'explique fort bien Franz Josef Och, responsable recherche et traduction automatique, la clé des modèles de traduction selon Google, perpétuel apprenant, c'est de pouvoir disposer, d'une part, d'énormes quantités de données linguistiques (very large amounts of datas), et de l'autre, d'une phénoménale puissance de calcul qui traite à très grande vitesse des milliers de milliards de mots (aussi bien données textuelles que vocales...) dans pratiquement toutes les langues, puisque plus vous alimentez vos modèles statistiques en données, plus la qualité des modèles s'améliore !Donc, là encore, les prodigieuses capacités de calcul de Google font la différence. Mais ce n'est pas tout !
Il précise d'ailleurs les deux principaux enjeux pour Google dans la traduction automatique :Alors au bout du compte on finira par obtenir ce que j'expliquais dans Google et la traduction, à savoir la mémoire de l'humanité...
- augmenter la qualité de sortie, grâce au binôme quantité de données / puissance de calcul, ce qui explique clairement pourquoi la qualité est meilleure pour les couples de langues plus représentées ;
- augmenter en conséquence le nombre de langues (et donc de couples de langues) et de fonctionnalités offertes (comme les recherches croisées : je saisis un terme en français pour une recherche sur le Web chinois, et en sortie j'obtiens une page avec les résultats chinois à gauche et en vis-à-vis leur traduction française à droite), etc.
* * *
Prenons l'exemple de mon dernier billet, dans lequel il y a une vidéo qui affiche un bandeau avec capture automatique du texte source, obtenue par reconnaissance vocale.
Et bien le texte correspondant ne réside que dans la mémoire de Google, il n'est pas disponible en ligne. Par conséquent pour le traduire en français, j'ai dû d'abord le retranscrire intégralement en italien afin d'avoir le texte, qui n'est maintenant disponible en ligne que sur mon blog italien et sur la plateforme de blogging.
Première constatation : la capture en italien est fiable à 100%.
Deuxième constatation : une fois que Google détecte la traduction du texte source, vous pouvez être sûr que le bitexte part dans la mémoire qui alimente son système de traduction automatique.
Voilà pourquoi j'annonçais cette nouveauté il y a déjà presque 4 ans :
... une fois que Google maîtrisera avec un degré de pertinence suffisant la traduction automatique du texte, et a fortiori de la voix, je vous laisse imaginer le reste... (et) je suis sûr de ne pas me tromper en affirmant que Google nous prépare quelque chose de révolutionnaire avec sa fonction de traduction automatique : texte-voix, Internet, vidéo, mobiles, Adsenses personnalisés, etc., qui pourra concurrencer Google ?Car en fait, qu'il s'agisse des données images, vidéo ou voix, il suffit d'obtenir le texte source dans une première étape, soit par reconnaissance de caractères soit par reconnaissance vocale (pour la téléphonie mobile), et d'appliquer ensuite la traduction automatique au texte obtenu.
Si je garde mon exemple des vidéos sur Youtube, vous sélectionnez la langue d'arrivée de votre choix (mais comptez sur Google pour vous proposer par défaut votre langue maternelle) et vous obtenez dans le bandeau le texte traduit. Du sous-titrage automatique à la volée.
Et enfin, pour la téléphonie mobile, il suffira d'appliquer la synthèse vocale au texte traduit pour entendre dans son oreillette la version parlée. C'est ce que promet déjà Microsoft, et ce qu'a déjà annoncé Google...
Si vous voulez tester, la fonction est disponible sur Google Translate : cliquez sur l'icône du haut-parleur (que j'ai signalée par une flèche) pour entendre la version parlée du texte traduit !
Partager sur Facebook
P.S. Quand on dit que le hasard fait bien les choses, je viens juste de découvrir par un tweet que la version bêta de la traduction automatique est déjà disponible sur Youtube !!!
Donc, vous paramétrez la langue :
Et voilà le travail...
Actualités, Google, Google Translation Center, translation, translation onebox, traduction, traduction automatique, mémoire de traduction, user-generated content, UGC, Web 2.0, InternetVous avez un message
Expo Mailboxes <3 organisée par Violet Echo.
Photos de A Outra Voz, Pixmaniaque, David.Bridges, nihiels et Power RGB.
Malin maligne:
@fxbodin : c'est drôle ça. Le monde est petit...
Petit déjeuner chez Steelcase à l'invitation du collectif 362.0 http://www.flickr.com/photos/luc/4419924138/ #collaboration @362point0
Lesson #589 - The Relationship Commandments
This one was a lot of fun to make. I think the 5th is my favorite. - - For those curious or questioning, I went with the Catholic version of the Commandments because I am Catholic. Until checking in preparation for the comic, I had no idea that there were variations on the numbering of the Commandments, or number related to coveting and God and such. Kind of had to go with my background - if it really bothers you, I'm sure you can switch it around.
This one was a lot of fun to make. I think the 5th is my favorite. - - For those curious or questioning, I went with the Catholic version of the Commandments because I am Catholic. Until checking in preparation for the comic, I had no idea that there were variations on the numbering of the Commandments, or number related to coveting and God and such. Kind of had to go with my background - if it really bothers you, I'm sure you can switch it around.
Older posts are this way
If this message doesn't go away, click anywhere on the page to continue loading posts.
Could not load more posts
Maybe Soup is currently being updated? I'll try again automatically in a few seconds...
Maybe Soup is currently being updated? I'll try again automatically in a few seconds...
Just a second, loading more posts...
You've reached the end.












