Naptha : copier et traduire le texte de n'importe quelle image du Web

Romain Heuillard
Publié le 28 avril 2014 à 10h42
Que diriez-vous de manipuler du texte se trouvant dans une image aussi facilement que le texte d'une page Internet ? C'est ce que propose le projet Naptha, qui permet de sélectionner du texte dans une image, de le copier, de le traduire et même de l'effacer.

Après avoir obtenu la deuxième place du HackMIT 2013 il y a quelques mois, le plus grand concours de développement de la prestigieuse université américaine, cette solution qu'on doit à un dénommé Kevin Kwok a été peaufinée et rendue publique la semaine dernière.

Le projet Naptha, initialement appelé « Images as Text », se présente dans un premier temps sous la forme d'une extension pour le navigateur Google Chrome. Une fois installée, elle permet de sélectionner et de manipuler du texte dans toutes sortes d'images. Alors qu'habituellement il faut recopier manuellement du texte apparaissant dans une capture d'écran, dans une infographie ou dans un document numérisé, on peut ici le copier-coller, l'effacer ou même le remplacer par une version traduite.

0190000007327936-photo-projet-naptha.jpg

Techniquement, Naptha repose essentiellement sur le portage JavaScript de technologies existantes. L'extension opère principalement sur l'ordinateur de l'utilisateur, des serveurs (le cloud) pouvant participer dans certains cas. Kevin Kwok utilise Stroke Width Transform (SWT) de Microsoft Research pour reconnaître les blocs de texte et permettre leur sélection, puis le moteur de reconnaissance optique de caractères (OCR) Ocrad pour la traduction en texte brut. L'auteur reconnaît que ce dernier, une solution libre, a quelques années de retard.

Mais l'utilisateur peut faire appel, via le cloud, au moteur Tesseract de Google, qui prend en compte la langue et le contexte pour améliorer la reconnaissance (« he1|o » devient ainsi « hello »). L'auteur travaille par ailleurs sur l'amélioration de la détection des blocs de texte dans des scènes naturelles sur des photos, apparaissant en perspective et/ou à la verticale. Sans oublier un algorithme dédié aux memes, c'est-à-dire à la typographie Impact Bold, difficile à reconnaître.

Le projet Naptha est donc disponible dès à présent pour Google Chrome. Une version Firefox est envisagée. Mais sur le site Internet détaillé dédié au projet, Kevin Kwok rappelle à juste titre qu'une telle fonction devrait être intégrée d'origine aux navigateurs. Gageons que les éditeurs feront appel à son savoir faire ou s'en inspireront.
Romain Heuillard
Par Romain Heuillard

C'est vers l'âge de 12 ans, lorsque j'ai reçu mon premier ordinateur (un Pentium 100), que j'ai décidé d'abandonner ma prometteuse carrière de constructeur de Lego pour me consacrer pleinement à ma nouvelle passion pour l'informatique. Depuis je me suis aussi passionné pour l'imagerie en général et pour la photo en particulier, mais je reste fan de sujets aussi obscurs que les procédés de fabrication de composants électroniques ou les microarchitectures de processeurs, que l'infiniment grand et l'infiniment petit. Je suis enfin foncièrement anti-DRM et pro-standards ouverts.

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !
Commentaires (0)
Rejoignez la communauté Clubic
Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.