Retranscrire une réunion gratuitement à l’arrache avec YouTube

24 juin 2015 à 10h04
0
Vous souhaitez économiser les 2 à 3 euros la minute que prendrait un pro ? N'êtes pas trop à cheval sur la précision ? En détournant la fonction sous-titres de Youtube, il est facile de transformer n'importe quel enregistrement audio en texte. Le résultat est loin d'être impeccable. Mais c'est gratuit, rapide et plutôt amusant.

Le saviez-vous ?

Chaque fois qu'une vidéo est déposée sur Youtube, sa bande son est passée au crible. Google commence par y rechercher des signatures audio. L'objectif ? Vérifier qu'aucune musique protégée par droits d'auteur n'est utilisée. Ensuite, s'il y détecte des voix, il applique une reconnaissance vocale et génère automatiquement des sous-titres pour les malentendants. C'est cette fonction dont on peut tirer parti pour transcrire un enregistrement.

0258000008085662-photo-sous-titres-automatiques-youtube.jpg

Première étape : convertir l'audio en vidéo

Youtube n'accepte pas directement les fichiers audio. Il faut donc d'abord les convertir en vidéo. Le principe : afficher une image prétexte, fixe, pendant toute la durée de l'enregistrement. Google explique comment s'y prendre avec un logiciel de montage vidéo comme Movie Maker ou iMovie. Mais il y a beaucoup plus simple : passer par des services en ligne.

TunesToTube, par exemple, automatise toute l'opération en quelques clics. Il suffit de se rendre sur le site www.tunestotube.com et de se connecter à son compte Youtube (on pourra le dissocier une fois la conversion terminée). En appuyant sur le bouton « Upload Files », le service invite à choisir un fichier MP3 à convertir. Le même bouton permet de charger une image prétexte, mais il est plus rapide d'en générer une avec le bouton « Create Background Image ».

08085770-photo-capture-tunestotube.jpg

Il est également possible d'ajouter un titre, une description ou de rendre la vidéo publique. Mais rien de tout cela n'est nécessaire pour une simple transcription. En revanche pour lancer la conversion et l'importation directe sur Youtube, il faudra cliquer sur « I'm not a robot » et répondre au Captcha.

Le service est gratuit. En contrepartie, il ajoute un petit message « Uploaded in HD @ TunesToTube.com » dans un coin de la vidéo. Pour autant, la piste audio n'est pas impactée. Ce qui reste l'essentiel pour notre transcription.

Autre limite, TunesToTube n'accepte pas les MP3 de plus de 50 Mo sans donation préalable. Pour s'en affranchir, les ubergeeks pourront utiliser ffmpeg et convertir n'importe quelle vidéo en MKV avec une simple commande en ligne. Tous les détails sont dans ce billet de Edward Mann.

Deuxième étape : générer les sous-titres

Une fois la vidéo déposée sur Youtube, il n'y a plus qu'à attendre. La bande son sera analysée par reconnaissance vocale et les sous-titres générés automatiquement. Seule inconnue, la durée de traitement plutôt aléatoire. Elle dépend de la longueur de l'enregistrement et de l'encombrement des serveurs Google. D'expérience, il faut compter en moyenne 30 minutes avant de voir les sous-titres associés à la vidéo. Donc patience.

Malheureusement, vous n'êtes pas prévenu quand les sous-titres sont générés. Pour le savoir, il faut accéder à la vidéo dans le gestionnaire Youtube et cliquer sur l'onglet « CC sous-titres ». S'il y a un point vert à côté de « Français (automatique) », c'est bon. On peut les télécharger.

08085786-photo-sous-titres-youtube.jpg

Cliquez sur « Français (automatique) » puis déroulez le bouton « Action » et sélectionnez télécharger au format .sbv (celui qui ajoute le moins d'indicateurs de temps au texte).

Pour nettoyer ce fichier, un simple passage par la fonction rechercher/remplacer du traitement de texte suffit. Sous Word par exemple, il est possible de rechercher n'importe quel chiffre avec le code : « ^# ». Donc pour supprimer l'ensemble des indicateurs de temps, recherchez tous les chiffres séparés par des « : » et des « . », avec la formule : ^#:^#^#:^#^#.^#^#^#,^#:^#^#:^#^#.^#^#^#^p et remplacez tout... par rien.

08085706-photo-rechercher-remplacer-un-chiffre.jpg

On obtient alors un fichier texte propre avec la retranscription complète de l'enregistrement.

Et la qualité de la retranscription ?

Pas de magie. Comme il s'agit de reconnaissance vocale informatique, il ne faut pas s'attendre à une précision extrême. Loin de là. Néanmoins, avec un bon orateur, ayant une bonne élocution, le résultat est largement lisible, même s'il reste quelques erreurs. Exemple, ci-dessous, avec le discours de Robert Badinter sur l'abolition de la peine de mort.



Mais parfois, la transcription est tellement médiocre qu'elle en devient risible. On passera plus de temps à corriger les erreurs qu'à retranscrire l'enregistrement soi-même. Un exemple éloquent, celui du célèbre hommage de Malraux à Jean Moulin reproduit ici.


Il ne faut donc pas attendre de miracles d'un tel système. S'il y a de la musique, des bruits de fond ou si plusieurs personnes parlent en même temps, oubliez ! Youtube prévient d'ailleurs qu'il n'essaiera même pas de générer des sous-titres quand les locuteurs sont difficiles à distinguer. Reste que cela peut toujours dépanner et surtout éviter de payer 120 euros pour une heure de transcription.
Modifié le 01/06/2018 à 15h36
0
0
Partager l'article :

Les actualités récentes les plus commentées

L'union sacrée des télécoms européens, qui vont partager leurs données pour lutter contre le coronavirus
Coronavirus : le traçage numérique
Coup dur chez HPE : des SSD destinés aux entreprises pourraient se briquer après 40 000 heures
L'empreinte carbone issue de la consommation des Français a chuté de deux-tiers avec le confinement
Xiaomi lancera la très attendue Mi TV 4S 65
Le stockage d’énergie sous forme d’hydrogène fait un bond en avant
Folding@home dépasse l'ExaFLOP pour lutter contre le Coronavirus
Des Macbook propulsés par des processeurs ARM prévus pour l'an prochain
ESET commercialise un antivirus dédié aux terminaux Linux
Covid-19 : Dyson (aussi) va produire des respirateurs durant la crise
scroll top