FOCUS IA : notre sélection d’outils pour créer des livrables audio

Céline Boileau

Bases no

416

publié en

2023.07

7556

Acheter ce no

Tags

veille audiovisuelle | livrables de veille | IA

FOCUS IA : notre sélection d’outils pour créer des ... Image 1

Parmi les outils IA, ceux qui proposent la fonctionnalité de Text-to-Speech (ou Text to Voice) représentent un gain de productivité. On les utilise pour écouter ses sources, ou pour faire écouter son livrable en format audio.

Nous en avons sélectionné quatre, en accès gratuit ou freemium, parmi une vingtaine d’outils explorés.

Nous les avons choisis pour la qualité du son généré par IA, c’est-à-dire le plus proche possible de la voix humaine, et pour la richesse de ce qu’ils offrent déjà dans leur version gratuite.

ElevenLabs, le plus reconnu (freemium)

ElevenLabs est sans conteste celui qui produit la meilleure qualité de voix pour générer un livrable en contenu audio dans plusieurs langues.

C’est aussi le plus généreux dans sa version gratuite puisqu’il offre 10 000 signes/mois à lire (c’est la longueur moyenne d’un article de NETSOURCES), par extraits de 2500 signes maximum (espaces compris), que l’on peut télécharger au format MP3. Ce qui permet un usage régulier.

Surtout, dans la version gratuite, on peut :

Choisir une voix de synthèse (Speech Synthesis) en version multilingue (huit langues) pour éviter l’accent américain d’un texte français, mais les chiffres sont parfois lus en anglais (même avec un texte français !) ;
Composer une voix de synthèse dans le VoiceLab (on choisit le genre, le niveau d’accent, et même l’âge !) ;
Accéder à la « bibliothèque », une nouvelle fonctionnalité avec des voix créées par les utilisateurs. La bibliothèque est intéressante car souvent ces outils sont alimentés par la même API, si bien qu’ils proposent le même catalogue de voix (on les reconnaît car elles ont le même nom sur différents outils !) ...

Utiliser le AI Speech Classifier, qui permet de vérifier si une voix a été créée par ElevenLabs. Il suffit de charger le fichier audio et le résultat est exprimé en pourcentage de probabilité. Un utilitaire qui garantit un niveau de transparence bienvenu.

Pour bénéficier de la version gratuite, il faut s’inscrire. Le clonage de voix, lui, est payant. Les abonnements payants varient de 20 à 330$/mois.

On apprécie particulièrement sa facilité d’accès puisqu’il suffit de coller son texte sur la page d’accueil du site, puis de sélectionner la langue et la voix et enfin appuyer sur l’unique bouton pour tester avec un texte court de 300 signes. Mais on apprécie aussi, dans la version gratuite, les guides, l’accès à la communauté Discord, les partenariats et la transparence des tarifs.

En termes de pérennité, sa longévité semble assurée puisque ses fondateurs viennent de lever près de 20 millions de dollars, auprès notamment des cofondateurs d’Instagram, Deepmind et Perplexity.

Beepbooply, pour un usage quotidien (gratuit)

Beepbooply propose aussi une offre gratuite de 10 000 signes par mois (~13 minutes / ~2 000 mots), avec téléchargement possible (format WAV). Pour l’essayer, il est nécessaire de créer un compte. Ensuite, on « crée un projet », qui sera lu par l’une des 900 voix, et dans l’une des 80 langues proposées, et avec des émotions différentes (en colère, amical…). La version gratuite accepte cinq projets, sauvegardés une semaine maximum et supprimés chaque lundi. La version gratuite n’offre que des voix de synthèse, pas de voix réalistes.

Comme les autres outils de Text-To-Voice, il suffit alors de coller son texte, choisir sa langue et sa voix, puis d’appuyer sur le bouton play. Attention à bien sélectionner la langue du texte, sous peine d’avoir une lecture confuse, moitié dans une langue et moitié dans une autre, avec un fort accent en prime !

Mais l’autre atout de Beepbooply, c’est une version light, sans inscription, avec 3000 signes / jour, sur un site dédié. Cette version, qui propose 400 voix dans 40 langues « seulement » comparé à la version standard, permet aussi de télécharger, de choisir le débit et le son de la voix, et de faire des écoutes en simultané…

2Figure2

Listnr, une alternative freemium performante

Listnr est un générateur de voix AI et un outil de synthèse vocale en ligne qui propose plus de 900 voix (300 en version gratuite) dans 142 langues différentes. En les téléchargeant au format MP3 ou WAV, on peut insérer le fichier dans son livrable sous forme de présentation ou de document texte.

On commence par choisir sa langue sur la page d’accueil. Le nombre d’accents par voix est précisé (26 pour la France !). La page de conversion s’ouvre et on choisit sa voix (masculine ou féminine mais pas d’autres critères), on colle son texte, et on appuie sur le bouton « convert », puis « play ». Un compteur calcule le nombre de mots et fait le décompte sur votre crédit instantanément, vous permettant de corriger si besoin. Ne pas oublier de convertir à chaque nouvelle voix !

La version gratuite propose 1000 mots/mois (environ 6 minutes, 5000 signes) et jusqu’à 20 exports, ce qui en fait un générateur de voix de bonne qualité pour des synthèses courtes. Les abonnements payants varient ensuite de 9 à 99$/mois. On regrette toutefois ne pas pouvoir sélectionner la vitesse de la voix, par exemple.

Il est possible de pré-tester les voix gratuitement et sans inscription sur 100 mots max. En revanche il faut être inscrit (préférer l’inscription avec un compte Google, plus stable) pour télécharger ou enregistrer son test.

Par ailleurs l’entreprise met en avant sa transparence en indiquant que ses voix proviennent d’Amazon Polly, Google WaveNet, IBM Watson et Microsoft Azure. Des fonctionnalités sont aussi prévues pour les podcasteurs, et le clonage de voix, à venir, est en version bêta. À suivre !

Lovo, de l’audio à la vidéo (freemium)

La particularité de Lovo, qui a baptisé son IA Genny, est de ne pas se limiter à l’audio : un projet peut également être composé d’un montage de plusieurs voix et de la vidéo, de texte (bêta), d’image et de présentation.

Et même l’option « Voice only » est plus difficile d’accès que de simples générateurs de voix car elle propose diverses pistes de voix, avec une table de mixage.

Pour rechercher une voix française, par exemple, il est aussi nécessaire choisir ses options (Global Voice, Emotionnal Voice…) dans un ordre précis, sous peine de recommencer toute sa recherche.

Ensuite, il faut cliquer sur le portrait de la voix présélectionnée pour la changer, coller son texte, appuyer sur « Generate », puis sur « Play ». Si on appuie sur « Play » sans « générer » auparavant, c’est la voix de l’aide de l’outil qui prend la parole. Tout cela n’est pas très intuitif. Et le résultat n’est pas à la hauteur des générateurs de voix simples, dans leur version gratuite.

Ici, l’offre gratuite pousse rapidement à l’achat car après inscription (où nous est demandé notre profil professionnel et l’usage attendu de l’outil), on accède à 20 minutes gratuites pour cinq audios maximum au total, sans licence commerciale. De plus, on peut partager la voix avec un lien mais non la télécharger. En revanche, l’accès pendant 14 jours aux fonctions pro brouillent ce qu’il va rester à l’issue des deux semaines. Les tarifs varient ensuite de 19 à 149$ par mois.