A presentation at AI Days in in Brest, France by Eléa PETTON
SPEECH AI Eléa Petton
PRÉSENTATION 02
PRÉSENTATION Eléa Petton Machine Learning Engineer OVHcloud AI Solutions Team 03 @EleaPetton eleapttn Eléa PETTON
OVHcloud UNE PRÉSENCE MONDIALE 04
À PROPOS D‘OVHcloud OVHcloud est un fournisseur mondial de services de cloud computing spécialisé dans les solutions performantes et rentables pour mieux gérer, sécuriser et faire évoluer les données. Private Cloud Public Cloud PaaS portfolio 05 Bare Metal Web Cloud
ÇA VOUS DIT ? “ Embarquez dans le développement d’une solution de transcription temps réel de vos contenus multimédia… ” 06
INTRODUCTION 07
INTRODUCTION “ Quels sont les différents types de contenus multimédia et leur(s) public(s) ? ” 01 VIDÉO 02 PHOTO 03 AUDIO 04 AFFICHE types de multimédia 08 contenu d’un website public ciblé
INTRODUCTION “ Quels sont les différents types de contenus multimédia et leur(s) public(s) ? ” 01 VIDÉO 02 PHOTO 03 AUDIO 04 AFFICHE types de multimédia 08 contenu d’un website publicS cibléS
TRANSFORMER SES CONTENUS MULTIMEDIA, QU’EST-CE QUE ÇA VEUT DIRE ? TRADUCTION TRANSCRIPTION Tran sc des A endez le s fr P emb Is de Mac ontières arq d hine lingu a L istiq solu tion ns le dév earning a vec su r d elop e tr conte nus m anscr te pement mesure : m ps d’un ultim réel e édia d e vos s! Changer la langue de… sa page web son post Twitter, LinkedIn, … ses slides 09 Passer de l’oral à l’écrit pour… sous-titrer des vidéos, podcasts garder le contenu d’une réunion SYNTHÈSE VOCALE DESCRIPTION Et si l’IA vous permettait d’élargir l’impact de vos différents contenus multimédias et de favoriser l’inclusivité ? Aujourd’hui, les médias et les réseaux sociaux sont omniprésents dans nos vies professionnelles et personnelles : vidéos, Tweets, posts, forums ou encore lives Twitch. Ces différents types de médias permettent aux entreprises et créateurs de contenus de promouvoir leurs activités et de fidéliser leurs communautés. Mais vous êtes-vous déjà interrogés sur le rôle de la langue choisie lors de la création de vos contenus ? L’utilisation d’une seule langue peut constituer un obstacle à la promotion de vos activités. La transcription et la traduction de vos contenus multimédias pourraient être la solution ! Adaptez vos vidéos dans différentes langues et rendez le contenu accessible à un public plus large, augmentant ainsi sa portée et son impact. Passer de l’écrit à l’oral pour… favoriser l’accessibilité doubler les voix Décrire ou résumer… une vidéo, un podcast le contenu d’une réunion une documentation
EN PRATIQUE, ÇA DONNE QUOI ? Multimedia translator Transcribe your video: https://www.youtube.com/… French Voice Male 10 English Subtitles .mp4 Download
NOS OBJECTIFS DÉFINIR les besoins 11 SÉLECTIONNER les modèles CHOISIR ses AI Endpoints DÉVELOPPER la partie client DÉPLOYER l’app end to end
DÉFINITION des besoins 12
QUELS SONT NOS PERSONAE ? SE DÉVELOPPER À L’INTERNATIONAL Traduire du contenu multimedia pour un usage multilingue Adapter les vidéos pour un public mondial TRANSCRIRE LES MEETINGS Retranscrire les meetings à l’écrit Transcrire les meetings dans une autre langues Résumer les meetings ÊTRE PLUS INCLUSIF ! ÉLARGIR SON PUBLIC… En tant que créateur de contenu, j’aimerais élargir ma communauté Créer et publier un contenu plus attrayant 13 Sous-titrer les vidéos pour les personnes malentendantes Inclure les personnes qui ne parlent pas la même langue
QUELS SONT NOS BESOINS ? Transcription TECHNOLOGIES Traduction Synthèse vocale 14
QUELS SONT NOS BESOINS ? Anglais Espagnol Allemand Français 14 LANGUES
QUELS SONT NOS BESOINS ? Anglais Transcription audio Espagnol Allemand Français 14 BESOIN GLOBAL Traduction Synthèse vocale
3 TÂCHES CIBLÉES AUDIO recognition 15 TEXT translation SPEECH synthesis
SÉLECTION des modèles 16
OÙ TROUVER CES MODÈLES ? 17
COMMENT CHOISIR LES MODÈLES ? 18
ASR ENDPOINT 19
TTS ENDPOINT Coming Soon 20
NMT ENDPOINT Coming Soon 21
COMMENT CONNECTER CES AI ENDPOINTS ENTRE EUX ? 22
CONNECTER LES ENDPOINTS API “ Connectez vos AI Endpoints selon vos besoins de Speech AI ! ” ASR endpoint 4923 u lt a t A S R Langue cible en-US Transcription française traduite en anglais ultat NM és TTS endpoint Audio généré en anglais avec une voix de femme heureuse à partir la transcription française et de la traduction de l’audio d’origine T r és NMT endpoint Genre de la voix Female rés Emotion de la voix Happy TS Audio d’origine NMT tl at r résu Langue source fr-FR ult at T
CONSTRUIRE sa solution 24
CONSTRUIRE SA SOLUTION Multimedia translator Transcribe your video: https://www.youtube.com/… French Voice Male 25 English Subtitles .mp4 Download
CONSTRUIRE SA SOLUTION Entrer un lien de vidéo YouTube Transcrire la partie audio de la vidéo en texte Sous-titrer la vidéo dans n’importe quelle langue Doubler la voix de le vidéo dans une autre langue Choisir le genre de la voix de doublage Télécharger la vidéo résultante 23
DÉVELOPPER LES FEATURES CLÉS SRT GÉNÉRER un fichier SRT de sous-titres 26 CONSERVER les silences pendant la traduction DOUBLER l’audio d’une vidéo dans une autre langue
DÉVELOPPER LES FEATURES CLÉS SRT GÉNÉRER un fichier SRT de sous-titres 27 CONSERVER les silences pendant la traduction DOUBLER l’audio d’une vidéo dans une autre langue
GÉNÉRER UN FICHIER SRT 28
DÉVELOPPER LES FEATURES CLÉS SRT GÉNÉRER un fichier SRT de sous-titres 29 CONSERVER les silences pendant la traduction DOUBLER l’audio d’une vidéo dans une autre langue
CONSERVER LES SILENCES 30
DÉVELOPPER LES FEATURES CLÉS SRT GÉNÉRER un fichier SRT de sous-titres 31 CONSERVER les silences pendant la traduction DOUBLER l’audio d’une vidéo dans une autre langue
DOUBLER L’AUDIO D’UNE VIDÉO 32
DÉPLOIEMENT l’app end-to-end 33
DÉPLOIEMENT L’APP END-TO-END SÉLECTION des endpoints 34 16 DÉVELOPPEMENT de sa solution CONTENEURISATION de sa solution DÉPLOIEMENT de l’app end-to-end
DÉPLOIEMENT L’APP END-TO-END SÉLECTION des endpoints 34 16 DÉVELOPPEMENT de sa solution CONTENEURISATION de sa solution DÉPLOIEMENT de l’app end-to-end
SÉLECTION DES ENDPOINTS Anglais ASR Espagnol Allemand Français 35 AI ENDPOINTS NMT TTS
DÉPLOIEMENT L’APP END-TO-END SÉLECTION des endpoints 36 16 DÉVELOPPEMENT de sa solution CONTENEURISATION de sa solution DÉPLOIEMENT de l’app end-to-end
DÉVELOPPEMENT DE SA SOLUTION Multimedia translator Transcribe your video: https://www.youtube.com/… French Voice Male 37 English Subtitles .mp4 Download
DÉPLOIEMENT L’APP END-TO-END SÉLECTION des endpoints 38 16 DÉVELOPPEMENT de sa solution CONTENEURISATION de sa solution DÉPLOIEMENT de l’app end-to-end
CONTENEURISATION DE SA SOLUTION FROM python:3.10 WORKDIR /workspace ADD . /workspace RUN apt-get update && apt-get install -y ffmpeg libsndfile1-dev RUN pip install -r requirements.txt RUN chown -R 42420:42420 /workspace ENV HOME=/workspace CMD [ “python3” , “/workspace/main.py” ] 39 Dockerfile
DÉPLOIEMENT L’APP END-TO-END SÉLECTION des endpoints 40 16 DÉVELOPPEMENT de sa solution CONTENEURISATION de sa solution DÉPLOIEMENT de l’app end-to-end
SOLUTION DE DÉPLOIEMENT COMPUTE RESOURCES 1 GPU H100 COMPUTE RESOURCES HIGH AVAILABILITY API scalable on the fly Custom number of replicas HIGH AVAILABILITY 41 SECURE ACCESS SECURE ACCESS Private mode Personal token access
OVHcloud AI DEPLOY 42 01 CONTENEUR AS A SERVICE Le client fournit un conteneur Docker via une registry Docker 02 COMPUTE RESSOURCES RESOURCES DE CALCUL Le conteneur s’exécute dans le cloud sur GPU (ou CPU) 03 MODE DE FACTURATION 04 DÉPLOIEMENT API/APP Manière industrielle de déployer des API(s) stateless 05 STRATÉGIE D’AUTOSCALING Scalable à la volé Le client est facturé à la minute utilisée
DÉPLOIEMENT L’APP END-TO-END AI DEPLOY AI ENPOINTS ASR NMT TTS 43 audio d’entrée EXTRACT AUDIO (.WAV) vidéo d’entrée CONVERT SUBTITLES (.SRT) text traduit audio généré MERGE AUDIO AND VIDEO (.MP4) Speech AI Endpoints Custom Solution CHOOSE THE AI ENDPOINTS ACCORDING TO YOUR NEEDS DEPLOY END-TO-END SOLUTION THROUGH GRADIO APP IN THE CLOUD WITH HIGH AVAILABILITY vidéo résultante avec un sous-titrage traduit de manière précise et/ou un doublage de la voix dans la langue cible
DÉMO de l’app 44
DÉMO DE L’APP 45
DÉMO DE L’APP 46 https://bit.ly/ai-days-multimedia-translator
CONCLUSION 47
CONCLUSION Le “multimode multimedia translator“ en résumé… SOLUTION DE TRANSCRIPTION ET TRADUCTION MULTIMÉDIA vidéos traduites et soustitrées vidéos doublées dans une autre langue 48 OVHcloud AI ENDPOINTS simple d’utilisation gain de temps dans le développement OVHcloud AI DEPLOY solution serverless top des GPUs (H100, A100, L4, L40S, V100S) ET CE N’EST PAS FINI… reconnaissance des émotions transcription en temps réel personnalisation de la voix enrichissement du vocab
CONTACTEZ-NOUS ! INFORMATIONS Informations 49 https://www.ovhcloud.com/ OVHcloud elea.petton@ovhcloud.com @OVHcloud
À VOUS DE TESTER ! 50 https://bit.ly/ai-days-multimedia-translator
MERCI !
Et si l’IA vous permettait d’élargir l’impact de vos différents contenus multimédias et de favoriser l’inclusivité ? Les médias sociaux sont omniprésents dans nos vies. Mais vous êtes-vous déjà interrogés sur le rôle de la langue choisie lors de la création de vos contenus ? La transcription et la traduction de vos contenus multimédias pourraient être la solution en développant des APIs basées sur de multiples modèles de Machine Learning !