Le Speech AI au service de la transformation multimédia multilingue

A presentation at AI Days in June 2024 in Brest, France by Eléa PETTON

Slide 1

Slide 1

SPEECH AI Eléa Petton

Slide 2

Slide 2

PRÉSENTATION 02

Slide 3

Slide 3

PRÉSENTATION Eléa Petton Machine Learning Engineer OVHcloud AI Solutions Team 03 @EleaPetton eleapttn Eléa PETTON

Slide 4

Slide 4

OVHcloud UNE PRÉSENCE MONDIALE 04

Slide 5

Slide 5

À PROPOS D‘OVHcloud OVHcloud est un fournisseur mondial de services de cloud computing spécialisé dans les solutions performantes et rentables pour mieux gérer, sécuriser et faire évoluer les données. Private Cloud Public Cloud PaaS portfolio 05 Bare Metal Web Cloud

Slide 6

Slide 6

ÇA VOUS DIT ? “ Embarquez dans le développement d’une solution de transcription temps réel de vos contenus multimédia… ” 06

Slide 7

Slide 7

INTRODUCTION 07

Slide 8

Slide 8

INTRODUCTION “ Quels sont les différents types de contenus multimédia et leur(s) public(s) ? ” 01 VIDÉO 02 PHOTO 03 AUDIO 04 AFFICHE types de multimédia 08 contenu d’un website public ciblé

Slide 9

Slide 9

INTRODUCTION “ Quels sont les différents types de contenus multimédia et leur(s) public(s) ? ” 01 VIDÉO 02 PHOTO 03 AUDIO 04 AFFICHE types de multimédia 08 contenu d’un website publicS cibléS

Slide 10

Slide 10

TRANSFORMER SES CONTENUS MULTIMEDIA, QU’EST-CE QUE ÇA VEUT DIRE ? TRADUCTION TRANSCRIPTION Tran sc des A endez le s fr P emb Is de Mac ontières arq d hine lingu a L istiq solu tion ns le dév earning a vec su r d elop e tr conte nus m anscr te pement mesure : m ps d’un ultim réel e édia d e vos s! Changer la langue de… sa page web son post Twitter, LinkedIn, … ses slides 09 Passer de l’oral à l’écrit pour… sous-titrer des vidéos, podcasts garder le contenu d’une réunion SYNTHÈSE VOCALE DESCRIPTION Et si l’IA vous permettait d’élargir l’impact de vos différents contenus multimédias et de favoriser l’inclusivité ? Aujourd’hui, les médias et les réseaux sociaux sont omniprésents dans nos vies professionnelles et personnelles : vidéos, Tweets, posts, forums ou encore lives Twitch. Ces différents types de médias permettent aux entreprises et créateurs de contenus de promouvoir leurs activités et de fidéliser leurs communautés. Mais vous êtes-vous déjà interrogés sur le rôle de la langue choisie lors de la création de vos contenus ? L’utilisation d’une seule langue peut constituer un obstacle à la promotion de vos activités. La transcription et la traduction de vos contenus multimédias pourraient être la solution ! Adaptez vos vidéos dans différentes langues et rendez le contenu accessible à un public plus large, augmentant ainsi sa portée et son impact. Passer de l’écrit à l’oral pour… favoriser l’accessibilité doubler les voix Décrire ou résumer… une vidéo, un podcast le contenu d’une réunion une documentation

Slide 11

Slide 11

EN PRATIQUE, ÇA DONNE QUOI ? Multimedia translator Transcribe your video: https://www.youtube.com/… French Voice Male 10 English Subtitles .mp4 Download

Slide 12

Slide 12

NOS OBJECTIFS DÉFINIR les besoins 11 SÉLECTIONNER les modèles CHOISIR ses AI Endpoints DÉVELOPPER la partie client DÉPLOYER l’app end to end

Slide 13

Slide 13

DÉFINITION des besoins 12

Slide 14

Slide 14

QUELS SONT NOS PERSONAE ? SE DÉVELOPPER À L’INTERNATIONAL Traduire du contenu multimedia pour un usage multilingue Adapter les vidéos pour un public mondial TRANSCRIRE LES MEETINGS Retranscrire les meetings à l’écrit Transcrire les meetings dans une autre langues Résumer les meetings ÊTRE PLUS INCLUSIF ! ÉLARGIR SON PUBLIC… En tant que créateur de contenu, j’aimerais élargir ma communauté Créer et publier un contenu plus attrayant 13 Sous-titrer les vidéos pour les personnes malentendantes Inclure les personnes qui ne parlent pas la même langue

Slide 15

Slide 15

QUELS SONT NOS BESOINS ? Transcription TECHNOLOGIES Traduction Synthèse vocale 14

Slide 16

Slide 16

QUELS SONT NOS BESOINS ? Anglais Espagnol Allemand Français 14 LANGUES

Slide 17

Slide 17

QUELS SONT NOS BESOINS ? Anglais Transcription audio Espagnol Allemand Français 14 BESOIN GLOBAL Traduction Synthèse vocale

Slide 18

Slide 18

3 TÂCHES CIBLÉES AUDIO recognition 15 TEXT translation SPEECH synthesis

Slide 19

Slide 19

SÉLECTION des modèles 16

Slide 20

Slide 20

OÙ TROUVER CES MODÈLES ? 17

Slide 21

Slide 21

COMMENT CHOISIR LES MODÈLES ? 18

Slide 22

Slide 22

ASR ENDPOINT 19

Slide 23

Slide 23

TTS ENDPOINT Coming Soon 20

Slide 24

Slide 24

NMT ENDPOINT Coming Soon 21

Slide 25

Slide 25

COMMENT CONNECTER CES AI ENDPOINTS ENTRE EUX ? 22

Slide 26

Slide 26

CONNECTER LES ENDPOINTS API “ Connectez vos AI Endpoints selon vos besoins de Speech AI ! ” ASR endpoint 4923 u lt a t A S R Langue cible en-US Transcription française traduite en anglais ultat NM és TTS endpoint Audio généré en anglais avec une voix de femme heureuse à partir la transcription française et de la traduction de l’audio d’origine T r és NMT endpoint Genre de la voix Female rés Emotion de la voix Happy TS Audio d’origine NMT tl at r résu Langue source fr-FR ult at T

Slide 27

Slide 27

CONSTRUIRE sa solution 24

Slide 28

Slide 28

CONSTRUIRE SA SOLUTION Multimedia translator Transcribe your video: https://www.youtube.com/… French Voice Male 25 English Subtitles .mp4 Download

Slide 29

Slide 29

CONSTRUIRE SA SOLUTION Entrer un lien de vidéo YouTube Transcrire la partie audio de la vidéo en texte Sous-titrer la vidéo dans n’importe quelle langue Doubler la voix de le vidéo dans une autre langue Choisir le genre de la voix de doublage Télécharger la vidéo résultante 23

Slide 30

Slide 30

DÉVELOPPER LES FEATURES CLÉS SRT GÉNÉRER un fichier SRT de sous-titres 26 CONSERVER les silences pendant la traduction DOUBLER l’audio d’une vidéo dans une autre langue

Slide 31

Slide 31

DÉVELOPPER LES FEATURES CLÉS SRT GÉNÉRER un fichier SRT de sous-titres 27 CONSERVER les silences pendant la traduction DOUBLER l’audio d’une vidéo dans une autre langue

Slide 32

Slide 32

GÉNÉRER UN FICHIER SRT 28

Slide 33

Slide 33

DÉVELOPPER LES FEATURES CLÉS SRT GÉNÉRER un fichier SRT de sous-titres 29 CONSERVER les silences pendant la traduction DOUBLER l’audio d’une vidéo dans une autre langue

Slide 34

Slide 34

CONSERVER LES SILENCES 30

Slide 35

Slide 35

DÉVELOPPER LES FEATURES CLÉS SRT GÉNÉRER un fichier SRT de sous-titres 31 CONSERVER les silences pendant la traduction DOUBLER l’audio d’une vidéo dans une autre langue

Slide 36

Slide 36

DOUBLER L’AUDIO D’UNE VIDÉO 32

Slide 37

Slide 37

DÉPLOIEMENT l’app end-to-end 33

Slide 38

Slide 38

DÉPLOIEMENT L’APP END-TO-END SÉLECTION des endpoints 34 16 DÉVELOPPEMENT de sa solution CONTENEURISATION de sa solution DÉPLOIEMENT de l’app end-to-end

Slide 39

Slide 39

DÉPLOIEMENT L’APP END-TO-END SÉLECTION des endpoints 34 16 DÉVELOPPEMENT de sa solution CONTENEURISATION de sa solution DÉPLOIEMENT de l’app end-to-end

Slide 40

Slide 40

SÉLECTION DES ENDPOINTS Anglais ASR Espagnol Allemand Français 35 AI ENDPOINTS NMT TTS

Slide 41

Slide 41

DÉPLOIEMENT L’APP END-TO-END SÉLECTION des endpoints 36 16 DÉVELOPPEMENT de sa solution CONTENEURISATION de sa solution DÉPLOIEMENT de l’app end-to-end

Slide 42

Slide 42

DÉVELOPPEMENT DE SA SOLUTION Multimedia translator Transcribe your video: https://www.youtube.com/… French Voice Male 37 English Subtitles .mp4 Download

Slide 43

Slide 43

DÉPLOIEMENT L’APP END-TO-END SÉLECTION des endpoints 38 16 DÉVELOPPEMENT de sa solution CONTENEURISATION de sa solution DÉPLOIEMENT de l’app end-to-end

Slide 44

Slide 44

CONTENEURISATION DE SA SOLUTION FROM python:3.10 WORKDIR /workspace ADD . /workspace RUN apt-get update && apt-get install -y ffmpeg libsndfile1-dev RUN pip install -r requirements.txt RUN chown -R 42420:42420 /workspace ENV HOME=/workspace CMD [ “python3” , “/workspace/main.py” ] 39 Dockerfile

Slide 45

Slide 45

DÉPLOIEMENT L’APP END-TO-END SÉLECTION des endpoints 40 16 DÉVELOPPEMENT de sa solution CONTENEURISATION de sa solution DÉPLOIEMENT de l’app end-to-end

Slide 46

Slide 46

SOLUTION DE DÉPLOIEMENT COMPUTE RESOURCES 1 GPU H100 COMPUTE RESOURCES HIGH AVAILABILITY API scalable on the fly Custom number of replicas HIGH AVAILABILITY 41 SECURE ACCESS SECURE ACCESS Private mode Personal token access

Slide 47

Slide 47

OVHcloud AI DEPLOY 42 01 CONTENEUR AS A SERVICE Le client fournit un conteneur Docker via une registry Docker​ 02 COMPUTE RESSOURCES RESOURCES DE CALCUL Le conteneur s’exécute dans le cloud sur GPU (ou CPU)​ 03 MODE DE FACTURATION 04 DÉPLOIEMENT API/APP Manière industrielle de déployer des API(s) stateless 05 STRATÉGIE D’AUTOSCALING Scalable à la volé Le client est facturé à la minute utilisée

Slide 48

Slide 48

DÉPLOIEMENT L’APP END-TO-END AI DEPLOY AI ENPOINTS ASR NMT TTS 43 audio d’entrée EXTRACT AUDIO (.WAV) vidéo d’entrée CONVERT SUBTITLES (.SRT) text traduit audio généré MERGE AUDIO AND VIDEO (.MP4) Speech AI Endpoints Custom Solution CHOOSE THE AI ENDPOINTS ACCORDING TO YOUR NEEDS DEPLOY END-TO-END SOLUTION THROUGH GRADIO APP IN THE CLOUD WITH HIGH AVAILABILITY vidéo résultante avec un sous-titrage traduit de manière précise et/ou un doublage de la voix dans la langue cible

Slide 49

Slide 49

DÉMO de l’app 44

Slide 50

Slide 50

DÉMO DE L’APP 45

Slide 51

Slide 51

DÉMO DE L’APP 46 https://bit.ly/ai-days-multimedia-translator

Slide 52

Slide 52

CONCLUSION 47

Slide 53

Slide 53

CONCLUSION Le “multimode multimedia translator“ en résumé… SOLUTION DE TRANSCRIPTION ET TRADUCTION MULTIMÉDIA vidéos traduites et soustitrées vidéos doublées dans une autre langue 48 OVHcloud AI ENDPOINTS simple d’utilisation gain de temps dans le développement OVHcloud AI DEPLOY solution serverless top des GPUs (H100, A100, L4, L40S, V100S) ET CE N’EST PAS FINI… reconnaissance des émotions transcription en temps réel personnalisation de la voix enrichissement du vocab

Slide 54

Slide 54

CONTACTEZ-NOUS ! INFORMATIONS Informations 49 https://www.ovhcloud.com/ OVHcloud elea.petton@ovhcloud.com @OVHcloud

Slide 55

Slide 55

À VOUS DE TESTER ! 50 https://bit.ly/ai-days-multimedia-translator

Slide 56

Slide 56

MERCI !