Viens dompter ta première IA en Python

A presentation at Codeurs en Seine in October 2023 in Rouen, France by Thierry Chantier

Slide 1

Slide 1

Viens dompter ta première IA en Python 🧠 🐍 󰠁󰳕

Slide 2

Slide 2

📝 Pense bête et liens 🔗 https://ovh.to/Zz5AnhE

Slide 3

Slide 3

Combien de personnes participent au lab ? Fotis Fotopoulos

Slide 4

Slide 4

MERCI !!!

Slide 5

Slide 5

Thierry Chantier DevRel @OVHcloud TitiMoby@mamot.fr TitiMoby 🔗 https://noti.st/titimoby

Slide 6

Slide 6

Stéphane Philippart 🏷 🥑 DeveloperRelations@OVHCloud 🦄 🏷 Co-creator of TADx (Agile, Dev, DevOps meetups in Tours) 🧠 Padawan Intelligence Artificielle 🏕 🐦 @wildagsx 🔗 https://philippart-s.github.io/blog 🐙 https://github.com/philippart-s/ 💬 https://www.linkedin.com/in/philippartstephane/

Slide 7

Slide 7

📝 Que va-t-on voir aujourd’hui ? 🧠 Les principes dans l’intelligence artificielle 🐍 Le kit de survie Python pour suivre ce workshop 󰠁 Un CDE c’est quoi et ça sert à quoi ? ☁ Les ressources utilisées chez OVHcloud 󰳕 En avant pour le développement : un notebook, un job d’entraînement et une application utilisant le modèle

Slide 8

Slide 8

Qui êtes vous ? ● ● ● ● ● Dev Dev Python Data Scientist Machine Learning Engineer Autre

Slide 9

Slide 9

Intelligence Artificielle

Slide 10

Slide 10

Les différentes catégories de l’IA 👉 Actuellement IA ~ Machine Learning 👉 Artificial Narrow Intelligence (ANI) / Weak AI 👉 Artificial General Intelligence (AGI) / Strong AI 👉 Artificial Super Intelligence (ASI)

Slide 11

Slide 11

Apprendre … 👉 IA : Techniques pour simuler les capacités “intelligentes” d’un être humain 👉 ML : Techniques pour qu’une machine apprenne sans algorithme supplémentaire par l’ingestion de données d’exemples 👉 DL : ML utilisant poussée des réseaux de neurones pour améliorer les performances dans les déductions

Slide 12

Slide 12

Le Machine Learning dans le détail 👉 Supervised learning : apprentissage proche de ce que l’on fait avec l’Homme 👉 Unsupervised learning : apprentissage par patterns et regroupements 👉 Reinforcement learning: apprentissage par renforcement avec système de “récompenses”

Slide 13

Slide 13

Sans donnée … pas d’intelligence ! 🧹 La plupart du temps les données sont brutes : il faudra les nettoyer, les pré-traiter, les transformer, … 📀 Il va falloir les transformer en Dataset (en gros une base de données pour IA) et les labelliser 🧪 Un dataset contient les données d’apprentissage, de validations et de tests 🧮 Enfin, ce sont des vecteurs et autres matrices qui seront manipulés par le modèle

Slide 14

Slide 14

Exemple d’un dataset Label correspondant : 1 0.64296875 0.63046875 0.10078125 0.175 Classe personne Coordonnées du carré

Slide 15

Slide 15

Les modèles dans l’IA 🧠 C’est le cerveau de votre application 🔢 C’est ici que l’on retrouve les formules mathématiques 👉 Différents en fonction des tâches de machine learning

Slide 16

Slide 16

Le coût associé au modèle ✨ C’est ce qui va permettre de connaître la qualité d’un modèle 📏 C’est l’écart entre la valeur rendue et la valeur idéale

Slide 17

Slide 17

Deep learning & Réseau de neurones 💪 L’étape d’après … Plus puissante, plus complexe 🧠 Analogie avec les neurones humain plutôt fausse ↔ Essentiellement due au mécanisme d’inter-connexions ⚖ w* sont les poids et permettent d’ajuster le comportement du réseau 🐛 b* sont les biais pour rendre le modèle “plus réaliste” et influer sur la fonction d’activation 🔀 F* sont les fonctions d’activation

Slide 18

Slide 18

GPU vs CPU �� �� �� �� �� �� �� �� �� �� �� �� �� �� �� �� CPU �� �� �� �� �� �� �� �� �� �� �� �� �� �� �� �� �� �� �� �� �� �� �� �� GPU �� �� ��

Slide 19

Slide 19

Cloud Development Environment

Slide 20

Slide 20

Cloud Development Environment Le code du projet Un éditeur de code Un environnement d’exécution

Slide 21

Slide 21

A la demande ● ● ● ● Pour tester une idée Expérimenter différentes solutions Partager une session de travail entre collègues … sky is the limit (et le coût de votre offre de CDE 😇 )

Slide 22

Slide 22

Reproductible ● Environnement décrit précisément ● Configuration versionnée avec le code ● Cohérence entre l’environnement et le code lui même

Slide 23

Slide 23

Le CDE pour cet atelier : Gitpod ● ● ● ● Simplement ajouter https://gitpod.io/# devant l’URL de votre repository Deux fichiers 📝 de configuration : .gitpod.dockerfile .gitpod.yml Possibilité d’avoir par projets ou globales : ○ Clés SSH ○ variables d’environnement Tunneling possible avec le poste local

Slide 24

Slide 24

Python : 101 pour cet atelier

Slide 25

Slide 25

Python : pourquoi ce choix ? ● 🛠 Langage simple d’approche mais qui reste complet ● 🔋 “All batteries included” ● 🔬 Choix des communautés data science et data analysis

Slide 26

Slide 26

Python : concepts pour aujourd’hui ● 📁 Les fichiers requirements.txt ● 📝 L’instruction import ● 📚 Notebooks

Slide 27

Slide 27

Faire de l’Intelligence Artificielle à OVHcloud Public Cloud AI Notebooks : JupyterLab et VSCode, images pré-construites AI Training : GPU as a Service AI Deploy : CaaS pour l’IA

Slide 28

Slide 28

Workshop time !

Slide 29

Slide 29

🔀 Fork du repository GitHub Projet à forker : https://github.com/devrel-workshop/101-AI-and-py https://ovh.to/ofPmni6

Slide 30

Slide 30

Démarrage de GitPod

Slide 31

Slide 31

⚙ Utiliser l’application de gestion de configuration 1/3 Rappel de l’URL : http://162.19.64.158/q/swagger-ui/ S’authentifier : (attendee / pass) Pas n éces sair e gr âce à Gi tPod !!

Slide 32

Slide 32

⚙ Utiliser l’application de gestion de configuration 2/3 Générer la configuration Pas nécessai r Utiliser le end-point /lab-information (GET) e grâce à Git Pod !!

Slide 33

Slide 33

⚙ Utiliser l’application de gestion de configuration 3/3 Cliquer sur Execution Récupérer la configuration Pas nécess a ire grâce à GitPod ! !

Slide 34

Slide 34

⚡ Initialisation de l’environnement GitPod ● ● Créer un compte GitPod (se connecter avec son compte GitHub) Prendre le modèle large

Slide 35

Slide 35

🗺 Architecture de l’application

Slide 36

Slide 36

Modèle avec AI Notebook

Slide 37

Slide 37

📄 Instructions https://github.com/devrel-workshop/101-AI-and-py/bl ob/main/docs/notebook.md https://ovh.to/MDaTnP3

Slide 38

Slide 38

🔐 Authentication via la CLI ovhai ovhai login Pas n éces sair How do you want to login: e gr âce

Terminal (login directly inside this terminal) Browser (open a login page on your browser) ℹ Utiliser le compte récupéré à l’étape précédente ℹ à Gi tPod !!

Slide 39

Slide 39

⚡ Création du Notebook ovhai notebook run conda jupyterlab \ —name attendee-$STUDENT_ID-yolov8-rock-paper-scissors-notebook \ —gpu 1 \ —volume attendee-$STUDENT_ID-data@GRA:/workspace/attendee:RW:cache \ —volume https://github.com/devrel-workshop/101-AI-and-py.git:/workspace/101-ai-la b-sources:RO

Slide 40

Slide 40

📝 Connexion au JupyterLab $ ovhai notebook list | grep attendee-$STUDENT_ID ID NAME STATE Xxx attendee-<ID>-yolov8-rock-paper-scissors-notebook RUNNING AGE FRAMEWORK VERSION 6d conda conda-py39-cuda11.8-v22-4 EDITOR URL jupyterlab https://efb3fda1-7b0e-42ed-b6e6-341881071d84.notebook.gra.ai.cloud.ovh.net ℹ Utiliser le compte créé précédemment ℹ

Slide 41

Slide 41

📺 Et dans la console d’admin OVHcloud ?

Slide 42

Slide 42

🗃 Organisation du Notebook Répertoire de sources du workshop - RO Répertoire de sources d’exemples - RO Répertoire des données du workshop - RW File > New Terminal ● ● /workspace/101-ai-lab-sources/ init_ai_env.sh

Slide 43

Slide 43

📀 Data 🗃 Source des données : Roboflow - Rock Paper Scissors SXSW Image Dataset 🗃 Object storage utilisé : ● attendee-$STUDENT_ID-data : ○ ○ ○ ○ ○ Zone de travail pour le / la participant·e Dataset Images de tests Répertoires de travail pour l’entraînement Modèle exporté

Slide 44

Slide 44

🏞 YoloV8 🔡 You Only Look Once 🔗 https://docs.ultralytics.com/ - https://github.com/ultralytics/ultralytics 🏞 Classification / Détection / Segmentation / Détection / Pose 🏞 Entraîné sur le dataset COCO 🐍 Lib python prête à l’emploi 🧠 Utilisation du plus petit modèle avec “seulement” 3.2 millions de paramètres

Slide 45

Slide 45

Un mot sur le transfert learning 🔄 Réutiliser un modèle déjà entraîné 🔎 Le spécialiser dans un domaine bien précis Exemple : détection d’objets divers qui devient une détection de signes

Slide 46

Slide 46

🚀 Exécution du Notebook 1/2 ▶ “Jouer” les cellules du Notebook (bouton ▶) ⤵ Récupération du dataset ⤵ Récupération des dépendances ✅ Vérification de la configuration matérielle (1 GPU) et logicielle (Ultralytics) ⤵ Récupération du modèle yolov8n pré-entraîné sur COCO 🧪 Tester le modèle non entraîné avec une image de joueur

Slide 47

Slide 47

🚀 Exécution du Notebook 2/2 🧠 Entraîner le modèle avec les données du dataset “pierre / feuille / ciseaux” 🔬 Etude de la qualité du modèle 🧪 Tester le nouveau modèle, l’importance des “epochs” 💾 Sauvegarder le modèle

Slide 48

Slide 48

🎉 Bravo vous avez créé votre premier modèle d’intelligence artificielle !! 🎉

Slide 49

Slide 49

Entraînement avec AI Training Clique Images

Slide 50

Slide 50

📄 Instructions https://github.com/devrel-workshop/101-AI-and-py/bl ob/main/docs/training.md https://ovh.to/z84huKC

Slide 51

Slide 51

ℹ Rappels ● ● C’est le même compte que celui du Notebook C’est le même object storage que celui du Notebook

Slide 52

Slide 52

🐳 Création de l’image 📂 Répertoire de travail : src/training - Dockerfile: le dockerfile pour construire l’image Requirements.txt : fichier de gestion des dépendances Python Train.py : script Python pour l’entraînement du modèle 🐳 Fabrication de l’image 🐛 (Optionnel) Run / debug locallement ⬆ Push de l’image dans la registry : <user>/ <pass>

Slide 53

Slide 53

Docker Docker image build 🌠 push 📝 Docker file Registry ⚙ Conteneur d’exécution pull

Slide 54

Slide 54

⚡ Création du Job ovhai job run \ —name attendee-$STUDENT_ID-yolov8-rock-paper-scissors-training-job \ —gpu 1 \ —env NB_OF_EPOCHS=50 \ —volume attendee-$STUDENT_ID-data@GRA:/workspace/attendee:RW:cache \ —unsecure-http \ $REGISTRY_NAME/$STUDENT_ID/yolov8-rock-paper-scissors-training-job:1.0.0

Slide 55

Slide 55

🚑 Plan B ovhai job run \ —name attendee-$STUDENT_ID-yolov8-rock-paper-scissors-training-job \ —gpu 1 \ —env NB_OF_EPOCHS=50 \ —volume attendee-$STUDENT_ID-data@GRA:/workspace/attendee:RW:cache \ —unsecure-http \ $REGISTRY_NAME/backup/yolov8-rock-paper-scissors-training-job:1.0.0

Slide 56

Slide 56

🪵 Suivi des logs ovhai job logs -f <job id>

Slide 57

Slide 57

📺 Et dans la console d’admin OVHcloud ?

Slide 58

Slide 58

🎉 Bravo vous avez entrainé votre premier modèle d’intelligence artificielle !! 🎉

Slide 59

Slide 59

Application avec AI Deploy

Slide 60

Slide 60

📄 Instructions https://github.com/devrel-workshop/101-AI-and-py/bl ob/main/docs/application.md https://ovh.to/4tu9bxc

Slide 61

Slide 61

🐳 Création de l’image 📂 Répertoire de travail : src/app - Dockerfile: le dockerfile pour construire l’image Requirements.txt : fichier de gestion des dépendances Python App.py : script Python pour la création de l’application 🗑 Si nécessaire supprimer les images d’entraînement 🐳 Fabrication de l’image 🐛 (Optionnel) Run / debug locallement ⬆ Push de l’image dans la registry : lab-user / Passw0rd

Slide 62

Slide 62

⚡ Création de l’application ovhai app run \ —name attendee-$STUDENT_ID-yolov8-rock-paper-scissors-app \ —cpu 1 \ —default-http-port 8501 \ —volume attendee-$STUDENT_ID-data@GRA:/workspace/attendee:RW:cache \ —unsecure-http \ $REGISTRY_NAME/$STUDENT_ID/yolov8-rock-paper-scissors-app:1.0.0

Slide 63

Slide 63

🚑 Plan B ● ● Copie du modèle entraîné: ovhai bucket object copy attendee-backup-data@GRA —container attendee-$STUDENT_ID-data best.torchscript best.torchscript Exécution de l’image backup: ovhai app run \ —name attendee-$STUDENT_ID-yolov8-rock-paper-scissors-app \ —cpu 1 \ —default-http-port 8501 \ —volume attendee-$STUDENT_ID-data@GRA:/workspace/attendee:RW:cache \ —unsecure-http \ $REGISTRY_NAME/backup/yolov8-rock-paper-scissors-app:1.0.0

Slide 64

Slide 64

🔗 Accéder à l’application $ ovhai app list | grep lab/$STUDENT_ID ID STATE IMAGE <app id> RUNNING xxxxxx/lab/<ID>/yolov8-rock-paper-scissors-app:1.0.0 REPLICAS SCALING_STRATEGY 1 fixed (1) $ ovhai app <app id> Status: State: RUNNING Available Replicas: 0 Url: https://<app id>.app.gra.ai.cloud.ovh.net Info Url: https://ui.gra.ai.cloud.ovh.net/app/<app id> Monitoring Url: https://monitoring.gra.ai.cloud.ovh.net/d/app?var-app=<app id>&from=1695898895255

Slide 65

Slide 65

🪵 Suivi des logs ovhai app logs -f <app id>

Slide 66

Slide 66

📺 Et dans la console d’admin OVHcloud ?

Slide 67

Slide 67

🎉 Bravo vous avez créé votre première application basée sur l’intelligence artificielle !! 🎉

Slide 68

Slide 68

🧳 Take away / Next ? 🧳

Slide 69

Slide 69

Un workflow typique dans l’IA 📀 Il faut une très grande quantité de données 📀 La plupart du temps la donnée est brute ⚠ Attention aux coûts (stockage, lecture / écriture)

Slide 70

Slide 70

Un workflow typique dans l’IA 🎛 Créer des datasets nettoyés (Valeurs manquantes, Normalisation, …) 🎛 Il existe des datasets pré-créés (gratuits ou payants) 🎯 Le but est de traduire les données brutes dans un langage compréhensible par le modèle

Slide 71

Slide 71

Un workflow typique dans l’IA 🧠 Le “cerveau” de l’application 󰳘 Fait par les Data Scientist 🧮 Basé sur des opérations mathématiques 📝 Utilise des éditeurs (JupyterLab, complexes Matlab, VSCode, …) 🧠 Réseaux de neurones artificiels

Slide 72

Slide 72

Un workflow typique dans l’IA ✨ Permet d’optimiser le modèle 📀 Il faut une grande quantité de données 🔋 Nécessite de la puissance de calcul 💰 Il existe des modèles pré-entrainés (payants ou gratuits)

Slide 73

Slide 73

Un workflow typique dans l’IA 📝 Utilise le modèle pour faire l’inférence 🎨 Peut exposer une API ou une interface utilisateur

Slide 74

Slide 74

Les métiers Jason Leung

Slide 75

Slide 75

La ou le Data Scientist 🔎 Analyse et manipulation des données 󰳕 Développement 🧠 Machine Learning 🧮 Mathématiques % Statistiques

Slide 76

Slide 76

La ou le Machine Learning engineer 󰳘 Data Science 🧮 Mathématiques % Statistiques 󰳕 Développement 🧰 Frameworks & outillages IA ☁ Cloud et conteneurisation 󰳗 Ops

Slide 77

Slide 77

La développeuse ou le développeur 🐍 Python 󰳘 Concepts IA 󰳕 Développement 🧰 Frameworks et outillages IA ☁ Cloud et conteneurisation

Slide 78

Slide 78

Goh Rhy Yan

Slide 79

Slide 79

Les biais 🤷 Les IA sont créées par des humains 📀 Les données sont de plus ou moins bonne qualité 🏷 La labellisation des données est souvent faite par des humains

Slide 80

Slide 80

L’IA n’est pas source de vérité % Cela ne reste que des statistiques 🤔 C’est une estimation 🤖 Cela n’est qu’une aide à la décision et ne remplace pas un·e humain·e

Slide 81

Slide 81

La course à la puissance 📀 Toujours plus de données 🧮 De modèles toujours plus gros avec plus de couches 🔋 Plus de puissance de calcul 📈 Des consommations qui augmentent 🧠 Utiliser l’IA de manière “intelligente” 📉 Avoir de la performance avec moins de consommation

Slide 82

Slide 82

La diversité des CDE ● ● ● Un éditeur Le code du projet Un conteneur d’execution Gitpod GitHub Codespaces Jetbrains Space Amazon Dev environments

Slide 83

Slide 83

Python ● ● ● Facile à apprendre Complet pour votre futur Langage de prédilection du monde de l’IA aujourd’hui … ● ● ● … d’autres langages sont prêts pour demain Chaque contexte mérite son langage Pas de langage miracle universel Golearn Langchain pour Java Tensorflow js

Slide 84

Slide 84

Merci !!!! Slides https://ovh.to/ofPmXWY Feedbacks https://ovh.to/FEM3HSz Code source https://ovh.to/ofPmni6

Slide 85

Slide 85

OVHcloud recrute : https://ovh.to/4tu91L6 Eric Prouzet

Slide 86

Slide 86

Slide 87

Slide 87

🔗 Ressources (liens, …) 🔗

Slide 88

Slide 88

Liens 🔗 Documentations OVHcloud univers IA 🔗 Repository GitHub du workshop 🔗 https://unsplash.com/ 🔗 https://deepai.org/machine-learning-glossary-and-terms/weight-artificial-neural-network 🔗 https://medium.com/mlearning-ai/introduction-to-neural-networks-weights-biases-and-activation-270ebf2545aa 📽 https://www.youtube.com/@MachineLearnia 🔗 https://gitpod.io