Viens dompter ta première IA en Python

A presentation at Snowcamp in January 2024 in Grenoble, France by Thierry Chantier

Slide 1

Viens dompter ta première IA en Python 🧠 🐍 󰠁󰳕 SNOWCAMP 2024

Slide 2

Slide 3

📝 Pense bête et liens 🔗 https://bit.ly/101-ai-lab

Slide 4

Combien de personnes participent au lab ? Fotis Fotopoulos

Slide 5

MERCI !!!

Slide 6

Thierry Chantier DevRel @OVHcloud TitiMoby@mamot.fr TitiMoby 🔗 https://noti.st/titimoby

Slide 7

Stéphane Philippart 🏷 🥑 DeveloperAdvocate@OVHCloud 🦄 🏷 Co-créateur de TADx (meetup à Tours) 🧠 Padawan Intelligence Artificielle 🏕 🐦 @wildagsx 🔗 https://philippart-s.github.io/blog 🐙 https://github.com/philippart-s/ 💬 https://www.linkedin.com/in/philippartstephane/

Slide 8

📝 Que va-t-on voir aujourd’hui ? 🧠 Les principes dans l’intelligence artificielle 🐍 Le kit de survie Python pour suivre ce workshop 󰠁 Un CDE c’est quoi et ça sert à quoi ? ☁ Les ressources utilisées chez OVHcloud 󰳕 En avant pour le développement : un notebook, un job d’entraînement et une application utilisant le modèle

Slide 9

Qui êtes vous ? ● ● ● ● ● Dev Dev Python Data Scientist Machine Learning Engineer Autre

Slide 10

Intelligence Artificielle

Slide 11

Les différentes catégories de l’IA 👉 Actuellement IA ~ Machine Learning 👉 Artificial Narrow Intelligence (ANI) / Weak AI 👉 Artificial General Intelligence (AGI) / Strong AI 👉 Artificial Super Intelligence (ASI)

Slide 12

Apprendre … 👉 IA : Techniques pour simuler les capacités “intelligentes” d’un être humain 👉 ML : Techniques pour qu’une machine apprenne sans algorithme supplémentaire par l’ingestion de données d’exemples 👉 DL : ML utilisant poussée des réseaux de neurones pour améliorer les performances dans les déductions

Slide 13

Le Machine Learning dans le détail 👉 Supervised learning : apprentissage proche de ce que l’on fait avec l’Homme 👉 Unsupervised learning : apprentissage par patterns et regroupements 👉 Reinforcement learning: apprentissage par renforcement avec système de “récompenses”

Slide 14

Sans donnée … pas d’intelligence ! 🧹 La plupart du temps les données sont brutes : il faudra les nettoyer, les pré-traiter, les transformer, … 📀 Il va falloir les transformer en Dataset (en gros une base de données pour IA) et les labelliser 🧪 Un dataset contient les données d’apprentissage, de validations et de tests 🧮 Enfin, ce sont des vecteurs et autres matrices qui seront manipulés par le modèle

Slide 15

Exemple d’un dataset Label correspondant : 1 0.64296875 0.63046875 0.10078125 0.175 Classe personne Coordonnées du carré

Slide 16

Les modèles dans l’IA 🧠 C’est le cerveau de votre application 🔢 C’est ici que l’on retrouve les formules mathématiques 👉 Différents en fonction des tâches de machine learning

Slide 17

Le coût associé au modèle ✨ C’est ce qui va permettre de connaître la qualité d’un modèle 📏 C’est l’écart entre la valeur rendue et la valeur idéale

Slide 18

Deep learning & Réseau de neurones 💪 L’étape d’après … Plus puissante, plus complexe 🧠 Analogie avec les neurones humain plutôt fausse ↔ Essentiellement due au mécanisme d’inter-connexions ⚖ w* sont les poids et permettent d’ajuster le comportement du réseau 🐛 b* sont les biais pour rendre le modèle “plus réaliste” et influer sur la fonction d’activation 🔀 F* sont les fonctions d’activation

Slide 19

GPU vs CPU �� CPU �� GPU ��

Slide 20

Cloud Development Environment

Slide 21

Cloud Development Environment Le code du projet Un éditeur de code Un environnement d’exécution

Slide 22

A la demande ● ● ● ● Pour tester une idée Expérimenter différentes solutions Partager une session de travail entre collègues … sky is the limit (et le coût de votre offre de CDE 😇 )

Slide 23

Reproductible ● Environnement décrit précisément ● Configuration versionnée avec le code ● Cohérence entre l’environnement et le code lui même

Slide 24

Le CDE pour cet atelier : Gitpod ● ● ● ● Simplement ajouter https://gitpod.io/# devant l’URL de votre repository Deux fichiers 📝 de configuration : .gitpod.dockerfile .gitpod.yml Possibilité d’avoir par projets ou globales : ○ Clés SSH ○ variables d’environnement Tunneling possible avec le poste local

Slide 25

Python : 101 pour cet atelier

Slide 26

Python : pourquoi ce choix ? ● 🛠 Langage simple d’approche mais qui reste complet ● 🔋 “All batteries included” ● 🔬 Choix des communautés data science et data analysis

Slide 27

Python : concepts pour aujourd’hui ● 📁 Les fichiers requirements.txt ● 📝 L’instruction import ● 📚 Notebooks

Slide 28

Faire de l’Intelligence Artificielle à OVHcloud Public Cloud AI Notebooks : JupyterLab et VSCode, images pré-construites AI Training : GPU as a Service AI Deploy : CaaS pour l’IA

Slide 29

Workshop time !

Slide 30

🔀 Fork du repository GitHub Projet à forker : https://github.com/devrel-workshop/101-AI-and-py https://ovh.to/ofPmni6

Slide 31

Démarrage de GitPod

Slide 32

⚡ Initialisation de l’environnement GitPod ● ● ● Créer un compte GitPod (se connecter avec son compte GitHub) Prendre le modèle large Plus d’informations : section getting started du README

Slide 33

🗺 Architecture de l’application

Slide 34

Modèle avec AI Notebook

Slide 35

📄 Instructions https://github.com/devrel-workshop/101-AI-and-py/bl ob/main/docs/00-notebook.md https://ovh.to/Zz5AnB

Slide 36

📺 Et dans la console d’admin OVHcloud ?

Slide 37

🏞 YoloV8 🔡 You Only Look Once 🔗 https://docs.ultralytics.com/ - https://github.com/ultralytics/ultralytics 🏞 Classification / Détection / Segmentation / Détection / Pose 🏞 Entraîné sur le dataset COCO 🐍 Lib python prête à l’emploi 🧠 Utilisation du plus petit modèle avec “seulement” 3.2 millions de paramètres

Slide 38

Un mot sur le transfert learning 🔄 Réutiliser un modèle déjà entraîné 🔎 Le spécialiser dans un domaine bien précis Exemple : détection d’objets divers qui devient une détection de signes

Slide 39

🚀 Exécution du Notebook 1/2 ▶ “Jouer” les cellules du Notebook (bouton ▶) ⤵ Récupération du dataset ⤵ Récupération des dépendances ✅ Vérification de la configuration matérielle (1 GPU) et logicielle (Ultralytics) ⤵ Récupération du modèle yolov8n pré-entraîné sur COCO 🧪 Tester le modèle non entraîné avec une image de joueur

Slide 40

🚀 Exécution du Notebook 2/2 🧠 Entraîner le modèle avec les données du dataset “pierre / feuille / ciseaux” 🔬 Etude de la qualité du modèle 🧪 Tester le nouveau modèle, l’importance des “epochs” 💾 Sauvegarder le modèle

Slide 41

⚡ Accès au Notebook 🛠 via le json attendee-conf.json dans le workspace de projet Gitpod 💻 Via la CLI : $ ovhai notebook list —token $AI_TOKEN ID NAME STATE xx-xx-xx-xx-xx blabla_0 RUNNING AGE FRAMEWORK VERSION EDITOR 4h conda-py311-cudaDevel11.8 jupyterlab conda URL https://xx-xx-xx-xx-xx.notebook.bhs.ai.cloud.ovh.net

Slide 42

🎉 Bravo vous avez créé votre premier modèle d’intelligence artificielle !! 🎉

Slide 43

Entraînement avec AI Training Clique Images

Slide 44

📄 Instructions https://github.com/devrel-workshop/101-AI-and-py/bl ob/main/docs/01-training.md https://ovh.to/tFHguV

Slide 45

ℹ Rappels ● ● C’est le même token que celui du Notebook C’est le même object storage que celui du Notebook

Slide 46

🐳 Création de l’image 📂 Répertoire de travail : src/training - Dockerfile: le dockerfile pour construire l’image Requirements.txt : fichier de gestion des dépendances Python Train.py : script Python pour l’entraînement du modèle 🐳 Fabrication de l’image 🐛 (Optionnel) Run / debug locallement ⬆ Push de l’image dans la registry : <user>/ <pass>

Slide 47

Docker Docker image build 🌠 push 📝 Docker file Registry ⚙ Conteneur d’exécution pull

Slide 48

⚡ Création du Job 💻 Avec la CLI : ovhai job run \ —token $AI_TOKEN \ —name $STUDENT_ID-yolov8-rock-paper-scissors-training-job \ —gpu 1 \ —env NB_OF_EPOCHS=10 \ —volume $STUDENT_ID@S3GRA:/workspace/attendee:RW:cache \ —unsecure-http \ $REGISTRY_NAME/$STUDENT_ID/yolov8-rock-paper-scissors-training-job:1.0.0

Slide 49

🚑 Plan B ovhai job run \ —token $AI_TOKEN \ —name $STUDENT_ID-yolov8-rock-paper-scissors-training-job \ —gpu 1 \ —env NB_OF_EPOCHS=10 \ —volume $STUDENT_ID@S3GRA:/workspace/attendee:RW:cache \ —unsecure-http \ $REGISTRY_NAME/backup-0/yolov8-rock-paper-scissors-training-job:1.0.0

Slide 50

🪵 Suivi des logs ovhai job logs -f <job id> —token $AI_TOKEN

Slide 51

📺 Et dans la console d’admin OVHcloud ?

Slide 52

🎉 Bravo vous avez entrainé votre premier modèle d’intelligence artificielle !! 🎉

Slide 53

Application avec AI Deploy

Slide 54

ℹ Rappels ● ● C’est le même token que celui du Notebook C’est le même object storage que celui du Notebook

Slide 55

📄 Instructions https://github.com/devrel-workshop/101-AI-and-py/bl ob/main/docs/02-application.md https://ovh.to/DGoWaJ

Slide 56

🐳 Création de l’image 📂 Répertoire de travail : src/app - Dockerfile: le dockerfile pour construire l’image Requirements.txt : fichier de gestion des dépendances Python App.py : script Python pour la création de l’application 🗑 Si nécessaire supprimer les images d’entraînement 🐳 Fabrication de l’image 🐛 (Optionnel) Run / debug locallement ⬆ Push de l’image dans la registry : lab-user / Passw0rd

Slide 57

⚡ Création de l’application 💻 Avec la CLI : ovhai app run \ —token $AI_TOKEN \ —name $STUDENT_ID-yolov8-rock-paper-scissors-app \ —cpu 1 \ —default-http-port 8501 \ —volume $STUDENT_ID@S3GRA:/workspace/attendee:RW:cache \ —unsecure-http \ $REGISTRY_NAME/$STUDENT_ID/yolov8-rock-paper-scissors-app:1.0.0

Slide 58

🚑 Plan B ovhai app run \ —token $AI_TOKEN \ —name $STUDENT_ID-yolov8-rock-paper-scissors-app \ —cpu 1 \ —default-http-port 8501 \ —volume backup-0@S3GRA:/workspace/attendee:RW:cache \ —unsecure-http \ $REGISTRY_NAME/backup-0/yolov8-rock-paper-scissors-app:1.0.0

Slide 59

🪵 Suivi des logs ovhai app logs -f <app id> —token $AI_TOKEN

Slide 60

🔗 Accéder à l’application 💻 Avec la CLI : $ ovhai app get <AppId> —token $AI_TOKEN Status: State: SCALING Internal Service Ip: ~ Available Replicas: 0 Url: https://<AppId>.app.gra.ai.cloud.ovh.net Grpc Address: <AppId>.app-grpc.gra.ai.cloud.ovh.net:443 Info Url: https://ui.gra.ai.cloud.ovh.net/app/<AppId> Monitoring Url: https://monitoring.gra.ai.cloud.ovh.net/d/app?var-app=<AppId>&from=1704720216889

Slide 61

📺 Et dans la console d’admin OVHcloud ?

Slide 62

🎉 Bravo vous avez créé votre première application basée sur l’intelligence artificielle !! 🎉

Slide 63

🧳 Take away / Next ? 🧳

Slide 64

Un workflow typique dans l’IA 📀 Il faut une très grande quantité de données 📀 La plupart du temps la donnée est brute ⚠ Attention aux coûts (stockage, lecture / écriture)

Slide 65

Un workflow typique dans l’IA 🎛 Créer des datasets nettoyés (Valeurs manquantes, Normalisation, …) 🎛 Il existe des datasets pré-créés (gratuits ou payants) 🎯 Le but est de traduire les données brutes dans un langage compréhensible par le modèle

Slide 66

Un workflow typique dans l’IA 🧠 Le “cerveau” de l’application 󰳘 Fait par les Data Scientist 🧮 Basé sur des opérations mathématiques 📝 Utilise des éditeurs (JupyterLab, complexes Matlab, VSCode, …) 🧠 Réseaux de neurones artificiels

Slide 67

Un workflow typique dans l’IA ✨ Permet d’optimiser le modèle 📀 Il faut une grande quantité de données 🔋 Nécessite de la puissance de calcul 💰 Il existe des modèles pré-entrainés (payants ou gratuits)

Slide 68

Un workflow typique dans l’IA 📝 Utilise le modèle pour faire l’inférence 🎨 Peut exposer une API ou une interface utilisateur

Slide 69

Les métiers Jason Leung

Slide 70

La ou le Data Scientist 🔎 Analyse et manipulation des données 󰳕 Développement 🧠 Machine Learning 🧮 Mathématiques % Statistiques

Slide 71

La ou le Machine Learning engineer 󰳘 Data Science 🧮 Mathématiques % Statistiques 󰳕 Développement 🧰 Frameworks & outillages IA ☁ Cloud et conteneurisation 󰳗 Ops

Slide 72

La développeuse ou le développeur 🐍 Python 󰳘 Concepts IA 󰳕 Développement 🧰 Frameworks et outillages IA ☁ Cloud et conteneurisation

Slide 73

Goh Rhy Yan

Slide 74

Les biais 🤷 Les IA sont créées par des humains 📀 Les données sont de plus ou moins bonne qualité 🏷 La labellisation des données est souvent faite par des humains

Slide 75

L’IA n’est pas source de vérité % Cela ne reste que des probabilités 🤔 C’est une estimation 🤖 Cela n’est qu’une aide à la décision et ne remplace pas un·e humain·e

Slide 76

La course à la puissance 📀 Toujours plus de données 🧮 De modèles toujours plus gros avec plus de couches 🔋 Plus de puissance de calcul 📈 Des consommations qui augmentent 🧠 Utiliser l’IA de manière “intelligente” 📉 Avoir de la performance avec moins de consommation

Slide 77

La diversité des CDE ● ● ● Un éditeur Le code du projet Un conteneur d’execution Gitpod GitHub Codespaces Jetbrains Space Amazon Dev environments

Slide 78

Python ● ● ● Facile à apprendre Complet pour votre futur Langage de prédilection du monde de l’IA aujourd’hui … ● ● ● … d’autres langages sont prêts pour demain Chaque contexte mérite son langage Pas de langage miracle universel Golearn Langchain pour Java Tensorflow js

Slide 79

Merci !!!! Slides https://ovh.to/4tu91 Feedbacks https://ovh.to/RLzqZH Code source https://ovh.to/ofPmni6

Slide 80

🔗 Ressources (liens, …) 🔗

Slide 81

Liens 🔗 Documentations OVHcloud univers IA 🔗 Repository GitHub du workshop 🔗 https://unsplash.com/ 🔗 https://deepai.org/machine-learning-glossary-and-terms/weight-artificial-neural-network 🔗 https://medium.com/mlearning-ai/introduction-to-neural-networks-weights-biases-and-activation-270ebf2545aa 📽 https://www.youtube.com/@MachineLearnia 🔗 https://gitpod.io