Transforme n'importe quelle vidéo en support de cours en 3 clics

Niveau de difficulté : ✯✯☆

⚠️ Mise en garde rassurante : si le mot « terminal » ou « ligne de commande » te fait reculer, sache que c’est une peur bien plus commune que justifiée. L’absence de fenêtres et de boutons à cliquer peut donner l’impression de « toucher au moteur » de l’ordinateur. En réalité, tu n’es qu’en train de donner des instructions écrites à ta machine — exactement comme tu le ferais avec un collègue par message. Tu crées un dossier, tu déplaces un fichier, tu lances un programme. C’est le même geste du quotidien, simplement sans images. Et contrairement à ce qu’on pourrait croire, tu ne risques rien sur ton Windows habituel : tout se passe dans un environnement sécurisé et isolé, un peu comme une pièce à part dans ta maison. Alors respire, copie les commandes une par une, et laisse-toi surprendre par la simplicité. A contrario, si vraiment tu es allergique à la technique et que tout ce que je t’ai dit t’effraie déjà, tu trouveras ton bonheur dans cet article d’Antoine qui détaille ce qu’est Scribe, une application de transcription de fichiers audio et vidéo, mais sans aucun contrôle ni aucune garantie quant à la souveraineté de tes données, ni la qualité de la transcription.

Table des matières

Introduction

Imagine un instant que tu visionnes une conférence vidéo de 45 minutes en vue d’en incorporer le contenu dans ton prochain cours. Au lieu de griffonner des notes éparses dans un carnet, tu obtiens, en quelques minutes, l’intégralité du texte prononcé, propre et structuré. Tu peux ensuite, grâce à l’IA, le résumer, en extraire un questionnaire et même en générer un diaporama.

C’est exactement ce que permettent quelques outils gratuits et open source, puissants et pourtant accessibles.

Pour un enseignant, la transcription automatique n’est pas qu’une commodité technique. C’est un levier pédagogique majeur :

Accessibilité : tu peux fournir une version textuelle à tes apprenants en situation de handicap auditif ou avec des difficultés de concentration.
Gain de temps considérable : plus besoin de visionner trois fois la même vidéo pour en extraire les points clés.
Base de travail solide : le texte brut devient le matériau de départ pour créer des supports variés (fiches, exercices, scripts de révision).

Et la bonne nouvelle ? Tu n’as besoin d’aucun logiciel coûteux. Seulement de ton ordinateur Windows et d’une poignée de commandes simples que nous allons détailler pas à pas.

L’installation : ton atelier numérique en 4 étapes (vulgarisé)

Nous allons installer un petit atelier de transcription directement dans Windows. Cela passe par WSL (Windows Subsystem for Linux), une fonctionnalité de Windows 10 et 11 qui te permet de faire tourner un environnement Linux (ici, Ubuntu) sans quitter ton bureau habituel. Ne t’inquiète pas, c’est beaucoup plus simple qu’il n’y paraît, et une fois installé, tu n’auras plus à y toucher.

Étape 1 : installer WSL et Ubuntu 24.04

Avant de lancer la moindre commande, il faut ouvrir le bon outil. Sous Windows, cela passe par PowerShell. Voici comment y accéder, pas à pas :

Clique sur le bouton Démarrer (le logo Windows en bas à gauche de ton écran).
Tape directement au clavier : PowerShell.
Windows affiche une application nommée Windows PowerShell (ou simplement PowerShell).
Fais un clic droit dessus, puis sélectionne « Exécuter en tant qu’administrateur ».
Une fenêtre noire s’ouvre. C’est ici que tu vas taper la commande suivante :

wsl --install -d Ubuntu-24.04

📝 Ce qui se passe ici : wsl appelle le sous-système Windows pour Linux. --install lui dit de tout mettre en place, et -d Ubuntu-24.04 précise que tu veux la dernière version d’Ubuntu comme environnement. C’est un peu comme demander à Windows de monter une petite boutique Linux à côté de ton bureau habituel.

Ton ordinateur va télécharger et installer Ubuntu. Une fois terminé, il te demandera de créer un nom d’utilisateur et un mot de passe. Note-les bien, tu en auras besoin à chaque utilisation.

💡 Conseil du technopédagogue : pense à WSL comme à une « machine virtuelle légère ». Elle vit à côté de Windows, te permet d’utiliser des outils très puissants, sans rien changer à ton environnement habituel.

Étape 2 : mettre à jour le système et installer les dépendances

Une fois l’installation de WSL terminée, ton ordinateur va probablement te demander de redémarrer. Après le redémarrage, cherche « Ubuntu » dans le menu Démarrer et clique dessus. Une fenêtre noire va alors s’ouvrir : c’est ton terminal Ubuntu.

📝 Repère visuel : le terminal Ubuntu ressemble à PowerShell (fenêtre noire avec du texte blanc), mais il affiche généralement ton nom d’utilisateur suivi d’un @ et du mot ~$ en début de ligne. C’est ici que tu vas passer le plus clair de ton temps.

Il faut maintenant s’assurer que tout est à jour et installer deux programmes de base : python3 (le langage qui fait tourner nos outils) et ffmpeg (l’outil qui manipule les fichiers vidéo et audio).

Exécute cette commande :

sudo apt update && sudo apt upgrade -y

📝 Décomposons cette commande :

sudo te donne les droits d’administrateur (c’est l’équivalent de « exécuter en tant qu’administrateur » sous Windows).

apt est le gestionnaire de paquets d’Ubuntu : c’est le magasin d’applications en ligne de commande.

update met à jour la liste des applications disponibles.

&& signifie « si la première partie réussit, passe à la suivante ».

upgrade -y télécharge les mises à jour disponibles, et y répond automatiquement « oui » aux questions de confirmation.

Puis installe les programmes indispensables :

sudo apt install -y python3 python3-pip ffmpeg

📝 Détail : install demande à apt d’installer des paquets. -y évite de te demander confirmation à chaque étape. python3 est le langage de programmation, python3-pip est son installateur d’extensions, et ffmpeg est le couteau suisse du multimédia (il découpe, convertit et assemble les fichiers audio et vidéo).

Laisse l’installation se dérouler. C’est l’étape la plus longue, mais elle est entièrement automatique.

Étape 3 : installer `pipx` pour gérer nos outils proprement

Nous allons installer nos deux outils stars, yt-dlp et whisper, via pipx. Pourquoi pipx ? Parce qu’il isole chaque outil dans son propre environnement, ce qui évite les conflits et garantit une installation propre et durable.

sudo apt install -y pipx

📝 Explication rapide : on utilise à nouveau apt pour installer pipx, un petit gestionnaire spécialisé dans les outils Python.

Puis :

pipx ensurepath

📝 ensurepath s’assure que ton système saura où trouver les programmes installés par pipx. Sans ça, Ubuntu pourrait te répondre « commande inconnue » quand tu taperas yt-dlp.

Ferme et rouvre ton terminal Ubuntu pour que les modifications soient prises en compte.

Étape 4 : installer `yt-dlp` et `whisper`

yt-dlp est l’outil qui va télécharger la piste audio depuis une URL (YouTube, etc.). whisper est le modèle d’intelligence artificielle d’OpenAI qui va transformer cette piste audio en texte. Bonne nouvelle : les deux sont gratuits et open source. Tu n’as aucun abonnement à payer.

📝 Précision utile : la version de Whisper installée ici (openai-whisper) fonctionne directement sur ton ordinateur. C’est différent de l’API payante d’OpenAI : ici, le modèle et le code source sont libres, tu télécharges le tout une fois pour toutes, et tu l’utilises autant que tu veux sans dépenser un centime.

pipx install yt-dlp
pipx install openai-whisper

📝 En deux mots : pipx install télécharge l’outil sur internet et l’installe dans son propre coin, bien à l’abri. Tu n’as pas besoin de comprendre les détails techniques : ça fonctionne et ça ne casse rien.

Vérifie que tout est bien installé :

yt-dlp --version
whisper --help

📝 yt-dlp --version affiche simplement le numéro de version pour confirmer que l’outil est bien installé. whisper --help affiche la liste des options disponibles : si tu vois un texte explicatif apparaître sans message d’erreur, c’est que Whisper est lui aussi prêt à fonctionner.

Si les deux commandes répondent correctement, félicitations : ton atelier de transcription est prêt à l’emploi !

💡 Comment rouvrir ton terminal plus tard ? L’installation n’est à faire qu’une seule fois. Ensuite, pour retrouver ton terminal Ubuntu au quotidien, tu as plusieurs options :

Méthode classique : clic sur Démarrer → tape Ubuntu → clique sur l’application.

Raccourci clavier rapide : appuie sur Windows + R, tape wt, puis Entrée. Cela ouvre le Terminal Windows (une sorte de point central, installé par défaut sur Windows 11 et souvent avec WSL sur Windows 10). Tu verras peut-être plusieurs onglets en haut ; clique sur celui qui s’appelle « Ubuntu ».

Depuis l’explorateur de fichiers : dans n’importe quel dossier, fais un clic droit dans un espace vide tout en maintenant la touche Shift. Si l’option « Ouvrir dans Terminal » apparaît, tu pourras choisir le profil Ubuntu.

Le terminal en 2 minutes : les commandes pour te sentir chez toi dans WSL

Avant de lancer tes premières transcriptions, voici un mini-lexique des commandes les plus utiles pour naviguer dans ton terminal Ubuntu. Pas de panique : tu n’as pas besoin de les apprendre par cœur, garde cette section sous le coude.

Se repérer dans les dossiers

Commande	À quoi elle sert	Exemple concret
`pwd`	Print working directory : obtenir le chemin d’accès vers le dossier dans lequel tu te trouves.	`pwd` → `/home/tonnom/transcriptions`
`ls`	Liste le contenu du dossier actuel.	`ls` ou `ls -la` pour voir aussi les fichiers cachés
`cd`	Change directory : te déplace dans un autre dossier.	`cd ~/transcriptions`
`cd ..`	Remonte d’un cran dans l’arborescence.	Si tu es dans `/home/tonnom/transcriptions`, `cd ..` te ramène dans `/home/tonnom`
`cd ~`	Retourne directement dans ton dossier personnel.	Raccourci pratique quand tu es perdu

Créer, déplacer et renommer des fichiers

Commande	À quoi elle sert	Exemple concret
`mkdir`	Make directory : crée un nouveau dossier.	`mkdir mes_cours`
`touch`	Crée un fichier vide (ou met à jour sa date).	`touch notes.txt`
`mv`	Move : déplace ou renomme un fichier.	`mv audio.webm archive/` ou `mv audio.webm gestion_stress.webm`
`cp`	Copy : copie un fichier.	`cp audio.txt audio_sauvegarde.txt`
`rm`	Remove : supprime un fichier. ⚠️ Irréversible !	`rm audio.webm`
`rm -r`	Supprime un dossier et tout son contenu. ⚠️ À utiliser avec prudence !	`rm -r ancien_dossier/`

En situation réelle : trois séquences de commandes utiles

Séquence A : tu démarres une session de transcription

Tu viens d’ouvrir ton terminal Ubuntu et tu veux tout préparer proprement pour télécharger l’audio d’une vidéo YouTube.

cd ~                           # On retourne dans le dossier personnel
mkdir -p transcriptions        # On crée le dossier (s'il n'existe pas déjà)
cd transcriptions              # On entre dans le dossier
pwd                            # On vérifie qu'on est bien au bon endroit

Séquence B : tu as fini de travailler et tu veux ranger tes fichiers

Whisper vient de générer audio.txt, audio.srt et audio.vtt.

📝 Que signifient ces trois fichiers ?

audio.txt : la transcription brute au format texte universel (ouvrable partout).

audio.srt : les sous-titres avec horodatages au format SubRip, reconnu par YouTube, VLC et la plupart des lecteurs vidéo.

audio.vtt : un format de sous-titres plus moderne, très utilisé pour le web, les plateformes d’apprentissage en ligne et les activités vidéo interactives comme celles d’H5P.

Tu veux renommer le fichier texte pour qu’il soit plus explicite, puis ouvrir le dossier dans Windows pour le copier ailleurs.

mv audio.txt cours_revolution.txt    # Renommage propre
ls                                   # Vérification du contenu
explorer.exe .                       # Ouverture dans l'explorateur Windows

Séquence C : tu veux nettoyer les fichiers intermédiaires

Tu as déjà récupéré le fichier texte (.txt) et les sous-titres (.srt) dont tu as besoin. L’audio original (le fichier .webm téléchargé depuis YouTube par yt-dlp) et le fichier .vtt ne te servent plus.

rm audio.webm               # Supprime l'audio source
cp audio.srt sous_titres.srt # Copie de sécurité des sous-titres
rm audio.vtt                # Supprime le fichier vtt inutile
ls                          # Vérification : il ne reste que ce qu'on veut garder

⚠️ Rappel : la commande rm est définitive. Il n’y a pas de corbeille dans le terminal.

Quelques astuces pour gagner du temps

Flèche du haut (↑) : rappelle la dernière commande tapée. Indispensable pour corriger une faute de frappe.
Tabulation (⇥) : l’autocomplétion magique. Tape les premières lettres d’un nom de fichier et appuie sur Tab pour que le terminal le complète tout seul.
clear : nettoie l’écran du terminal quand il y a trop de texte.
explorer.exe . : ouvre le dossier actuel dans l’explorateur Windows. Très pratique pour glisser-déposer des fichiers !

💡 Mémotechnique : ~ (tilde) représente toujours ton dossier personnel (/home/tonnom). C’est ton « bureau Linux ». Tu peux donc écrire ~/transcriptions au lieu du chemin complet.

Guide pratique : les commandes clés pour extraire du texte

Passons à l’action. Voici les deux scénarios que tu rencontreras le plus souvent : extraire le texte d’une vidéo en ligne (YouTube) et transcrire un fichier audio ou vidéo déjà présent sur ton ordinateur.

Scénario 1 : transcrire une vidéo YouTube

La méthode la plus efficace est en deux temps : d’abord extraire la piste audio avec yt-dlp, puis la transcrire avec whisper.

1.1 extraire l’audio avec `yt-dlp`

Dans ton terminal Ubuntu, crée d’abord un dossier de travail :

mkdir -p ~/transcriptions && cd ~/transcriptions

📝 mkdir -p crée le dossier sans râler s’il existe déjà. && enchaîne la création avec cd qui te place directement dedans. En une ligne, tu as préparé ton bureau de travail.

Puis, télécharge uniquement l’audio de la vidéo YouTube :

yt-dlp -f "bestaudio" -o "audio.%(ext)s" "URL_DE_LA_VIDEO"

📝 Détail des options :

f "bestaudio" dit à yt-dlp de ne prendre que la meilleure piste audio disponible.

o "audio.%(ext)s" définit le nom du fichier de sortie : il s’appellera audio.webm (ou audio.m4a selon le format trouvé).

"URL_DE_LA_VIDEO" est bien sûr l’adresse de la vidéo à traiter.

Par exemple :

yt-dlp -f "bestaudio" -o "audio.%(ext)s" "<https://youtu.be/rYiMgN1h0-A>"

💡 Vérifie le fichier obtenu : selon la vidéo, l’extension peut être .webm, .m4a ou .opus. Avant de passer à l’étape suivante, tape ls pour voir le nom exact du fichier téléchargé.

1.2 transcrire l’audio avec `whisper`

Maintenant que le fichier audio est dans ton dossier, transforme-le en texte. Voici la commande de base :

whisper audio.webm --model medium --language French

📝 Les paramètres expliqués :

audio.webm est le fichier à transcrire.

-model medium choisit le modèle d’IA de taille moyenne (bon compromis qualité/vitesse).

-language French précise que la vidéo est en français, ce qui aide l’IA à mieux reconnaître les mots.

Whisper va générer plusieurs fichiers, notamment :

audio.txt : la transcription brute, sans horodatage. L’extension .txt est le format texte le plus universel : tu peux l’ouvrir avec n’importe quel logiciel (Bloc-notes, Word, Google Docs…).
audio.srt : la transcription avec horodatages au format SubRip Text. C’est le standard mondial pour les sous-titres de films et vidéos ; YouTube, VLC et presque tous les lecteurs le reconnaissent.
audio.vtt : la transcription avec horodatages au format Video Text Track. C’est un cousin du .srt, plus récent, surtout utilisé pour les vidéos en ligne, les plateformes d’apprentissage en ligne et les activités vidéo interactives comme celles d’H5P.

💡 Astuce : le modèle medium offre un excellent compromis entre précision et vitesse. Si ton ordinateur est très puissant, tu peux essayer large pour une qualité encore supérieure. Si tu veux aller plus vite, small suffit pour une qualité déjà très honorable.

Scénario 2 : transcrire un fichier local

Tu as un enregistrement de visioconférence (fichier .mp4, .mov, .mp3, etc.) ? Le principe est identique, et encore plus simple.

Copie ton fichier dans le dossier ~/transcriptions de WSL. Depuis l’explorateur Windows, ce dossier est accessible à l’adresse suivante :

\\wsl$\Ubuntu-24.04\home\VOTRE_NOM_UTILISATEUR\transcriptions

📝 Alternative : sur certaines versions récentes de Windows 11, le chemin peut aussi s’écrire \\wsl.localhost\Ubuntu-24.04\home\VOTRE_NOM_UTILISATEUR\transcriptions. Si le premier ne fonctionne pas, essaie le second.

Puis, dans le terminal Ubuntu :

cd ~/transcriptions
whisper nom_de_ton_fichier.mp4 --model medium --language French

Whisper accepte directement la plupart des formats vidéo et audio.

Avec ou sans horodatages ?

Besoin	Commande / Fichier à utiliser
Tu veux un texte brut pour le copier-coller dans un traitement de texte ou un LLM	Ouvre le fichier `.txt` généré
Tu veux synchroniser le texte avec la vidéo (sous-titres, montage)	Utilise le fichier `.srt` ou `.vtt`
Tu veux une transcription segmentée avec les horodatages directement dans un seul fichier	`whisper audio.webm --model medium --language French --output_format txt` ne génère que le `.txt`, mais pour forcer les horodatages dans un format texte, préfère `.srt`

Pour générer uniquement le fichier texte simple (sans créer les .srt et .vtt) :

whisper audio.webm --model medium --language French --output_format txt

📝 --output_format txt dit à Whisper de ne produire qu’un seul fichier texte. Pratique quand tu veux éviter d’avoir trop de fichiers à trier.

Cas d’usage concrets pour l’enseignant

Voici comment cette petite chaîne de traitement peut s’intégrer concrètement dans ton quotidien de classe.

1. extraire le contenu d’un documentaire

Tu prépares une formation sur la communication non violente et tu as trouvé une conférence passionnante sur YouTube. Au lieu de le regarder en entier pour en prendre des notes manuscrites, tu en extrais la transcription en 10 minutes. Tu disposes alors du script complet pour en sélectionner les citations et les passages clés.

2. archiver et réutiliser une visioconférence

Tu as participé à un webinaire académique passionnant, ou tu as enregistré une réunion de préparation de module ? Transforme cet enregistrement en texte. Tu obtiens un compte-rendu consultable et dans lequel tu peux faire des recherches, sans effort.

3. créer un support de révision pour les apprenants

Ta session de formation a été filmée (ou tu as utilisé une capsule vidéo pédagogique). En générant la transcription, tu peux fournir à tes apprenants un support de révision complet. C’est un outil d’apprentissage extrêmement puissant pour ceux qui ont besoin de relire pour ancrer les concepts.

4. produire des sous-titres pour l’accessibilité

Grâce au fichier .srt généré automatiquement, tu peux sous-titrer tes propres vidéos pédagogiques avant de les mettre en ligne. Un geste simple qui change la donne pour de nombreux apprenants.

La synergie avec l’IA : de la vidéo au support de cours en quelques prompts

Voici sans doute la partie la plus enthousiasmante. Une fois que tu as ce texte brut entre les mains, tu peux le donner à manger à un modèle de langage (LLM) comme ChatGPT, Claude ou Gemini. Le résultat est bluffant de rapidité.

💡 Envie d’aller plus loin ? Les prompts ci-dessous sont des premiers pas. Si tu veux apprendre à les affiner, les structurer et obtenir des résultats encore plus pertinents, n’hésite pas à utiliser le Promptologue, ton assistant en optimisation de prompts.

Voici quelques exemples de prompts que tu peux utiliser, en copiant-collant ta transcription :

Générer un résumé structuré

« Voici la transcription d’une conférence de 30 minutes sur la gestion du stress au travail. Peux-tu m’en faire un résumé structuré en 5 points clés, accessible à un public adulte en formation continue ? »

Créer un quiz de compréhension

« À partir du texte ci-dessous, génère un quiz de 10 questions à choix multiples (QCM) avec les réponses. Varie entre des questions sur les faits, les dates et les définitions. »

Générer un diaporama

« Transforme cette transcription en un plan de diaporama pédagogique. Propose un titre par slide, 3 puces maximum par diapositive, et une idée d’accroche pour l’oral. »

Créer une fiche de révision

« Extrais de ce texte les définitions importantes et les dates clés. Présente-les sous forme de fiche de révision claire et condensée. »

Produire une analyse critique

« Analyse les arguments principaux présentés dans cette vidéo. Identifie les biais éventuels et propose des contre-arguments que je pourrais présenter en formation. »

Le gain de temps est immense. Ce qui t’aurait pris une heure de préparation manuelle se transforme en une opération de quelques minutes. Tu gardes le contrôle pédagogique (tu relis, tu adaptes, tu sélectionnes), mais la partie laborieuse — la mise en forme et l’extraction — est déléguée à l’IA.

Conclusion : ta boîte à outils pédagogique de demain

L’association de yt-dlp, whisper et d’un LLM crée une chaîne de valeur pédagogique complète et gratuite :

Récupération de n’importe quelle ressource vidéo.
Transcription automatique et de haute qualité.
Transformation instantanée en supports de cours variés grâce à l’IA.

C’est un investissement technique modeste (une installation d’une quinzaine de minutes) pour un retour pédagogique considérable. En tant qu’enseignant, tu te libères du temps pour ce qui compte vraiment : l’interaction avec tes apprenants et la conception de séquences impactantes.

Alors, prêt à tester ta première transcription ? Ouvre ton terminal, copie ta première URL YouTube, et laisse la magie opérer.

Transforme n’importe quelle vidéo en support de cours en 3 clics