Niveau de difficulté : ✯✯☆
⚠️ Mise en garde rassurante : si le mot « terminal » ou « ligne de commande » te fait reculer, sache que c’est une peur bien plus commune que justifiée. L’absence de fenêtres et de boutons à cliquer peut donner l’impression de « toucher au moteur » de l’ordinateur. En réalité, tu n’es qu’en train de donner des instructions écrites à ta machine — exactement comme tu le ferais avec un collègue par message. Tu crées un dossier, tu déplaces un fichier, tu lances un programme. C’est le même geste du quotidien, simplement sans images. Et contrairement à ce qu’on pourrait croire, tu ne risques rien sur ton Windows habituel : tout se passe dans un environnement sécurisé et isolé, un peu comme une pièce à part dans ta maison. Alors respire, copie les commandes une par une, et laisse-toi surprendre par la simplicité. A contrario, si vraiment tu es allergique à la technique et que tout ce que je t’ai dit t’effraie déjà, tu trouveras ton bonheur dans cet article d’Antoine qui détaille ce qu’est Scribe, une application de transcription de fichiers audio et vidéo, mais sans aucun contrôle ni aucune garantie quant à la souveraineté de tes données, ni la qualité de la transcription.
Introduction
Imagine un instant que tu visionnes une conférence vidéo de 45 minutes en vue d’en incorporer le contenu dans ton prochain cours. Au lieu de griffonner des notes éparses dans un carnet, tu obtiens, en quelques minutes, l’intégralité du texte prononcé, propre et structuré. Tu peux ensuite, grâce à l’IA, le résumer, en extraire un questionnaire et même en générer un diaporama.
C’est exactement ce que permettent quelques outils gratuits et open source, puissants et pourtant accessibles.
Pour un enseignant, la transcription automatique n’est pas qu’une commodité technique. C’est un levier pédagogique majeur :
- Accessibilité : tu peux fournir une version textuelle à tes apprenants en situation de handicap auditif ou avec des difficultés de concentration.
- Gain de temps considérable : plus besoin de visionner trois fois la même vidéo pour en extraire les points clés.
- Base de travail solide : le texte brut devient le matériau de départ pour créer des supports variés (fiches, exercices, scripts de révision).
Et la bonne nouvelle ? Tu n’as besoin d’aucun logiciel coûteux. Seulement de ton ordinateur Windows et d’une poignée de commandes simples que nous allons détailler pas à pas.
L’installation : ton atelier numérique en 4 étapes (vulgarisé)
Nous allons installer un petit atelier de transcription directement dans Windows. Cela passe par WSL (Windows Subsystem for Linux), une fonctionnalité de Windows 10 et 11 qui te permet de faire tourner un environnement Linux (ici, Ubuntu) sans quitter ton bureau habituel. Ne t’inquiète pas, c’est beaucoup plus simple qu’il n’y paraît, et une fois installé, tu n’auras plus à y toucher.
Étape 1 : installer WSL et Ubuntu 24.04
Avant de lancer la moindre commande, il faut ouvrir le bon outil. Sous Windows, cela passe par PowerShell. Voici comment y accéder, pas à pas :
- Clique sur le bouton Démarrer (le logo Windows en bas à gauche de ton écran).
- Tape directement au clavier :
PowerShell. - Windows affiche une application nommée Windows PowerShell (ou simplement PowerShell).
- Fais un clic droit dessus, puis sélectionne « Exécuter en tant qu’administrateur ».
- Une fenêtre noire s’ouvre. C’est ici que tu vas taper la commande suivante :
wsl --install -d Ubuntu-24.04
📝 Ce qui se passe ici :
wslappelle le sous-système Windows pour Linux.--installlui dit de tout mettre en place, et-d Ubuntu-24.04précise que tu veux la dernière version d’Ubuntu comme environnement. C’est un peu comme demander à Windows de monter une petite boutique Linux à côté de ton bureau habituel.
Ton ordinateur va télécharger et installer Ubuntu. Une fois terminé, il te demandera de créer un nom d’utilisateur et un mot de passe. Note-les bien, tu en auras besoin à chaque utilisation.
💡 Conseil du technopédagogue : pense à WSL comme à une « machine virtuelle légère ». Elle vit à côté de Windows, te permet d’utiliser des outils très puissants, sans rien changer à ton environnement habituel.
Étape 2 : mettre à jour le système et installer les dépendances
Une fois l’installation de WSL terminée, ton ordinateur va probablement te demander de redémarrer. Après le redémarrage, cherche « Ubuntu » dans le menu Démarrer et clique dessus. Une fenêtre noire va alors s’ouvrir : c’est ton terminal Ubuntu.
📝 Repère visuel : le terminal Ubuntu ressemble à PowerShell (fenêtre noire avec du texte blanc), mais il affiche généralement ton nom d’utilisateur suivi d’un
@et du mot~$en début de ligne. C’est ici que tu vas passer le plus clair de ton temps.
Il faut maintenant s’assurer que tout est à jour et installer deux programmes de base : python3 (le langage qui fait tourner nos outils) et ffmpeg (l’outil qui manipule les fichiers vidéo et audio).
Exécute cette commande :
sudo apt update && sudo apt upgrade -y
📝 Décomposons cette commande :
sudote donne les droits d’administrateur (c’est l’équivalent de « exécuter en tant qu’administrateur » sous Windows).aptest le gestionnaire de paquets d’Ubuntu : c’est le magasin d’applications en ligne de commande.updatemet à jour la liste des applications disponibles.&&signifie « si la première partie réussit, passe à la suivante ».upgrade -ytélécharge les mises à jour disponibles, etyrépond automatiquement « oui » aux questions de confirmation.
Puis installe les programmes indispensables :
sudo apt install -y python3 python3-pip ffmpeg
📝 Détail :
installdemande àaptd’installer des paquets.-yévite de te demander confirmation à chaque étape.python3est le langage de programmation,python3-pipest son installateur d’extensions, etffmpegest le couteau suisse du multimédia (il découpe, convertit et assemble les fichiers audio et vidéo).
Laisse l’installation se dérouler. C’est l’étape la plus longue, mais elle est entièrement automatique.
Étape 3 : installer pipx pour gérer nos outils proprement
Nous allons installer nos deux outils stars, yt-dlp et whisper, via pipx. Pourquoi pipx ? Parce qu’il isole chaque outil dans son propre environnement, ce qui évite les conflits et garantit une installation propre et durable.
sudo apt install -y pipx
📝 Explication rapide : on utilise à nouveau
aptpour installerpipx, un petit gestionnaire spécialisé dans les outils Python.
Puis :
pipx ensurepath
📝
ensurepaths’assure que ton système saura où trouver les programmes installés parpipx. Sans ça, Ubuntu pourrait te répondre « commande inconnue » quand tu taperasyt-dlp.
Ferme et rouvre ton terminal Ubuntu pour que les modifications soient prises en compte.
Étape 4 : installer yt-dlp et whisper
yt-dlp est l’outil qui va télécharger la piste audio depuis une URL (YouTube, etc.). whisper est le modèle d’intelligence artificielle d’OpenAI qui va transformer cette piste audio en texte. Bonne nouvelle : les deux sont gratuits et open source. Tu n’as aucun abonnement à payer.
📝 Précision utile : la version de Whisper installée ici (
openai-whisper) fonctionne directement sur ton ordinateur. C’est différent de l’API payante d’OpenAI : ici, le modèle et le code source sont libres, tu télécharges le tout une fois pour toutes, et tu l’utilises autant que tu veux sans dépenser un centime.
pipx install yt-dlp
pipx install openai-whisper
📝 En deux mots :
pipx installtélécharge l’outil sur internet et l’installe dans son propre coin, bien à l’abri. Tu n’as pas besoin de comprendre les détails techniques : ça fonctionne et ça ne casse rien.
Vérifie que tout est bien installé :
yt-dlp --version
whisper --help
📝
yt-dlp --versionaffiche simplement le numéro de version pour confirmer que l’outil est bien installé.whisper --helpaffiche la liste des options disponibles : si tu vois un texte explicatif apparaître sans message d’erreur, c’est que Whisper est lui aussi prêt à fonctionner.
Si les deux commandes répondent correctement, félicitations : ton atelier de transcription est prêt à l’emploi !
💡 Comment rouvrir ton terminal plus tard ? L’installation n’est à faire qu’une seule fois. Ensuite, pour retrouver ton terminal Ubuntu au quotidien, tu as plusieurs options :
- Méthode classique : clic sur Démarrer → tape
Ubuntu→ clique sur l’application.- Raccourci clavier rapide : appuie sur
Windows + R, tapewt, puisEntrée. Cela ouvre le Terminal Windows (une sorte de point central, installé par défaut sur Windows 11 et souvent avec WSL sur Windows 10). Tu verras peut-être plusieurs onglets en haut ; clique sur celui qui s’appelle « Ubuntu ».- Depuis l’explorateur de fichiers : dans n’importe quel dossier, fais un clic droit dans un espace vide tout en maintenant la touche
Shift. Si l’option « Ouvrir dans Terminal » apparaît, tu pourras choisir le profil Ubuntu.
Le terminal en 2 minutes : les commandes pour te sentir chez toi dans WSL
Avant de lancer tes premières transcriptions, voici un mini-lexique des commandes les plus utiles pour naviguer dans ton terminal Ubuntu. Pas de panique : tu n’as pas besoin de les apprendre par cœur, garde cette section sous le coude.
Se repérer dans les dossiers
| Commande | À quoi elle sert | Exemple concret |
|---|---|---|
pwd | Print working directory : obtenir le chemin d’accès vers le dossier dans lequel tu te trouves. | pwd → /home/tonnom/transcriptions |
ls | Liste le contenu du dossier actuel. | ls ou ls -la pour voir aussi les fichiers cachés |
cd | Change directory : te déplace dans un autre dossier. | cd ~/transcriptions |
cd .. | Remonte d’un cran dans l’arborescence. | Si tu es dans /home/tonnom/transcriptions, cd .. te ramène dans /home/tonnom |
cd ~ | Retourne directement dans ton dossier personnel. | Raccourci pratique quand tu es perdu |
Créer, déplacer et renommer des fichiers
| Commande | À quoi elle sert | Exemple concret |
|---|---|---|
mkdir | Make directory : crée un nouveau dossier. | mkdir mes_cours |
touch | Crée un fichier vide (ou met à jour sa date). | touch notes.txt |
mv | Move : déplace ou renomme un fichier. | mv audio.webm archive/ ou mv audio.webm gestion_stress.webm |
cp | Copy : copie un fichier. | cp audio.txt audio_sauvegarde.txt |
rm | Remove : supprime un fichier. ⚠️ Irréversible ! | rm audio.webm |
rm -r | Supprime un dossier et tout son contenu. ⚠️ À utiliser avec prudence ! | rm -r ancien_dossier/ |
En situation réelle : trois séquences de commandes utiles
Séquence A : tu démarres une session de transcription
Tu viens d’ouvrir ton terminal Ubuntu et tu veux tout préparer proprement pour télécharger l’audio d’une vidéo YouTube.
cd ~ # On retourne dans le dossier personnel
mkdir -p transcriptions # On crée le dossier (s'il n'existe pas déjà)
cd transcriptions # On entre dans le dossier
pwd # On vérifie qu'on est bien au bon endroit
Séquence B : tu as fini de travailler et tu veux ranger tes fichiers
Whisper vient de générer audio.txt, audio.srt et audio.vtt.
📝 Que signifient ces trois fichiers ?
audio.txt: la transcription brute au format texte universel (ouvrable partout).audio.srt: les sous-titres avec horodatages au format SubRip, reconnu par YouTube, VLC et la plupart des lecteurs vidéo.audio.vtt: un format de sous-titres plus moderne, très utilisé pour le web, les plateformes d’apprentissage en ligne et les activités vidéo interactives comme celles d’H5P.
Tu veux renommer le fichier texte pour qu’il soit plus explicite, puis ouvrir le dossier dans Windows pour le copier ailleurs.
mv audio.txt cours_revolution.txt # Renommage propre
ls # Vérification du contenu
explorer.exe . # Ouverture dans l'explorateur Windows
Séquence C : tu veux nettoyer les fichiers intermédiaires
Tu as déjà récupéré le fichier texte (.txt) et les sous-titres (.srt) dont tu as besoin. L’audio original (le fichier .webm téléchargé depuis YouTube par yt-dlp) et le fichier .vtt ne te servent plus.
rm audio.webm # Supprime l'audio source
cp audio.srt sous_titres.srt # Copie de sécurité des sous-titres
rm audio.vtt # Supprime le fichier vtt inutile
ls # Vérification : il ne reste que ce qu'on veut garder
⚠️ Rappel : la commande
rmest définitive. Il n’y a pas de corbeille dans le terminal.
Quelques astuces pour gagner du temps
- Flèche du haut (↑) : rappelle la dernière commande tapée. Indispensable pour corriger une faute de frappe.
- Tabulation (⇥) : l’autocomplétion magique. Tape les premières lettres d’un nom de fichier et appuie sur
Tabpour que le terminal le complète tout seul. clear: nettoie l’écran du terminal quand il y a trop de texte.explorer.exe .: ouvre le dossier actuel dans l’explorateur Windows. Très pratique pour glisser-déposer des fichiers !
💡 Mémotechnique :
~(tilde) représente toujours ton dossier personnel (/home/tonnom). C’est ton « bureau Linux ». Tu peux donc écrire~/transcriptionsau lieu du chemin complet.
Guide pratique : les commandes clés pour extraire du texte
Passons à l’action. Voici les deux scénarios que tu rencontreras le plus souvent : extraire le texte d’une vidéo en ligne (YouTube) et transcrire un fichier audio ou vidéo déjà présent sur ton ordinateur.
Scénario 1 : transcrire une vidéo YouTube
La méthode la plus efficace est en deux temps : d’abord extraire la piste audio avec yt-dlp, puis la transcrire avec whisper.
1.1 extraire l’audio avec yt-dlp
Dans ton terminal Ubuntu, crée d’abord un dossier de travail :
mkdir -p ~/transcriptions && cd ~/transcriptions
📝
mkdir -pcrée le dossier sans râler s’il existe déjà.&&enchaîne la création aveccdqui te place directement dedans. En une ligne, tu as préparé ton bureau de travail.
Puis, télécharge uniquement l’audio de la vidéo YouTube :
yt-dlp -f "bestaudio" -o "audio.%(ext)s" "URL_DE_LA_VIDEO"
📝 Détail des options :
f "bestaudio"dit àyt-dlpde ne prendre que la meilleure piste audio disponible.o "audio.%(ext)s"définit le nom du fichier de sortie : il s’appelleraaudio.webm(ouaudio.m4aselon le format trouvé)."URL_DE_LA_VIDEO"est bien sûr l’adresse de la vidéo à traiter.
Par exemple :
yt-dlp -f "bestaudio" -o "audio.%(ext)s" "<https://youtu.be/rYiMgN1h0-A>"
💡 Vérifie le fichier obtenu : selon la vidéo, l’extension peut être
.webm,.m4aou.opus. Avant de passer à l’étape suivante, tapelspour voir le nom exact du fichier téléchargé.
1.2 transcrire l’audio avec whisper
Maintenant que le fichier audio est dans ton dossier, transforme-le en texte. Voici la commande de base :
whisper audio.webm --model medium --language French
📝 Les paramètres expliqués :
audio.webmest le fichier à transcrire.-model mediumchoisit le modèle d’IA de taille moyenne (bon compromis qualité/vitesse).-language Frenchprécise que la vidéo est en français, ce qui aide l’IA à mieux reconnaître les mots.
Whisper va générer plusieurs fichiers, notamment :
audio.txt: la transcription brute, sans horodatage. L’extension.txtest le format texte le plus universel : tu peux l’ouvrir avec n’importe quel logiciel (Bloc-notes, Word, Google Docs…).audio.srt: la transcription avec horodatages au format SubRip Text. C’est le standard mondial pour les sous-titres de films et vidéos ; YouTube, VLC et presque tous les lecteurs le reconnaissent.audio.vtt: la transcription avec horodatages au format Video Text Track. C’est un cousin du.srt, plus récent, surtout utilisé pour les vidéos en ligne, les plateformes d’apprentissage en ligne et les activités vidéo interactives comme celles d’H5P.
💡 Astuce : le modèle
mediumoffre un excellent compromis entre précision et vitesse. Si ton ordinateur est très puissant, tu peux essayerlargepour une qualité encore supérieure. Si tu veux aller plus vite,smallsuffit pour une qualité déjà très honorable.
Scénario 2 : transcrire un fichier local
Tu as un enregistrement de visioconférence (fichier .mp4, .mov, .mp3, etc.) ? Le principe est identique, et encore plus simple.
Copie ton fichier dans le dossier ~/transcriptions de WSL. Depuis l’explorateur Windows, ce dossier est accessible à l’adresse suivante :
\\wsl$\Ubuntu-24.04\home\VOTRE_NOM_UTILISATEUR\transcriptions
📝 Alternative : sur certaines versions récentes de Windows 11, le chemin peut aussi s’écrire
\\wsl.localhost\Ubuntu-24.04\home\VOTRE_NOM_UTILISATEUR\transcriptions. Si le premier ne fonctionne pas, essaie le second.
Puis, dans le terminal Ubuntu :
cd ~/transcriptions
whisper nom_de_ton_fichier.mp4 --model medium --language French
Whisper accepte directement la plupart des formats vidéo et audio.
Avec ou sans horodatages ?
| Besoin | Commande / Fichier à utiliser |
|---|---|
| Tu veux un texte brut pour le copier-coller dans un traitement de texte ou un LLM | Ouvre le fichier .txt généré |
| Tu veux synchroniser le texte avec la vidéo (sous-titres, montage) | Utilise le fichier .srt ou .vtt |
| Tu veux une transcription segmentée avec les horodatages directement dans un seul fichier | whisper audio.webm --model medium --language French --output_format txt ne génère que le .txt, mais pour forcer les horodatages dans un format texte, préfère .srt |
Pour générer uniquement le fichier texte simple (sans créer les .srt et .vtt) :
whisper audio.webm --model medium --language French --output_format txt
📝
--output_format txtdit à Whisper de ne produire qu’un seul fichier texte. Pratique quand tu veux éviter d’avoir trop de fichiers à trier.
Cas d’usage concrets pour l’enseignant
Voici comment cette petite chaîne de traitement peut s’intégrer concrètement dans ton quotidien de classe.
1. extraire le contenu d’un documentaire
Tu prépares une formation sur la communication non violente et tu as trouvé une conférence passionnante sur YouTube. Au lieu de le regarder en entier pour en prendre des notes manuscrites, tu en extrais la transcription en 10 minutes. Tu disposes alors du script complet pour en sélectionner les citations et les passages clés.
2. archiver et réutiliser une visioconférence
Tu as participé à un webinaire académique passionnant, ou tu as enregistré une réunion de préparation de module ? Transforme cet enregistrement en texte. Tu obtiens un compte-rendu consultable et dans lequel tu peux faire des recherches, sans effort.
3. créer un support de révision pour les apprenants
Ta session de formation a été filmée (ou tu as utilisé une capsule vidéo pédagogique). En générant la transcription, tu peux fournir à tes apprenants un support de révision complet. C’est un outil d’apprentissage extrêmement puissant pour ceux qui ont besoin de relire pour ancrer les concepts.
4. produire des sous-titres pour l’accessibilité
Grâce au fichier .srt généré automatiquement, tu peux sous-titrer tes propres vidéos pédagogiques avant de les mettre en ligne. Un geste simple qui change la donne pour de nombreux apprenants.
La synergie avec l’IA : de la vidéo au support de cours en quelques prompts
Voici sans doute la partie la plus enthousiasmante. Une fois que tu as ce texte brut entre les mains, tu peux le donner à manger à un modèle de langage (LLM) comme ChatGPT, Claude ou Gemini. Le résultat est bluffant de rapidité.
💡 Envie d’aller plus loin ? Les prompts ci-dessous sont des premiers pas. Si tu veux apprendre à les affiner, les structurer et obtenir des résultats encore plus pertinents, n’hésite pas à utiliser le Promptologue, ton assistant en optimisation de prompts.
Voici quelques exemples de prompts que tu peux utiliser, en copiant-collant ta transcription :
Générer un résumé structuré
« Voici la transcription d’une conférence de 30 minutes sur la gestion du stress au travail. Peux-tu m’en faire un résumé structuré en 5 points clés, accessible à un public adulte en formation continue ? »
Créer un quiz de compréhension
« À partir du texte ci-dessous, génère un quiz de 10 questions à choix multiples (QCM) avec les réponses. Varie entre des questions sur les faits, les dates et les définitions. »
Générer un diaporama
« Transforme cette transcription en un plan de diaporama pédagogique. Propose un titre par slide, 3 puces maximum par diapositive, et une idée d’accroche pour l’oral. »
Créer une fiche de révision
« Extrais de ce texte les définitions importantes et les dates clés. Présente-les sous forme de fiche de révision claire et condensée. »
Produire une analyse critique
« Analyse les arguments principaux présentés dans cette vidéo. Identifie les biais éventuels et propose des contre-arguments que je pourrais présenter en formation. »
Le gain de temps est immense. Ce qui t’aurait pris une heure de préparation manuelle se transforme en une opération de quelques minutes. Tu gardes le contrôle pédagogique (tu relis, tu adaptes, tu sélectionnes), mais la partie laborieuse — la mise en forme et l’extraction — est déléguée à l’IA.
Conclusion : ta boîte à outils pédagogique de demain
L’association de yt-dlp, whisper et d’un LLM crée une chaîne de valeur pédagogique complète et gratuite :
- Récupération de n’importe quelle ressource vidéo.
- Transcription automatique et de haute qualité.
- Transformation instantanée en supports de cours variés grâce à l’IA.
C’est un investissement technique modeste (une installation d’une quinzaine de minutes) pour un retour pédagogique considérable. En tant qu’enseignant, tu te libères du temps pour ce qui compte vraiment : l’interaction avec tes apprenants et la conception de séquences impactantes.
Alors, prêt à tester ta première transcription ? Ouvre ton terminal, copie ta première URL YouTube, et laisse la magie opérer.

Laisser un commentaire