Évaluation et outils d’évaluation à l’ère de l’IA

Table des matières

Introduction

Comme l’affirme Eaton (2023), l’avènement progressif de nouvelles technologies dans le champ éducatif rend de plus en en plus futile la course à la détection de la fraude académique.

C’est dans ce contexte particulier du Postplagiat (Postplagiarism) que l’Enseignement pour adultes doit naviguer, souvent à contre-temps, pour repenser la manière qu’il a de mener des évaluations souvent peu adaptées aux nouvelles réalités. Car en suivant de manière stricte certains dossiers pédagogiques, il paraît de plus en plus difficile d’établir si l’apprenant maîtrise réellement les compétences (ou acquis d’apprentissage) qu’il est sensé maîtriser.

En effet, l’émergence de l’Intelligence artificielle (IA) générative , notamment avec des outils comme Gemini, Claude ou ChatGPT, a fondamentalement remis en cause la fiabilité et la validité de l’évaluation traditionnelle des travaux écrits, en particulier les rendus finaux non surveillés ou réalisés à domicile. Car l’IA générative est capable de produire des textes d’une qualité jugée acceptable pour de nombreuses tâches d’évaluation, même pour des travaux complexes (Gonsalves, 2025 ; Lodge et al., 2023). Cela soulève dès lors la question de savoir si les productions soumises témoignent réellement des compétences de l’étudiant ou de sa maîtrise des acquis.

Face à ce défi, le consensus parmi les experts en évaluation est de changer de paradigme, en se concentrant non plus uniquement sur le « produit fini », mais sur le « processus » par lequel l’étudiant parvient à cette production.

Évaluer le processus d’apprentissage permet de révéler le cheminement intellectuel de l’étudiant, ses mécanismes d’élaboration et sa capacité à exercer son jugement critique, des aspects que l’IA ne peut pas encore simuler efficacement (Bobula, 2024; Lodge et al., 2023).

Malgré tout il n’y a pas de recette magique et cet article comme d’autres n’a pas vocation a vous donner une solution clef en main que vous n’auriez qu’à dupliquer. Il vous faudra expérimenter par vous même, déterminer ce qui fonctionne et ne fonctionne pas.

L’objectif de cet article est donc de vous permettre de réfléchir et d’appréhender les types d’évaluation que vous pourriez mener auprès de vos apprenants en utilisant 4 stratégies:

  • La stratégie de la « traçabilité »,
  • La stratégie de l’hybridation,
  • La stratégie du « design anti-IA”,
  • La stratégie de l’intégration.

Dans le schéma ci-dessous, vous pourrez apercevoir de manière holistique ce que nous évoquerons dans cet article.

Aperçu des différentes stratégies d'évaluation à l'ère de l'IA

La stratégie de la « traçabilité »

La stratégie de la « traçabilité » qui permet d’évaluer le processus d’élaboration, vise à rendre visible le travail de l’étudiant et à recueillir des preuves tangibles de son engagement et de sa réflexion personnelle (Curwood, 2024).

L’historique des versions

L’utilisation de documents partagés (ou de systèmes permettant de conserver l’historique) permet de capturer les étapes de la production écrite des apprenants. Ce qui permet de caractériser s’il y a bien eu production humaine en examinant le travail écrit au cours du temps, en examinant les différentes étapes d’élaboration de l’apprenant. Grâce à l’écriture progressive, les “ratures”, les pauses et les hésitations, il est possible de déterminer que c’est bien l’apprenant qui a écrit le texte qu’il nous soumet. A contrario, si l’on observe une apparition soudaine d’un grand nombre de mots (copier-coller), c’est souvent un indicateur d’une production externe, y compris par l’IA (Curwood, 2024).

L’évaluation du processus au fil du temps peut être facilitée par l’examen de ces parties constitutives et activités qui révèlent les changements et la progression de l’étudiant.

L’historique des versions dans Google Docs

Dans Google Docs, si votre apprenant partage avec vous son document en vous désignant éditeur (ou si c’est vous qui partagez le document avec lui) et si vous spécifiez bien dans les consignes qu’il doit travailler dans ce document, il vous sera possible d’évaluer le processus d’élaboration du document et de vérifier un recours intempestif à l’IA.

Chemin d'accès de l'historique des versions dans Google Doc
Pour afficher les versions d’un document dans Google Docs, c’est très simple: Fichier > Historique des versions > Afficher l’historique des versions
Capture d'écran avec l'historique des versions
Le volet de droite permet de naviguer dans les différentes versions et voir quelles sont les modifications qui ont été apportées au cours du temps

Les jalons intermédiaires (les brouillons ou drafts)

Plutôt que d’attendre un unique rendu final, il est recommandé de morceler l’évaluation en plusieurs étapes intermédiaires ou soumissions de brouillons (draft submissions). Cette approche, qui s’inscrit dans un processus itératif, permet de suivre l’évolution des compétences de l’étudiant au fil du temps.

Le plan détaillé, la bibliographie annotée et le premier brouillon sont les premiers jalons qui permettent de vérifier l’engagement continu de l’étudiant et de s’assurer qu’il développe les compétences requises. La soumission de brouillons et de réflexions est une méthode recommandée pour l’évaluation. L’exigence d’une bibliographie annotée fait partie des stratégies visant à encourager la pensée critique sur les sources et à garantir l’originalité du travail. Si l’évaluation repose sur un processus itératif intégrant du feedback (provenant de l’enseignant, de pairs ou même de l’IA), la notation peut se concentrer sur la manière dont l’étudiant répond à ce feedback afin de démontrer le développement de son jugement. De plus, le fractionnement du travail en une série d’évaluations formatives avant la note sommative peut aider à minimiser l’influence de l’IA générative sur l’ensemble du travail (Bobula, 2024; Coulibaly et Fofana, 2025; Peters et Angelov, 2025).

La vidéo explicative (screencasting/composante orale)

L’intégration d’une composante orale ou vidéo vise à établir un lien direct entre l’étudiant et le contenu qu’il a produit, le forçant à démontrer sa compréhension et son jugement.

L’évaluation des acquis des étudiants peut passer par des méthodes de diversification des traces d’apprentissage, telles que les présentations, les performances ou les autres formats numériques. Les tâches orales, comme les présentations ou les discussions guidées, sont considérées comme une forme d’évaluation hautement authentique qui préserve l’intégrité académique. En complément des travaux écrits, les enseignants peuvent exiger des soumissions vidéo ou audio dans lesquelles les étudiants discutent de leurs essais ou réalisent une réflexion métacognitive sur leur processus de rédaction. Enfin, pour vérifier la connaissance réelle que l’étudiant a de son propre travail, notamment si l’on soupçonne l’utilisation d’une IA, il est possible d’avoir recours à un examen oral impromptu (viva voce). L’étudiant qui ne saurait pas expliquer les choix argumentatifs ou structurels de son texte révélerait un manque d’appropriation du contenu (Rudolph et al., 2023; Erhardt et al., 2025).

Cette approche globale (évaluer le processus) est essentielle, car les outils de détection d’IA ne sont pas encore fiables et peuvent générer des faux positifs ou des faux négatifs, rendant la détection une tâche ardue et potentiellement injuste. En se concentrant sur le processus, les éducateurs peuvent s’assurer qu’ils évaluent l’apprentissage humain, la pensée critique et le jugement, plutôt que les capacités de l’outil d’IA.

Il faut évidemment que les apprenants soient mis au courant de ces modalités d’évaluation potentielles que ce soit au niveau du ROI, d’une charte IA ou des consignes d’évaluation surtout dans le cas d’un examen oral viva voce.

N’oubliez pas, à cet égard , que Technopédia peut vous accompagner dans la création des dispositifs d’évaluation ou la création des chartes IA. En effet, en tant qu’enseignants avant tout et technopédagogues ensuite, nous avons au sein de la cellule l’intime conviction que l’Enseignement pour adultes doit se réinventer et nous pouvons vous aider à relever les défis qui se présenteront immanquablement à vous.

La stratégie de l’hybridation

L’émergence rapide de l’Intelligence artificielle générative, telle que ChatGPT, a rendu l’évaluation des travaux écrits non supervisés, qu’il s’agisse de devoirs à la maison ou de travaux de fin d’études, extrêmement problématique en remettant en question l’authenticité et la validité des productions étudiantes. Face à ce défi, la stratégie de l’« hybridation » (la validation en classe) est considérée comme l’une des méthodes les plus robustes pour garantir que les résultats reflètent véritablement le niveau de maîtrise des connaissances et des compétences de l’apprenant.

Cette approche vise à contourner l’enjeu éthique central de l’évaluation, qui est de déterminer comment l’éducateur peut respecter une éthique professionnelle en évaluant la dimension authentique d’une production d’élève (Coulibaly et Fofana, 2025; Audran, 2024).

Voici une discussion approfondie des mécanismes d’hybridation pour les travaux écrits, y compris les travaux de fin d’études, en s’appuyant sur les sources.

L’approche « classe inversée » pour l’évaluation

La méthode d’hybridation implique que l’étudiant prépare le contenu (avec ou sans IA) en amont, mais que la validation des apprentissages se fasse sous surveillance en classe, souvent sur papier ou sur un ordinateur déconnecté, en temps limité. Cette approche est un moyen direct de faire la différence entre une production humaine originale et une production machinique (Gonsalves, 2025; Coulibaly et Fofana, 2025; Audran, 2024).

Mise en œuvre et avantages :

La crise de l’évaluation provoquée par l’IA générative pousse les enseignants à repenser la conception des évaluations et à éviter les travaux trop « formulables » qui pourraient être complétés par un ordinateur, notamment les essais traditionnels.

  1. Changement d’objectif, du produit au processus : Comme nous l’avons vu au point précédent, l’une des réponses les plus efficaces est de déplacer l’accent de l’évaluation du produit final vers le processus d’apprentissage et la manière dont le résultat a été obtenu. En classe, l’apprenant pourrait apporter des preuves des décisions prises, y compris les impasses qu’il a rencontrées et les discuter avec ses camarades de classe et/ou l’enseignant (Bobula, 2024).
  2. La synthèse finale en classe : La rédaction finale ou la synthèse est effectuée en classe, sous surveillance. Ce qui permet de s’assurer que l’apprenant ou l’étudiant maîtrise effectivement les compétences évaluées. Cela garantit que la production témoigne de l’existence de la compétence, et non de la capacité de l’IA à générer un contenu acceptable « à moindre effort » (Audran, 2024; Lez et al., 2023). Critique de la méthode : Bien que le retour aux examens écrits en personne puisse garantir l’authenticité des productions, cette stratégie est vue comme une simple réaction, car elle pourrait encourager l’apprentissage de surface (centré sur la restitution) et ne pas préparer les étudiants aux contextes professionnels où l’IA est intégrée (Peters et Angelov, 2025). L’objectif est donc d’aligner cette validation sur des objectifs d’apprentissage de haut niveau cognitif (cf. la taxonomie de Bloom : analyser, évaluer, créer).

La soutenance orale

La soutenance orale, est une solution particulièrement recommandée car elle repose sur des compétences humaines non automatisables, à savoir la capacité de défendre, d’expliquer et de raisonner en temps réel (Rudolph et al., 2023).

Si en Belgique francophone, la soutenance orale est plutôt l’exception dans les processus d’évaluation, cela se passe différemment dans d’autres systèmes éducatifs. Par exemple, aux USA, sous l’impulsion de la National Commission on Excellence in Education (1983) qui a souligné dans son article “A Nation at Risk: The Imperative for Educational Reform” la nécessité d’enseigner les compétences en communication orale, un grand mouvement d’intégration de la soutenance orale dans les cursus a été initié, en particulier dans les cours d’anglais.

Dès lors, dans les écoles secondaires américaines, la communication orale fait maintenant partie intégrante de chaque unité d’apprentissage et il n’est pas rare qu’un élève doive réaliser environ 3 à 5 présentations orales par semestre.

Cette soutenance orale est cependant encore rare dans l’Enseignement pour adultes (EA), en tout cas, en ce qui concerne les évaluations relatives aux matières conceptuelles et aux stages. Pour les TFE, s’il y a une défense orale prévue, elle se résume souvent à une portion congrue. Or, le passage par l’oral risque d’être nécessaire si l’on veut s’assurer de la bonne maîtrise des acquis d’apprentissage par nos apprenants à l’ère de l’IA.

Les rôles des examens oraux et interactifs

  • Vérification de l’authenticité : Les enseignants peuvent recourir à un examen oral impromptu pour tester la connaissance des étudiants par rapport à leurs propre travail écrit. Si un étudiant a délégué la rédaction d’un texte à une IA générative, il aura du mal à expliquer et à illustrer sa démarche ou à réexpliquer des concepts clés avec un nouvel exemple pertinent. L’IA ne peut pas défendre le travail à la place de l’étudiant (Rudolph et al., 2023; Audran, 2024).
  • Promouvoir l’authenticité : Les entretiens individuels ou de groupe, ou les présentations en classe, sont des activités qui favorisent des interactions réelles et constituent des activités qui permettent de diversifier les traces d’apprentissage. Les évaluations orales sont perçues par les étudiants comme très authentiques et pertinentes pour leur employabilité, et elles favorisent l’intégrité académique (Peters et Angelov, 2025).
  • Évaluation des compétences réelles : Une soutenance orale permet d’évaluer la capacité des étudiants à interagir avec le contenu et à appliquer leurs connaissances, des compétences que l’IA générative, malgré sa capacité à générer des textes de qualité acceptable, ne peut pas simuler. L’étude menée dans des universités ivoiriennes a montré que les enseignants commençaient à prioriser les évaluations par exposé ou projets de groupe pour évaluer les compétences réelles des étudiants (Coulibaly et Fofana, 2025).
  • Soutien à la métacognition : L’évaluation par des travaux combinant texte écrit et discussion orale avec l’enseignant peut également servir à évaluer les habilités métacognitives de l’étudiant, qui doit poser un regard critique sur son propre travail (Lez et al. 2023).

Application aux travaux de fin d’études et mémoires

Pour les travaux de haute importance tels que les mémoires, thèses, ou projets de fin d’études, l’hybridation est cruciale pour assurer l’intégrité académique au niveau du programme.

Sécurisation des moments clés dans le processus d’élaboration du TFE

Selon Lez et al. (2023) et Lodge et al. (2023), il est essentiel d’adopter une approche systémique de l’évaluation qui s’étend sur l’ensemble du programme d’études, plutôt que de se limiter aux unités individuelles.

  1. Sécurité aux points critiques : Au lieu de tenter de sécuriser chaque tâche, la stratégie consiste à identifier et à sécuriser les moments d’évaluation clés au niveau du programme qui sont essentiels pour certifier l’achèvement du programme et l’atteinte des objectifs de fin d’études. Dans certains établissements d’EA, il est déjà parfois prévu explicitement d’interroger les apprenants sur des acquis d’apprentissage relatifs à des unités d’enseignement antérieures à celles investiguées lors du TFE.
  2. Intégration du processus et du jugement critique : Pour un projet de mémoire, cela implique d’évaluer non seulement le produit (le mémoire), mais aussi l’évidence du développement du jugement critique de l’étudiant lors de la formation de l’argument. Le travail peut se faire de manière itérative, en intégrant des rétroactions provenant de diverses sources (pairs, enseignant, et IA générative).
  3. Démonstration concrète et interactive : Les travaux finaux, notamment dans les domaines techniques (informatique, ingénierie), peuvent être sécurisés par des revues de code interactives ou des entretiens réguliers avec les enseignants pour monitorer la progression et l’atteinte des objectifs.
  4. Complexité et nuance : La nature même des travaux de fin d’études doit exiger une analyse détaillée et soutenue des éléments les plus pertinents et une compréhension approfondie du contexte et des nuances. Ce qui est plus difficile pour l’IA générative que pour l’étudiant qui doit normalement être capable de nuancer sa réflexion.

En définitive, la stratégie d’hybridation permet de tirer parti du processus formatif d’une IA générative pour l’apprentissage et l’auto-évaluation (lors de la phase non supervisée), tout en maintenant le contrôle humain et l’assurance de l’intégrité académique (lors de la phase supervisée). L’enjeu est de préparer les étudiants à maîtriser des compétences indispensables dans un monde professionnel redessiné par l’IA, en articulant l’usage des outils avec les finalités formatives.

Schéma sur la stratégie d’hybridation des évaluations

La stratégie du « design anti-IA »

La stratégie du « design anti-IA » vise à rendre l’IA inefficace en allant à l’encontre des faiblesses inhérentes des IA génératives et en concevant des consignes qui exploitent leurs limitations, forçant ainsi les étudiants à s’engager dans une réflexion critique et une construction de connaissances authentiques (Mollick et Mollick, 2023).

Voici une discussion approfondie des stratégies proposées pour rendre l’IA inefficace dans les travaux écrits à domicile, en classe, ainsi que pour les mémoires et les travaux de fin d’études :

L’ancrage personnel ou local : La contextualisation pour l’authenticité

L’une des méthodes les plus efficaces pour déjouer l’IA est de lier l’évaluation à des éléments contextuels spécifiques ou à des expériences individuelles que l’IA ne peut pas simuler ou connaître (Coulibaly et Fofana, 2025; Lez et al., 2023).

L’exploitation des limites de l’IA

Les IA génératives excellent dans les tâches cognitives de routine et la restitution de connaissances générales, mais elles chancellent dans l’analyse complexe, de haut niveau, et dépendante du contexte. Par conséquent, demander aux étudiants d’appliquer des concepts théoriques à des situations précises, locales ou personnelles devient un puissant levier d’évaluation authentique (Bobula, 2024).

  • L’ancrage local (Exemple de la boulangerie) : Il est recommandé de favoriser les évaluations par projet ou exposé, ancrées dans un contexte local. Les modèles d’IA ont du mal à fournir une prise de décision dépendante du contexte dans des scénarios complexes et inédits. Une évaluation authentique pourrait nécessiter des interactions avec le monde réel (comme des entretiens ou l’analyse d’une vitrine de magasin) que l’IA ne peut pas effectuer (Gonsalves, 2025).
  • L’ancrage personnel : Les enseignants devraient exiger une réflexion personnelle et des exemples d’expériences vécues par les étudiants pour minimiser l’influence de l’IA dans les productions académiques. Ce type d’évaluation demande aux étudiants d’intégrer leurs propres perspectives dans leur écriture, ce qui est difficile à répliquer pour les systèmes d’IA (Coulibaly et Fofana, 2025; Lez et al., 2023 ; Rudolph et al., 2023).
  • Contextes situationnels : L’utilisation d’un contexte situationnel impliquant des simulations dynamiques, des jeux de rôle ou des exercices qui reflètent la prise de décision ou la négociation dans la vie réelle est un moyen de développer l’adaptabilité et la pensée critique, des compétences que l’IA a du mal à reproduire (Gonsalves, 2025).

Implication pour les travaux de longue haleine (mémoires ou TFE)

Pour les travaux de fin d’études et les mémoires, l’accent doit être mis sur l’évaluation du jugement évaluatif et de la pensée critique. L’apprentissage par l’expérience, via des stages ou des collaborations avec l’industrie, pousse les étudiants à appliquer leurs connaissances théoriques, à exercer leur jugement et à s’adapter aux variables spécifiques du contexte, des compétences que l’IA générative a du mal à reproduire.

L’analyse de documents récents ou hors ligne : La mise à jour de la connaissance

Cette stratégie exploite les limites de l’ensemble de données d’entraînement de l’IA et le manque d’accès en temps réel à l’information contextuelle spécifique. Cette stratégie présente quand même quelques lacunes puisque contrairement aux premiers modèles de langage, il existe à présent des modèles qui peuvent prendre comme contexte une URL ou un document téléversé par l’utilisateur.

Le défi de la fraîcheur et de l’accessibilité des données

Les capacités des IA génératives sont souvent limitées par le fait qu’elles n’ont pas accès aux informations les plus récentes au-delà de leur date de coupure d’entraînement (souvent autour de 2021 pour les modèles plus anciens).

  • L’actualité récente : Demander aux étudiants d’appliquer des concepts à des événements actuels ou des études de cas récents peut mettre en difficulté la capacité de l’IA à fournir des réponses exactes. La consigne peut inclure la demande de lier le devoir à l’actualité récente.
  • Le contenu de cours spécifique ou « hors ligne » : Pour contrer l’utilisation de l’IA, les enseignants peuvent contextualiser les exercices et les questions en ajoutant des éléments précis qui ont été mentionnés pendant le cours. Exiger que le devoir fasse un lien avec « ce qui a été dit en classe le 12 octobre » (contenu hors ligne) rend l’IA inefficace car elle ne connaît pas les spécificités du cours qui ne sont pas sur Internet.

Il est toutefois essentiel de noter que certains modèles d’IA plus récents, comme GPT 5.0, Gemini 3, Claude 4.5, sont désormais connectés à Internet via des moteurs de recherche comme Bing, Google ou autres, ce qui permet d’accéder à des informations plus récentes. Cette évolution atténue légèrement l’efficacité de la stratégie de la « récence » pour les informations publiques, mais elle reste forte pour les détails spécifiques au cours ou locaux/privés. Même si dans ce dernier cas, il est possible aussi pour l’utilisateur de fournir à l’IA les notes de cours qu’il a prise de manière manuscrite…

Le multimodal : déplacer l’évaluation vers le processus

La stratégie multimodale qui permet de sortir du format texte pur avec parallèlement un accent mis sur le processus sont des piliers cruciaux pour garantir l’authenticité de l’évaluation.

Diversification des livrables

L’IA générative est principalement orientée vers la génération de texte cohérent et d’images, mais elle gère moins bien l’intégration de formats variés ou l’exigence d’une preuve physique ou de performance (Rudolph et al., 2023).

  • Formats alternatifs : Il est recommandé de diversifier les livrables attendus. Demander des formats que l’IA gère moins bien de manière intégrée, comme une carte mentale manuscrite, un podcast audio, une vidéo, ou une maquette physique, limite son utilisation (Lez et al., 2023).
  • Évaluations orales et présentations : Les évaluations peuvent inclure des présentations, des performances, des pages web, des vidéos ou des animations. Les projets de groupe présentés devant un jury sont perçus comme une alternative efficace pour limiter le recours aux outils d’IA, car ils exigent une implication active et une démonstration concrète des compétences. L’ajout de soumissions vidéo ou audio d’étudiants discutant de leurs essais ou d’une réflexion métacognitive est également suggéré (Coulibaly et Fofana, 2025).

Valorisation du processus et de la pensée

La stratégie la plus solide pour l’avenir est de s’éloigner de l’évaluation du produit final pour se concentrer sur l’évaluation du processus d’apprentissage. Cette approche vise à évaluer ce que l’IA est la moins capable de faire : révéler la pensée, le jugement et les choix critiques de l’étudiant.

  • Évaluation par étapes : On peut demander des remises intermédiaires (brouillons) dans le but de tenir compte du processus d’apprentissage, y compris des moyens de rétroaction prévus à chaque étape et l’amélioration des livrables ultérieurs attendue.
  • Traces de pensée et de jugement : Les tâches devraient offrir des occasions de révéler la réflexion, les compétences et le jugement incarnés dans les résultats d’apprentissage. L’étudiant peut être amené à justifier ses choix, y compris les impasses. Une approche systémique à l’évaluation devrait couvrir l’ensemble du programme d’études, permettant de suivre les progrès au fil du temps.
  • Réflexion critique et métacognition : L’évaluation devrait inclure des éléments favorisant les habilités métacognitives (portfolio d’apprentissage, auto-évaluation), amenant l’étudiant à porter un regard critique sur son propre travail. Cela garantit que l’évaluation se concentre sur la pensée critique et la compréhension contextuelle de l’étudiant plutôt que sur sa capacité à générer des réponses assistées par l’IA.

Implications pour les travaux de fins d’études et mémoires

Face à la menace des IA génératives pour les travaux écrits de longue haleine, l’accent sur le processus et les compétences est primordial :

  • Projet pratique vs. thèse classique : Certains établissements ont opté pour l’annulation des thèses de licence classiques, les remplaçant par des projets pratiques de bachelier, moins susceptibles de faire l’objet d’une génération de contenu non autorisée par l’IA (Turková et al., 2025).
  • Intégration transparente de l’IA : Les étudiants peuvent être encouragés à utiliser l’IA de manière transparente pour des parties spécifiques du travail, mais l’évaluation porterait alors sur leur capacité à juger de la crédibilité des sources (y compris celles générées par l’IA), à analyser le processus et à développer leur propre jugement (Lodge et al., 2023).

En somme, la diversification des formats et le recentrage sur le processus de pensée et de jugement de l’étudiant sont des stratégies fondamentales pour un « Design Anti-IA » efficace face aux défis posés par l’IA générative.

La démarche inavouable

Certains enseignants peuvent aller très loin pour s’assurer que les étudiants n’utilisent pas l’IA dans leur travaux écrits en mettant, dans les ressources qu’ils partagent à leurs apprenants, des prompts (consignes, demandes) cachés à destination de l’IA. Par exemple, en utilisant une typographie blanche sur fond blanc, il est possible de tromper les apprenants. Ces derniers croient utiliser un document anodin alors qu’en réalité les documents de l’enseignant incluent, en leur sein, des contextes cachés qui vont influencer les réponses des IAs. Réponses que l’enseignant va pouvoir déterminer comme ayant été générées par l’IA. La consignes pourrait être de disséminer 2X le mot global dans la réponse.

La stratégie de l’intégration

La stratégie de l’intégration, qui consiste à utiliser l’IA explicitement comme objet d’étude plutôt que de l’interdire, représente une approche constructive pour préparer les étudiants à un monde où ces technologies seront omniprésentes.

Cette stratégie d’intégration vise non seulement à préserver l’intégrité académique, mais aussi à transformer l’évaluation en mettant l’accent sur les compétences humaines non automatisables, telles que la pensée critique, le jugement évaluatif, l’éthique et la capacité à travailler avec l’ambiguïté et l’information partielle.

L’analyse critique de l’IA : évaluer le jugement (l’IA comme objet d’étude)

L’un des piliers de la stratégie d’intégration est de transformer l’IA en un objet d’analyse critique, forçant ainsi les étudiants à engager un processus d’apprentissage actif et de haut niveau cognitif.

Objectifs de l’évaluation critique : L’évaluation se concentre sur la capacité de l’étudiant à déceler les forces et les faiblesses de la production automatisée, en repérant les erreurs, les biais et les illusions de forme (Audran, 2024). En demandant à l’étudiant de corriger la copie de ChatGPT, on évalue directement :

  1. L’identification des erreurs factuelles et hallucinations : Les IA génératives sont entraînées sur des données massives et peuvent délivrer des réponses fausses ou inappropriées, un phénomène connu sous le nom d’hallucination, même si la forme du discours est très assurée. L’étudiant doit posséder une connaissance approfondie du domaine d’étude (expertise disciplinaire) pour pouvoir repérer ces inexactitudes et valider l’information produite par l’IA. Par exemple, ChatGPT peut générer des références convaincantes mais totalement fabriquées (Bobula, 2024).
  2. L’analyse des biais et des limites de raisonnement : Les IA ont tendance à reproduire et amplifier les stéréotypes et les biais présents dans leurs données d’entraînement (biais de raisonnement). Évaluer la critique de l’étudiant permet de s’assurer qu’il comprend comment ces systèmes fonctionnent à partir de calculs statistiques et comment ils peuvent générer des contenus consensuels ou biaisés, au détriment d’une dimension argumentative personnelle (Audran, 2024).
  3. L’amélioration du style et de la qualité : Bien que les IA génèrent souvent un texte à la syntaxe cohérente et claire, celui-ci peut manquer de nuance, de profondeur critique ou de contexte spécifique. L’étudiant doit démontrer une valeur ajoutée en affinant le contenu pour le rendre plus incisif ou en phase avec des critères disciplinaires précis (par exemple, en améliorant l’analyse des détails poétiques dans les humanités) (Revell et al., 2024).

Cette approche déplace l’évaluation du simple produit final (l’illusion de la forme) vers le processus d’évaluation lui-même, qui requiert un jugement évaluatif et une pensée critique.

La méthode “Sandwich” (humain – IA – humain) : Évaluer la valeur ajoutée et le processus

La méthode « Sandwich » s’inscrit dans une approche plus large d’évaluation du processus d’apprentissage au lieu de se concentrer uniquement sur le produit final. Il s’agit d’intégrer l’IA dans la chaîne de production du travail écrit, mais en s’assurant que l’étudiant est le « maillon humain dans la boucle » (human in the loop) qui initie, dirige et valide l’effort cognitif (Mollick et Mollick, 2023).

1. Le plan humain et l’idéation : L’étudiant initie le travail en établissant la structure et les objectifs. L’IA peut être utilisée comme un réservoir d’idées et de motivation (brainstorming) ou pour aider à la création de plans d’essais. L’évaluation peut porter sur la qualité de cette étape initiale, assurant que l’étudiant mobilise ses connaissances pour définir la direction du travail (Avello et Zurita, 2025).

2. Utilisation de l’IA (IA) et la qualité des prompts : L’étudiant utilise l’IA pour générer des parties, des exemples, ou pour affiner des concepts. L’évaluation porte alors sur la qualité des invites de commande (prompts) soumises à l’IA. La qualité du prompt est déterminante pour la pertinence de la production générée par l’IA. Pour bien formuler une requête, l’utilisateur doit mobiliser ses connaissances et ses compétences disciplinaires pour contextualiser la demande et éviter des réponses inappropriées ou génériques.

Les enseignants peuvent encourager les étudiants à expliquer et illustrer leur démarche évolutive de conception de prompts afin d’affiner et d’ajuster les réponses obtenues. L’évaluation de cette littératie en IA (la capacité à utiliser l’outil de manière critique, éthique et pertinente) devient alors une compétence indispensable pour les diplômés (Caneva, 2025; Lodge et al., 2023).

3. Réécriture, synthèse et validation humaines : L’étudiant doit reprendre la production brute de l’IA pour la réécrire, la synthétiser et la valider avec des sources fiables, apportant ainsi la « valeur ajoutée » humaine. Cette étape permet de s’assurer que l’étudiant exerce un jugement sur le contenu (véridiction) et l’intègre de manière cohérente dans son propre raisonnement (Caneva, 2025; Lodge et al., 2023).

L’évaluation de la valeur ajoutée L’évaluation se concentre sur l’apport de l’étudiant par rapport au texte généré, y compris :

  • La documentation du processus : Les étudiants peuvent être tenus de fournir un journal de bord, des brouillons successifs, ou une réflexion métacognitive sur leur démarche de rédaction (méthode Sandwich) et leur interaction avec l’IA (Bobula, 2024).
  • La transparence et la citation : L’étudiant doit déclarer l’utilisation de l’IA, y compris les outils et les prompts employés, et s’assurer que l’œuvre finale est humanisée et authentique (Caneva, 2025).

Problématique des travaux de fins d’études et mémoires

L’évaluation des travaux de fin d’études et des mémoires (qui sont des travaux écrits non surveillés à fort enjeu) est la plus impactée, car l’utilisation de l’IA générative remet en question la validité du diplôme si la production n’est pas authentique (Audran, 2024).

Mesures d’atténuation et d’intégration : Pour ces travaux, la stratégie d’intégration privilégie l’évaluation des compétences de haut niveau (voir infographie sur la taxonomie de Bloom, plus haut) et la documentation du processus, rendant l’externalisation totale à l’IA inefficace ou impossible (Lodge et al., 2023).

  1. Évaluation du processus de recherche et d’écriture :
    • Exiger des remises intermédiaires (jalons) et des auto-évaluations réflexives sur la progression du travail.
    • Demander aux étudiants de présenter des situations complexes ou des problématiques ancrées dans un contexte local spécifique (qui ne se trouvent pas dans les bases de données massives de l’IA).
    • Inclure une composante d’évaluation sur la capacité à intégrer des sources multiples et à présenter un argument original, au-delà de la synthèse de l’IA (Lodge et al., 2023; Coulibaly et Fofana, 2025).
  2. Passer à l’Évaluation Authentique et Multimodale :
    • Privilégier les évaluations par projet, exposé oral ou présentation devant jury (type soutenance) qui nécessitent une démonstration concrète des compétences et une interaction réelle, limitant fortement l’usage des outils d’IA pour la production finale.
    • Exiger des réflexions critiques approfondies sur le processus de travail et le choix des méthodes, ce que l’IA a plus de mal à simuler (Lodge et al., 2023; Bobula, 2024).

Une analogie pour mieux comprendre la stratégie de l’intégration

L’approche de l’intégration de l’IA, plutôt que de l’interdire, est comparable à apprendre à conduire une voiture autonome : l’objectif n’est plus seulement de savoir passer les vitesses (l’ancienne compétence), mais de savoir programmer la destination, surveiller activement les systèmes, prendre des décisions critiques en cas d’imprévu, et être capable d’expliquer pourquoi on fait confiance ou non à l’itinéraire suggéré. L’évaluation porte alors sur le « pilote critique » plutôt que sur le « moteur » (l’IA) qui exécute la tâche.

Dans la stratégie de l’intégration, il est crucial de considérer l’IA comme un outil d’assistance à la recherche (par exemple, pour l’aide à la révision linguistique ou la suggestion d’idées) tout en interdisant le fait de déléguer la rédaction de fond (le cœur de la réflexion) à la machine.

Conclusion

L’avènement de l’IA a transformé les pratiques pédagogiques à tout jamais et les processus d’évaluation de nos apprenants ne peuvent faire l’impasse d’une remise en question drastique.

Dans cet article, nous avons essayé de mettre à plat les stratégies que les enseignants pouvaient mettre en œuvre pour garantir l’intégrité académique de leurs apprenants tout en évoquant des dispositifs ou des outils d’évaluation utiles.

L’intégrité académique de nos apprenants comme objectif implique de réfléchir à nos pratiques d’évaluation et de les refonder afin de les adapter au mieux au contexte et aux situations d’apprentissage dans l’Enseignement pour adultes.

Car on ne pourra plus faire comme si l’IA n’avait pas tout changé et quoi que l’on pense ou fasse, cette prise de conscience passera nécessairement par une prise en compte ou une intégration de l’IA dans l’évaluation des travaux écrits. Ce nouvel état de fait exige que les établissements se concentrent sur la formation des enseignants à la littératie en IA et qu’ils révisent l’alignement pédagogique pour s’assurer que les objectifs d’apprentissage sont atteints par l’étudiant et non par la machine.


Annexes

Glossaire

Voici un glossaire sous forme de tableau synthétique des principaux concepts examinés dans cet article.

TermeDéfinition synthétique
Analyse critiqueCapacité à examiner en profondeur des contenus (y compris ceux générés par l’IA), à en identifier les forces, limites, biais et erreurs, puis à formuler un jugement argumenté plutôt qu’à accepter les réponses telles quelles.
Design anti-IAStratégie de conception de tâches d’évaluation qui exploitent les limites de l’IA (ancrage personnel ou local, documents récents, consignes contextuelles, multimodalité) afin de rendre l’externalisation à l’IA difficile ou peu pertinente et de forcer une mobilisation authentique des compétences de l’étudiant.
Évaluation authentiqueDispositif d’évaluation qui demande à l’étudiant d’appliquer ses connaissances et compétences dans des tâches proches de situations réelles ou professionnelles (projets, présentations, études de cas), plutôt que de se limiter à la restitution théorique ou à des QCM.
Évaluation du processusApproche qui observe et évalue les étapes de travail (plans, brouillons, rétroactions, réécritures, réflexions) ayant conduit au produit final, afin de saisir le cheminement intellectuel, la progression et le jugement critique, et non seulement le résultat terminé.
Évaluation multimodaleEnsemble de pratiques qui combinent plusieurs formats de preuves d’apprentissage (texte, oral, vidéo, carte mentale, maquette, page web, etc.) pour diversifier les traces, limiter la simple génération automatisée de texte et mieux saisir la variété des compétences mobilisées.
Hybridation (validation en classe)Organisation de l’évaluation où l’étudiant prépare tout ou partie du travail hors classe (avec ou sans IA), mais valide ses apprentissages lors de moments clés en présentiel, sous surveillance (écrit, oral, code review), afin d’assurer l’authenticité du niveau de maîtrise.
IA générativeFamille de systèmes d’IA capables de produire de nouveaux contenus (texte, images, code, etc.) à partir de modèles entraînés sur de grandes masses de données ; ces outils peuvent générer des travaux écrits de qualité suffisante pour mettre en tension les formes d’évaluation traditionnelles.
Littératie en IAEnsemble de connaissances, compétences et attitudes permettant de comprendre le fonctionnement et les limites de l’IA, d’en évaluer de façon critique les usages et résultats, et de l’utiliser de manière responsable, éthique et pertinente dans l’étude, le travail et la vie quotidienne.
Méthode « Sandwich » (Humain–IA–Humain)Dispositif où l’étudiant commence par élaborer lui-même le plan ou la structure du travail, utilise ensuite l’IA comme soutien (idéation, reformulation, exemples), puis reprend, vérifie, réécrit et documente le texte pour y apporter sa valeur ajoutée et son jugement, l’évaluation portant sur ces apports humains et la traçabilité du processus.
MétacognitionCapacité de l’apprenant à être conscient de ses propres processus de pensée et d’apprentissage (comment il s’y prend, avec quelles stratégies) et à les réguler : planifier, surveiller, évaluer et ajuster ses démarches pour apprendre plus efficacement ; en évaluation, cela passe par des écrits ou entretiens où l’étudiant analyse et critique sa manière de travailler.
Réflexion critiqueActivité par laquelle l’étudiant questionne, analyse et évalue des informations, des arguments ou des productions (y compris celles de l’IA), au regard de critères de validité, de cohérence, de fiabilité et de pertinence, plutôt que de les accepter de façon passive.
Screencasting / composante oraleProduction audio ou vidéo dans laquelle l’étudiant présente, explique ou commente son travail (par exemple en enregistrant son écran ou une présentation orale), ce qui oblige à démontrer compréhension, appropriation et capacité à justifier des choix.
Soutenance orale flash (viva voce)Court entretien oral, souvent improvisé ou peu préparé, destiné à vérifier que l’étudiant maîtrise réellement le contenu d’un travail écrit : il doit expliquer, défendre et illustrer ses choix, ce qui rend difficile la délégation intégrale de la production à une IA.
TraçabilitéEnsemble de dispositifs permettant de conserver des « traces » du travail (historique des versions, jalons intermédiaires, journaux de bord, prompts utilisés) afin de rendre visible le processus d’élaboration et de fournir des preuves d’engagement et d’authenticité.

Sources

Acosta-Enriquez, B. G., Arbulú Ballesteros, M. A., Arbulu Perez Vargas, C. G., Orellana Ulloa, M. N., Gutiérrez Ulloa, C. R., Pizarro Romero, J. M., Gutiérrez Jaramillo, N. D., Cuenca Orellana, H. U., Ayala Anzoátegui, D. X., & López Roca, C. (2024). Knowledge, attitudes, and perceived Ethics regarding the use of ChatGPT among generation Z university students. International Journal for Educational Integrity, 20(1), 10. https://doi.org/10.1007/s40979-024-00157-4

Alnsour, M. M., Almomani, H., Qouzah, L., Momani, M. Q. M., Alamoush, R. A., & AL-Omiri, M. K. (2025). Artificial intelligence usage and ethical concerns among Jordanian University students : A cross-sectional study. International Journal for Educational Integrity, 21(1), 31. https://doi.org/10.1007/s40979-025-00206-6

Alnsour, M. M., Qouzah, L., Aljamani, S., Alamoush, R. A., & AL-Omiri, M. K. (2025). AI in education : Enhancing learning potential and addressing ethical considerations among academic staff—a cross-sectional study at the University of Jordan. International Journal for Educational Integrity, 21(1), 16. https://doi.org/10.1007/s40979-025-00189-4

Arnold, L., & Croxford, J. (2025). Is it time to stop talking about authentic assessment? Teaching in Higher Education, 30(3), 735‑743. https://doi.org/10.1080/13562517.2024.2369143

Audran, J. (2024). Cinq enjeux d’évaluation face à l’émergence des IA génératives en éducation. Mesure et évaluation en éducation, 47(1), 6‑26. https://doi.org/10.7202/1114564ar

Avello, D., & Zurita, S. (2025). Exploring the nexus of academic integrity and artificial intelligence in higher education : A bibliometric analysis. International Journal for Educational Integrity, 21(1), 24. https://doi.org/10.1007/s40979-025-00199-2

Awasthi, S., Kumar, S., & Tripathi, M. (2024). Plagiarism and text-matching software : Awareness, attitude and knowledge of research students in India. International Journal for Educational Integrity, 20(1), 23. https://doi.org/10.1007/s40979-024-00168-1

Bearman, M., & Ajjawi, R. (2023). Learning to work with the black box : Pedagogy for a world with artificial intelligence. British Journal of Educational Technology, 54(5), 1160‑1173. https://doi.org/10.1111/bjet.13337

Bjelobaba, S., Waddington, L., Perkins, M., Foltýnek, T., Bhattacharyya, S., & Weber-Wulff, D. (2025). Maintaining research integrity in the age of GenAI : An analysis of ethical challenges and recommendations to researchers. International Journal for Educational Integrity, 21(1), 18. https://doi.org/10.1007/s40979-025-00191-w

Bobula, M. (2024). Generative artificial intelligence (AI) in higher education : A comprehensive review of challenges, opportunities, and implications. Journal of Learning Development in Higher Education, 30. https://doi.org/10.47408/jldhe.vi30.1137

Caneva, C. (2025). Évaluer à l’ère de l’IA : Le paradoxe du double ancrage : Entre fractures numériques et retour aux fondamentaux pédagogiques. Médiations et médiatisations, 22. https://doi.org/10.52358/mm.vi22.495

Coulibaly, Y. N., & Fofana, A. (2025). Évaluation des apprentissages à l’ère de l’Intelligence Artificielle. Axe 3 : Technologies de l’information et de la communication pour une société durable. 7ème colloque International du RAIFFET (Réseau Africain des Institutions de Formation de Formateurs de l’Enseignement Technique), Abidjan.

Curwood, J. S., Kelly, N., Grace, K., & Lazarou, K. (2024). Technology-agnostic framework for designing assessments in the era of artificial intelligence. Learning Letters, 4, 33. https://doi.org/10.59453/ll.v4.33

Eaton, S. E. (2023). Postplagiarism : Transdisciplinary ethics and integrity in the age of artificial intelligence and neurotechnology. International Journal for Educational Integrity, 19(1), 23, s40979-023-00144‑1. https://doi.org/10.1007/s40979-023-00144-1

Erhardt, C., Kullenberg, H., Grigoriadis, A., Kumar, A., Christidis, N., & Christidis, M. (2025). From policy to practice : The regulation and implementation of generative AI in Swedish higher education institutes. International Journal for Educational Integrity, 21(1), 21. https://doi.org/10.1007/s40979-025-00195-6

Goddiksen, M. P., Johansen, M. W., Armond, A. C. V., Centa, M., Clavien, C., Gefenas, E., Kovács, N., Merit, M. T., Olsson, I. A. S., Poškutė, M., Santos, J. B., Santos, R., Strahovnik, V., Varga, O., Wall, P. J., Sandøe, P., & Lund, T. B. (2024). The dark side of text-matching software : Worries and counterproductive behaviour among European upper secondary school and bachelor students. International Journal for Educational Integrity, 20(1), 15. https://doi.org/10.1007/s40979-024-00162-7

Gonsalves, C. (2025). Contextual assessment design in the age of generative AI. Journal of Learning Development in Higher Education, 34. https://doi.org/10.47408/jldhe.vi34.1307

Kumar, R., & Sharma, S. (2025). Secondary school teachers’ perspectives on GenAI proliferation : Generating advanced insights. International Journal for Educational Integrity, 21(1), 7. https://doi.org/10.1007/s40979-025-00180-z

Lez, A., Dubé, E., & Beaulieu, M. (2023). Évaluer à l’ère des IA : un guide de réflexion. Service de soutien à la formation, Université de Sherbrooke.

Liu, J. Q. J., Hui, K. T. K., Al Zoubi, F., Zhou, Z. Z. X., Samartzis, D., Yu, C. C. H., Chang, J. R., & Wong, A. Y. L. (2024). The great detectives : Humans versus AI detectors in catching large language model-generated medical writing. International Journal for Educational Integrity, 20(1), 8. https://doi.org/10.1007/s40979-024-00155-6

Lodge, J., Howard, S., & Bearman, M. (2023). Assessment reform for the age of artificial intelligence. TEQSA (Tertiary Education Quality and Standards Agency). Gouvernement Australien.

Mollick, E. R., & Mollick, L. (2023). Assigning AI : Seven Approaches for Students, with Prompts. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.4475995

National Commission on Excellence in Education. (1983). A Nation at Risk : The Imperative for Educational Reform. The Elementary School Journal, 84(2), 112‑130.

Peters, M., & Angelov, D. (2025). Redefining assessment tasks to promote students’ creativity and integrity in the age of generative artificial intelligence. International Journal for Educational Integrity, 21(1), 25. https://doi.org/10.1007/s40979-025-00201-x

Revell, T., Yeadon, W., Cahilly-Bretzin, G., Clarke, I., Manning, G., Jones, J., Mulley, C., Pascual, R. J., Bradley, N., Thomas, D., & Leneghan, F. (2024). ChatGPT versus human essayists : An exploration of the impact of artificial intelligence for authorship and academic integrity in the humanities. International Journal for Educational Integrity, 20(1), 18. https://doi.org/10.1007/s40979-024-00161-8

Rudolph, J., Tan, S., & Tan, S. (2023). ChatGPT: Bullshit spewer or the end of traditional assessments in higher education? Journal of Applied Learning & Teaching, 6(1).

Turková, K., Krásničan, V., Prázová, I., Turčínek, P., & Foltýnek, T. (2025). Adapting to the future : The use of AI tools and applications in university education and a call for transparent rules and guidelines. International Journal for Educational Integrity, 21(1), 29. https://doi.org/10.1007/s40979-025-00203-9

Waltzer, T., Pilegard, C., & Heyman, G. D. (2024). Can you spot the bot? Identifying AI-generated writing in college essays. International Journal for Educational Integrity, 20(1), 11. https://doi.org/10.1007/s40979-024-00158-3

Weber-Wulff, D., Anohina-Naumeca, A., Bjelobaba, S., Foltýnek, T., Guerrero-Dib, J., Popoola, O., Šigut, P., & Waddington, L. (2023). Testing of detection tools for AI-generated text. International Journal for Educational Integrity, 19(1), 26. https://doi.org/10.1007/s40979-023-00146-z


Publié

dans

, ,

par

Étiquettes :

Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *