Quelle est la qualité des détecteurs d'IA en matière de classification des contenus ?
(18 minutes de lecture)
La plupart des outils de génération de contenu par IA sont basés sur des modèles de langage GPT fournis par OpenAI. Par conséquent, les modèles qu’ils utilisent pour créer du contenu sont assez similaires. Nous pouvons désormais créer, améliorer, ou éditer des textes non seulement directement via l'application ChatGPT, mais aussi dans des documents notion.so, ou en utilisant le plugin Grammarly.
Aujourd'hui, un nombre croissant de contenu publié en ligne est généré par ou avec l'aide de l'intelligence artificielle. En conséquence, de nouvelles méthodes de vérification de l'origine du contenu apparaissent : Les détecteurs d'IA. Nous avons donc décidé d'étudier leur fiabilité et le degré de confiance que nous pouvons leur accorder.
Comment fonctionnent les détecteurs d’IA?
Les outils de détection de contenu par l’IA sont essentiellement basés sur de nouveaux modèles de langage, qui ont été formés pour différencier les textes écrits par des humains, de ceux créés par l’intelligence artificielle. Ces outils déterminent leurs évaluations de probabilité en se basant sur la perplexité (mesure du caractère aléatoire) et de l’éclatement (mesure de la variation de la perplexité) du texte. Les humains ont tendance à écrire de manière plus aléatoire - par exemple, nous alternons souvent des phrases longues avec des phrases plus courtes et moins complexes. Les détecteurs de contenu de l’IA identifient ces caractéristiques en s'entraînant sur des millions d’échantillons de textes, préalablement classés comme étant écrits par l’homme ou créés par l’IA.
Alors que les modèles d’IA tels que ChatGPT et d’autres outils basés sur la technologie GPT peuvent générer du contenu dans une grande variété de langues, la plupart des outils de vérification prennent principalement en charge l’anglais. Alors comment vérifier le contenu dans d’autres langues?
L'une des méthodes consiste à vérifier les textes qui ont été traduits automatiquement par des outils tels que DeepL ou Google Translate. Il est toutefois essentiel de rappeler que cette méthode de traduction impose également certains modèles aux textes, en fonction desquels ils sont traduits automatiquement, ce qui influence l'évaluation du détecteur. Néanmoins, certains détecteurs sont prêts à vérifier des contenus dans d'autres langues, bien que leur support officiel soit limité à l'anglais.
Chaque détecteur a également ses propres limites en ce qui concerne la longueur du contenu qu'il peut vérifier, selon qu'il s'agit d'une version gratuite ou payante. De plus, ils utilisent des méthodes différentes pour évaluer l'origine du contenu ; certains fournissent un pourcentage de certitude, si selon eux le texte a été généré par une source spécifique, tandis que d'autres utilisent des évaluations verbales ou une échelle binaire : oui ou non.
Les outils que nous avons vérifiés
Parmi l'éventail de solutions disponibles sur le marché, nous avons passé au microscope les quatre outils les plus populaires et les avons testés à l'aide d'un échantillon de 20 textes. Nous avons sélectionné 10 textes rédigés par des humains et 10 autres générés par une intelligence artificielle afin d'évaluer la manière dont ces outils les classaient.
Dans le lot de textes écrits de manière traditionnelle, nous avons inclus des articles entièrement écrits par des rédacteurs (certains d'entre eux ont été écrits avant 2021, ce qui exclut la participation de l'IA à leur rédaction), des extraits de littérature (y compris des livres pour enfants), des articles d'actualité et des guides d'instruction. Le contenu généré par l'IA comprenait des fragments de littérature créés de cette manière, tels que The Inner Life of an AI : A Memoir by ChatGPT et Bob the Robot, ainsi que des articles produits à l'aide de l'intelligence artificielle (y compris ceux déjà publiés en ligne et ceux fraîchement créés par GPT-3.5 et GPT-4). Nous avons également intégré des textes polonais ainsi que leurs traductions par DeepL et Google Translate dans notre échantillon de contenu analysé. Tous les tests ont été effectués sur les mêmes fragments de texte et, compte tenu des différentes méthodes de classification, nous avons examiné les résultats outil par outil.
Nous présentons ci-dessous une compilation de textes écrits par des humains :et ceux générés par l'intelligence artificielle :
Le AI Text Classifier d'OpenAI
Le AI Text Classifier d'OpenAI, les créateurs des modèles GPT, est l'outil le plus populaire pour détecter les contenus créés par l'intelligence artificielle. Il évalue et exprime ses résultats en termes de probabilité que le texte analysé ait été créé par une intelligence artificielle. Pour ce faire, il utilise une série de catégories : "très improbable", "improbable", "incertain", "possible" et "probablement généré par l'IA". Comme vous pouvez le constater, cette échelle est assez nuancée. OpenAI elle-même note dans la description de l'outil que les résultats ne sont pas toujours exacts et que le détecteur peut potentiellement mal classer les contenus créés par l'IA et ceux écrits par l'homme. Il est important de noter que le modèle utilisé pour former le classificateur de textes d'IA n'incluait pas de travaux d'étudiants, et qu'il n'est donc pas recommandé pour vérifier ce type de contenu.
Sur 10 textes rédigés par des êtres humains, le classificateur de textes d'IA a correctement classé 9 d'entre eux comme étant "très peu probables" ou "peu probables" d'avoir été créés par une intelligence artificielle. Toutefois, il éprouve plus de difficultés à classer les textes générés par l'IA. Dans ce cas, l'outil classe fréquemment le texte comme "peu clair", "improbable" ou "peut-être" généré par l'IA.
Originalitty.AI
Un autre outil largement utilisé pour vérifier les contenus créés à l'aide de l'intelligence artificielle s'appelle Originality. Ses créateurs affirment qu'il a un taux d'efficacité de 95,93 %. C'est le seul outil de notre liste qui soit payant, puisqu'il facture 0,01 $ par tranche de 100 mots vérifiés. Le forfait minimum est de 20 $. Outre la vérification de l'origine du contenu, Originality vérifie également l'absence de plagiat.
Originality utilise des pourcentages pour refléter sa certitude quant à la manière dont le contenu a été créé. Un score de 66 % d'originalité ne signifie pas que le texte est écrit à 66 % par un humain et à 34 % par l'IA, mais plutôt que Originality est certain à 66 % que le contenu a été créé par un humain. L'outil met en évidence en rouge les parties qu'il pense avoir été générées par l'IA et en vert les parties dont il est certain qu'elles sont le fruit du travail d'un humain. Il est intéressant de noter que dans les textes finalement classés comme ayant été rédigés par un être humain, la majeure partie ou au moins la moitié du contenu est surlignée en rouge.
Originality a parfois du mal à catégoriser définitivement le contenu écrit par l'homme. Sur l'ensemble des fragments vérifiés, un seul a été classé avec une certitude de 100 % comme écrit par l'homme. Les résultats pour les autres textes varient entre 52 et 92 % de certitude que le contenu est humain.
L'outil a légèrement mieux réussi à vérifier le contenu généré par l'IA : dans 7 textes sur 10, la certitude que le contenu a été généré par l'IA était de 100 % ou 99 %. Des doutes sont apparus lorsqu'il s'agissait de contenus générés par l'IA en polonais et traduits en anglais. Bien que l'article ait été généré par l'un des anciens modèles GPT (et qu'il ait été publié sur un blog en septembre 2022) et qu'il contienne un certain nombre d'erreurs de style, Originality était certain à 92 % que la version polonaise avait été rédigée par un être humain. Mais au fur et à mesure que les traductions se succédaient, la balance penchait en faveur de l'IA : Originality était certain à 57 % que le contenu traduit par DeepL était généré par l'IA et à 85 % pour la version de Google Translate.
Le texte qui a posé le plus de problèmes à Originality est un article du site populaire Bankrate.com, dont le contenu est généré par l'IA et vérifié par des humains. C'est le seul cas où l'outil était sûr à 88 % que l'article avait été écrit par un humain, même s'il avait été créé avec l'aide de l'IA. Il semble donc que la clé pour "tromper" Originality réside dans l'édition minutieuse du texte.
CopyLeaks
L’évaluation globale du contenu de CopyLeaks est binaire; les résultats possibles sont "Il s'agit d'un texte humain" et "Contenu AI détecté". Une vérification détaillée de segments spécifiques peut seulement être visualisée en survolant le texte. L’outil indique alors la probabilité que le paragraphe sélectionné ait été écrit par un humain ou par l’IA.
Sur 10 textes écrits par des hommes, CopyLeaks a détecté du contenu généré par l’IA dans deux d'entre eux. En ce qui concerne le contenu généré par l’IA, l'outil a évalué qu'il était créé à parts égales par l'homme et par l'IA. Les résultats ne sont donc pas fiables et pourraient même être considérés comme inutiles. Il est surprenant de constater à quel point CopyLeaks est "sensible" aux changements. Dans les exemples vérifiés, une simple modification de “l'input prompt” ou l'ajout du numéro de chapitre et des informations du titre ont suffi à modifier complètement le résultat de l'évaluation.
Content at Scale - AI DETECTOR
Content at Scale est avant tout un outil de génération automatique de contenu, auquel s'ajoute une fonction de vérification. Les créateurs de l'outil affirment que les textes générés par leur système sont indétectables par les détecteurs d'IA. La question se pose donc : le détecteur a-t-il été conçu pour confirmer l'efficacité du générateur ?
L'entreprise fournit un exemple de texte généré par Content at Scale sur son site web. Selon son propre détecteur, ce texte a été évalué comme ayant une probabilité de 95 % d'être écrit par un être humain. Toutefois, le AI Text Classifier a jugé qu'il était peu probable qu'il soit l'œuvre de l'IA. Originality et CopyLeaks, en revanche, ne se sont pas laissés berner aussi facilement. Originality a estimé que le texte était à 100 % généré par l'IA, tandis que CopyLeaks a détecté un contenu d'IA. Comme on peut le constater, les différents détecteurs offrent des perspectives différentes.
Le détecteur de Content at Scale a très bien réussi à détecter les contenus rédigés par un être humain. Pour 9 des fragments vérifiés sur 10, la probabilité qu'ils aient été rédigés par un être humain dépassait 90 %.
En revanche, il a eu plus de mal avec les contenus générés par l'IA : dans 6 cas sur 10, il a classé les textes comme ayant été créés à la fois par des humains et par l'IA. Les autres ont été classés à tort comme étant écrits par des humains.
Tromper les détecteurs
Les contenus générés par l'IA ne surgissent pas de nulle part. Derrière les prompts qui le créent, il y a toujours un être humain. La question se pose donc : pouvons-nous concevoir des moyens de tromper les détecteurs de contenu de l'IA et de générer du contenu qui échappe à leurs capacités de détection ?
Internet regorge d'astuces pour créer des prompts indétectables. L'une d'entre elles consiste à expliquer les concepts de "perplexité" et "d’éclatement" au chatbot. L'idée est de guider l'IA pour qu'elle tienne compte de ces facteurs lorsqu'elle génère un nouveau texte. Pour mettre cette idée à l'épreuve, nous avons demandé à un chatbot utilisant le modèle GPT-4 de rédiger un article sur les meilleurs sites d'escalade de la région parisienne.
Les résultats sont intéressants. Nous avons comparé les résultats de la version originale du texte et d'une deuxième tentative, au cours de laquelle nous avons clarifié les critères d'évaluation pour le chatbot et l'avons guidé sur la manière de rendre le contenu plus humain :
Le seul outil qui n'a pas été trompé est Originality. Cependant, dans les deux cas, nous avons réussi à duper AI Text Classifier, qui a conclu que la probabilité que les deux contenus soient générés par l'IA était faible. Il est intéressant de noter que Content at Scale et CopyLeaks ont changé d'avis après que ChatGPT-4 ait rédigé le texte, en tenant compte des directives sur la perplexité et l'éclatement.
Pourquoi les détecteurs ne sont-ils pas fiables ?
Les détecteurs sont conçus pour rechercher des éléments prévisibles du contenu, connus sous le nom de perplexité. Plus la prévisibilité est faible, plus il y a de chances que le texte ait été écrit de manière traditionnelle, c'est-à-dire par un humain. Cependant, de même que de légères modifications dans les prompts saisies dans un chatbot comme ChatGPT peuvent donner un résultat complètement différent, une modification mineure dans le texte vérifié (qui peut ne modifier que légèrement son sens) peut changer l'évaluation donnée par ces outils.
Prenons l'exemple du livre pour enfants Bob the Robot, qui a été généré à 80 % par une intelligence artificielle. L'éditeur a attribué 20 % de la création à l'édition humaine du texte. Le segment que nous avons vérifié en termes de création du livre était son premier chapitre, comprenant 276 mots. Nous avons essentiellement vérifié le même texte deux fois, avec seulement un changement mineur : nous avons ajouté "Chapter 1 : Star City" avant le contenu du chapitre. En conséquence, Copyleaks.com a complètement modifié son évaluation sur l'origine du livre. Dans le texte propre du chapitre, l'outil a détecté un contenu généré par l'IA, mais le même texte contenant des informations sur le numéro et le titre du chapitre a été considéré comme écrit par un humain.
Comment les détecteurs réagissent-ils aux contenus traduits ? À titre d'exemple, nous avons utilisé un contenu écrit par un rédacteur sans l'aide de l'intelligence artificielle. L'article était rédigé en polonais. Même si certains outils ne prennent pas en charge cette langue, ils tentent de vérifier son contenu sans signaler d'erreurs. Les résultats fournis par originality.ai ont montré 77% de certitude que le contenu était écrit par un humain lors de la vérification du texte polonais. Le même texte, traduit à l'aide de DeepL, ne donne à l'outil que 67 % de certitude qu'il a été écrit par un humain. Cette certitude tombe à 36 % lorsque le texte est traduit par Google Translate.
Il est intéressant de noter qu'un autre outil, Copyleaks, qui prend officiellement en charge le contenu polonais, a classé correctement toutes les versions. La probabilité que la majeure partie du texte ait été écrite par un être humain (sachant que l'outil évalue séparément les différentes parties du texte) était de 99,9 % pour la version polonaise, de 89,8 % pour la traduction DeepL et de 90,2 % pour la version traduite par Google Translate. Bien que les différences soient mineures, il est intriguant que la traduction de Google soit considérée comme plus proche d'un style d'écriture humain que celle de DeepL, qui a été classée à l'opposé par l'outil Originality.
En quoi les détecteurs de contenu de l'IA diffèrent-ils des humains ?
Des chercheurs de la School of Engineering and Applied Science de l'Université de Pennsylvanie ont étudié la manière dont les humains discernent les contenus générés par l'IA. Sommes-nous capables de repérer les différences et quels facteurs prenons-nous en compte dans notre jugement ?
Pour les différents types de contenu, nous nous concentrons principalement sur la pertinence, qui exerce généralement l'influence la plus forte sur notre évaluation. Dans les contenus générés par l'IA, nous détectons également des erreurs dues à un manque de logique de bon sens, que les outils d'IA ne peuvent pas vérifier, et la présence de segments contradictoires.
Les détecteurs d'IA se basent principalement sur la prévisibilité et le caractère aléatoire du texte, sans tenir compte de nombreux autres facteurs mis en évidence par les participants à l'étude. Nous avons mis cela à l'épreuve avec un article créé par l'intelligence artificielle en septembre 2022, avant que ChatGPT ne devienne un nom familier. L'article est truffé de fautes de style, de phrases illogiques et de formulations maladroites d'une part, mais de l'autre part, il est effectivement "original" et remarquablement aléatoire.
Le texte étant à l'origine en polonais, nous avons répété le processus de traduction automatique via DeepL et Google Translate, et pour faire bonne mesure, nous avons également examiné le texte original (gardez à l'esprit que tous les outils ne prennent pas en charge la langue polonaise, mais qu'ils se chargent de son évaluation).
Voici les résultats :
Comme on peut le constater, Originality.ai a le mieux réussi à évaluer le texte traduit, mais ses résultats ne sont pas sans équivoque. Il faut garder à l'esprit que le processus de traduction automatique peut introduire un élément "non naturel" dans le contenu, ce qui peut expliquer en partie la probabilité plus grande que le contenu soit perçu comme étant généré par l'IA.
Résumé
Le paradoxe des outils de détection de contenu par l'IA est que nous sommes tellement sceptiques quant à la qualité des textes générés par l'IA que nous avons besoin d'un autre outil basé sur l'IA pour les détecter. Les questions cruciales que nous devrions nous poser à ce stade sont les suivantes : Pouvons-nous déterminer avec une certitude absolue comment un contenu a été créé ? Si un article est bien écrit et ne contient pas d'erreurs factuelles, la manière dont il a été rédigé a-t-elle vraiment de l'importance ?
La croyance selon laquelle le contenu créé par l'IA est de mauvaise qualité est largement répandue. Certains affirment également que les sites web seront "pénalisés" pour le contenu généré de cette manière. Pourtant, Bing et Google s'orientent vers l'utilisation de l'intelligence artificielle dans leurs moteurs de recherche, ce qui suggère qu'ils voient les avantages de telles solutions.
Aucun de ces outils n'est infaillible. Lors de notre essai, certains ont mieux évalué les textes rédigés par des humains, tandis que d'autres ont excellé avec les textes rédigés par l'IA. Pour certains contenus, les résultats varient considérablement d'un outil à l'autre. Lors de la vérification des extraits sélectionnés, nous savions comment ils avaient été créés, mais si nous avions effectué un tel test à l'aveugle, les résultats n'auraient tout simplement pas été fiables. Le plus grand problème que posent les évaluations de ces outils est l'incertitude de savoir quand elles sont correctes et quand elles sont erronées. En les utilisant, nous ne savons vraiment jamais si nous pouvons leur faire confiance dans un cas particulier.
L'article suivant est une traduction de l'article polonais "Detektory treści AI - jak radzą sobie z klasyfikacją tekstu?" écrit par Agata Gruszka, International SEO Manager at WhitePress®.