Hoe goed zijn AI-detectors in het controleren van content?
(15 minuten leestijd)
De meeste AI-programma's voor het genereren van content zijn gebaseerd op GPT-taalmodellen van OpenAI. Daarom zijn de patronen die ze gebruiken bij het maken van content enigszins vergelijkbaar. We kunnen nu teksten maken, verbeteren of bewerken, niet alleen direct in de ChatGPT-toepassing, maar ook in notion.so-documenten of met behulp van de Grammarly plug-in.
Vandaag de dag wordt steeds meer online gepubliceerde content gegenereerd door of met behulp van kunstmatige intelligentie. Als gevolg hiervan ontstaan er nieuwe manieren om de herkomst van content te verifiëren: AI-detectoren. We hebben besloten om de betrouwbaarheid ervan en de mate van vertrouwen die we erin kunnen hebben te onderzoeken.
Hoe werken AI-detectors?
AI-detectoren zijn voornamelijk gebaseerd op nieuwe taalmodellen die zijn getraind om onderscheid te maken tussen teksten die door mensen zijn geschreven en teksten die door kunstmatige intelligentie zijn gemaakt. Deze tools bepalen hun beoordelingen op basis van de perplexiteit (meting van de willekeur) en burstiness (meting van de variatie in perplexiteit) van de tekst. Mensen hebben de neiging om willekeuriger te schrijven - we wisselen bijvoorbeeld vaak langere zinnen af met kortere, minder complexe zinnen. AI-detectors identificeren deze kenmerken door te trainen op miljoenen voorbeeldteksten, die eerder zijn gecategoriseerd als door mensen geschreven of door AI gemaakt.
Hoewel AI-modellen zoals ChatGPT en andere GPT-gebaseerde tools content kunnen genereren in verschillende talen, ondersteunen de meeste verificatietools voornamelijk Engels. Dus hoe verifieer je content in andere talen?
Eén methode is om teksten te controleren die automatisch zijn vertaald door tools zoals DeepL of Google Translate. Het is echter cruciaal om te onthouden dat deze vertaalmethode ook bepaalde patronen oplegt aan de teksten, volgens welke ze automatisch worden vertaald, wat de evaluatie van de detector beïnvloedt. Niettemin zijn sommige detectors in staat om content in andere talen te verifiëren, ondanks het feit dat hun officiële ondersteuning beperkt is tot het Engels.
Elke detector heeft ook zijn beperkingen wat betreft de lengte van de content die hij kan verifiëren, afhankelijk van of er een gratis of betaalde versie wordt gebruikt. Bovendien gebruiken ze verschillende methoden om de herkomst van content te evalueren; sommige geven een percentage van zekerheid, naar hun mening, dat de tekst is gegenereerd door een specifieke bron, terwijl andere verbale beoordelingen of een binaire schaal gebruiken: ja of nee.
Tools die we hebben gecontroleerd
Uit het aanbod van oplossingen op de markt hebben we de vier populairste tools onder de loep genomen en getest aan de hand van een voorbeeldset van 20 teksten. We selecteerden 10 teksten die door mensen waren geschreven en 10 teksten die door kunstmatige intelligentie waren gegenereerd om te evalueren hoe deze tools ze zouden classificeren.
Onder de traditioneel geschreven teksten bevonden zich artikelen die volledig door tekstschrijvers waren geschreven (sommige van deze artikelen waren geschreven vóór 2021, wat de deelname van AI aan het schrijven ervan uitsluit), stukken uit literatuur (inclusief kinderboeken), nieuwsartikelen en instructiegidsen. De door AI gegenereerde content omvatte fragmenten van literatuur die op deze manier was gemaakt, zoals The Inner Life of an AI: A Memoir van ChatGPT en Bob the Robot, en artikelen die met behulp van kunstmatige intelligentie waren gemaakt (zowel de artikelen die al online waren gepubliceerd als de artikelen die net waren gemaakt door GPT-3.5 en GPT-4). We hebben ook Poolse teksten samen met hun vertalingen door DeepL en Google Translate opgenomen in ons geanalyseerde voorbeeld. Alle tests werden uitgevoerd op dezelfde tekstfragmenten en gezien de verschillende classificatiemethoden hebben we de resultaten per tool onderzocht.
Hieronder geven we een compilatie van teksten die door mensen zijn geschreven:
en die gegenereerd door kunstmatige intelligentie:
AI-tekstclassificator door OpenAI
De AI Text Classifier van OpenAI, de makers van de GPT-modellen, is het populairste hulpmiddel voor het detecteren van content die is gemaakt door kunstmatige intelligentie. Het evalueert en drukt zijn bevindingen uit in termen van de waarschijnlijkheid dat de geanalyseerde tekst is gemaakt door kunstmatige intelligentie. Dit wordt gedaan met behulp van een reeks categorieën: 'zeer onwaarschijnlijk', 'onwaarschijnlijk', 'onduidelijk', 'mogelijk' en 'waarschijnlijk AI-gegenereerd'. Zoals je kunt zien, biedt deze schaal een behoorlijke mate van nuance. OpenAI zelf zegt in de beschrijving van de tool dat de resultaten niet altijd accuraat zijn en dat de detector zowel door AI gecreëerde als door mensen geschreven content verkeerd kan classificeren. Het is belangrijk op te merken dat het model dat werd gebruikt om de AI Text Classifier te trainen geen werk van studenten bevatte, dus het wordt niet aanbevolen voor het verifiëren van dergelijke content.
Van de 10 door mensen geschreven teksten classificeerde de AI Text Classifier er 9 correct als 'zeer onwaarschijnlijk' of 'onwaarschijnlijk' gemaakt door kunstmatige intelligentie. Het heeft echter meer moeite met het categoriseren van teksten die door AI zijn gemaakt. In dit geval classificeert de tool de tekst vaak als 'onduidelijk', 'onwaarschijnlijk' of 'mogelijk' door AI gegenereerd.
Originality.AI
Een andere veelgebruikte tool voor het verifiëren van content die is gemaakt met kunstmatige intelligentie heet Originality. De makers beweren dat het 95,93% effectief is. Het is de enige tool op onze lijst die kosten met zich meebrengt, namelijk $0,01 voor elke 100 geverifieerde woorden. Het minimale pakket kost $20. Naast het verifiëren van de herkomst van content, controleert Originality deze ook op plagiaat.
Originality gebruikt percentages om de zekerheid weer te geven over hoe de content is gemaakt. Een score van 66% betekent niet dat de tekst voor 66% door een mens is geschreven en voor 34% door AI, maar eerder dat Originality er voor 66% zeker van is dat de content door een mens is gemaakt. De tool markeert in rood de delen waarvan het denkt dat ze door AI zijn gemaakt en in groen de delen waarvan het zeker is dat ze door mensen zijn gemaakt. Interessant genoeg is het vaak zo dat in teksten die uiteindelijk zijn gecategoriseerd als door mensen geschreven, het grootste deel of ten minste de helft van de inhoud rood is gemarkeerd.
Originality heeft soms moeite om door mensen geschreven content definitief te categoriseren. Van alle gecontroleerde fragmenten werd er slechts één met 100% zekerheid als door mensen geschreven beoordeeld. De resultaten voor de overige teksten varieerden van 52 tot 92% zekerheid dat de content menselijk is.
De tool was iets beter in het verifiëren van door AI gegenereerde content; in 7 van de 10 teksten was de zekerheid dat de content door AI was gegenereerd 100% of 99%. Twijfels ontstonden toen het ging om door AI gegenereerde content in het Pools die vervolgens werd vertaald naar het Engels. Hoewel het artikel was gegenereerd door een van de oudere GPT-modellen (en was gepubliceerd op een blog in september 2022) en nogal wat stijlfouten bevatte, was Originality er voor 92% zeker van dat de Poolse versie door mensen was geschreven. Maar naarmate de vertalingen vorderden, kantelde de balans ten gunste van AI: Originality was 57% zeker dat de door DeepL vertaalde tekst door AI was gegenereerd en 85% zeker voor de Google Translate versie.
De tekst waar Originality de meeste moeite mee had, was een artikel van de populaire site Bankrate.com, waar de content door AI is gegenereerd en door mensen is geverifieerd. Dit was het enige geval waarbij de tool er 88% zeker van was dat het artikel door mensen was geschreven, ook al was het eigenlijk gemaakt met behulp van AI. Het lijkt er dus op dat de sleutel tot het "voor de gek houden" van Originality ligt in het zorgvuldig bewerken van de tekst.
CopyLeaks
De algemene contentbeoordeling in CopyLeaks is binair; de mogelijke resultaten zijn "Dit is menselijke tekst" en "AI-content gedetecteerd". Gedetailleerde verificatie voor specifieke segmenten kan alleen worden bekeken door met de muis over de tekst te gaan. De tool geeft dan aan hoe waarschijnlijk het is dat de geselecteerde alinea door een mens of een AI is geschreven.
CopyLeaks ontdekte in twee van de 10 door mensen geschreven teksten AI-gegenereerde content. Als het ging om content die door AI was gegenereerd, beoordeelde de tool deze als ongeveer evenveel door mensen als door AI gecreëerd. De resultaten zijn dus niet betrouwbaar en kunnen zelfs als nutteloos worden beschouwd. Het is verrassend hoe "gevoelig" CopyLeaks is voor veranderingen. In de geverifieerde voorbeelden was een simpele wijziging van de invoerprompt of de toevoeging van het hoofdstuknummer en titelinformatie voldoende om het resultaat van de evaluatie compleet te veranderen.
Content at Scale - AI DETECTOR
Content at Scale dient voornamelijk als tool voor het automatisch genereren van content, met de verificatiefunctie als extra feature. De makers van de tool beweren dat teksten die door hun systeem worden gegenereerd niet door AI-detectors kunnen worden gedetecteerd. Dit roept de vraag op: is de detector ontworpen om de effectiviteit van de generator te bevestigen?
Het bedrijf geeft op hun website een voorbeeldtekst die is gegenereerd door Content at Scale. Volgens hun eigen detector was het 95% waarschijnlijk dat deze tekst door mensen was geschreven. De AI Text Classifier oordeelde echter dat het onwaarschijnlijk was dat dit het werk van AI was. Originality en CopyLeaks lieten zich echter niet zo gemakkelijk misleiden. Originality beoordeelde de tekst als 100% AI-gegenereerd, terwijl CopyLeaks AI-content detecteerde. Zoals je kunt zien, bieden verschillende detectors verschillende perspectieven.
De detector van Content at Scale deed het vrij goed in het detecteren van content die door een mens was geschreven. Voor 9 van de 10 geverifieerde fragmenten was de waarschijnlijkheid dat ze door mensen waren geschreven groter dan 90%.
De detector had echter meer moeite met AI-gegenereerde tekst; in 6 van de 10 gevallen werden teksten beoordeeld als gemaakt door zowel mensen als AI. De rest werd ten onrechte geclassificeerd als door mensen geschreven.
Hou de detectoren voor de gek
AI-gegenereerde content verschijnt niet zomaar uit het niets. Achter de prompts die het creëren, zit altijd een mens. Dus rijst de vraag: kunnen we manieren bedenken om AI-contentdetectors voor de gek te houden en content te genereren die langs hun detectievermogen glipt?
Het internet staat vol met verschillende trucs om ondetecteerbare prompts te maken. Een daarvan is om de concepten 'perplexiteit' en 'burstiness' uit te leggen aan de chatbot. Het idee is om de AI te sturen zodat hij rekening houdt met deze factoren bij het genereren van nieuwe tekst. Om dit te testen hebben we een chatbot met het GPT-4-model de opdracht gegeven een artikel op te stellen over de beste klimplekken in de omgeving van Parijs.
De resultaten waren interessant. We vergeleken het resultaat van de oorspronkelijke tekstversie en een tweede poging, waarbij we de beoordelingscriteria voor de chatbot verduidelijkten en de chatbot begeleidden bij het menselijker laten lijken van de content:
De enige tool die niet voor de gek gehouden kon worden was Originality. In beide gevallen slaagden we er echter in de AI Text Classifier te misleiden, die concludeerde dat de kans klein was dat beide teksten door AI waren gegenereerd. Interessant genoeg veranderden Content at Scale en CopyLeaks hun mening nadat ChatGPT-4 de tekst had gemaakt, rekening houdend met de richtlijnen over perplexiteit en burstiness.
Wat maakt detectoren onbetrouwbaar?
Detectoren zijn ontworpen om te zoeken naar voorspelbare elementen in de content, bekend als perplexiteit. Hoe lager de voorspelbaarheid, hoe groter de kans dat de tekst op een traditionele manier is geschreven: door een mens. Maar net zoals kleine veranderingen in prompts die worden ingevoerd in een chatbot zoals ChatGPT een compleet ander resultaat kunnen opleveren, kan een kleine wijziging in de tekst die wordt gecontroleerd (die de betekenis ervan slechts licht kan veranderen) de beoordeling die door deze tools wordt gegeven, veranderen.
Neem bijvoorbeeld het kinderboek Bob de Robot, dat voor 80% werd gegenereerd door kunstmatige intelligentie. De uitgever schreef 20% van de creatie toe aan menselijke bewerking van de tekst. Het segment dat we controleerden in termen van hoe het boek was gemaakt, was het eerste hoofdstuk, dat 276 woorden bevatte. We controleerden in wezen dezelfde tekst twee keer, met slechts een kleine wijziging: we voegden "Hoofdstuk 1: Sterrenstad" toe vóór de inhoud van het hoofdstuk. Als gevolg daarvan veranderde Copyleaks.com zijn beoordeling van de herkomst van het boek volledig. In de schone tekst van het hoofdstuk detecteerde de tool content die door AI was gegenereerd, maar dezelfde tekst met informatie over het hoofdstuknummer en de titel werd beschouwd als door mensen geschreven.
Hoe reageren detectors op vertaalde content? Als voorbeeld gebruikten we tekst die was geschreven door een copywriter zonder de hulp van kunstmatige intelligentie. Het artikel was geschreven in het Pools. Hoewel sommige tools deze taal niet ondersteunen, proberen ze toch de content te verifiëren zonder fouten aan te geven. De resultaten van Originality lieten bij het verifiëren van de Poolse tekst 77% zekerheid zien dat de tekst door mensen was geschreven. Dezelfde tekst, vertaald met DeepL, gaf de tool slechts 67% zekerheid dat het door een mens was geschreven. Deze zekerheid daalt naar 36% wanneer de tekst wordt vertaald door Google Translate.
Interessant is dat een ander hulpmiddel, Copyleaks, dat officieel Poolse tekst ondersteunt, alle versies correct classificeerde. De waarschijnlijkheid dat het grootste deel van de tekst door mensen is geschreven (in gedachten houdend dat de tool afzonderlijke delen van de tekst apart beoordeelt) was 99,9% voor de Poolse versie, 89,8% voor de DeepL vertaling en 90,2% voor de Google Translate versie. Hoewel de verschillen klein zijn, is het intrigerend dat Google's vertaling wordt beschouwd als dichter bij een menselijke schrijfstijl dan DeepL, die door Originality tegengesteld werd geclassificeerd.
Waarin verschillen AI-contentdetectors van mensen?
Onderzoekers van de School of Engineering and Applied Science van de Universiteit van Pennsylvania onderzochten hoe mensen AI-gegenereerde content onderscheiden. Zijn we in staat om de verschillen te zien en welke factoren nemen we mee in ons oordeel?
Source: https://
Voor verschillende soorten content richten we ons voornamelijk op relevantie, die doorgaans de sterkste invloed heeft op onze beoordeling. Binnen AI-gegenereerde content detecteren we ook fouten die voortkomen uit een gebrek aan gezond verstand, dat AI-tools niet kunnen verifiëren, en de aanwezigheid van tegenstrijdige segmenten.
AI-detectors baseren hun beoordelingen voornamelijk op de voorspelbaarheid en willekeurigheid van de tekst, zonder rekening te houden met veel andere factoren die door de deelnemers aan het onderzoek naar voren zijn gebracht. We hebben de proef op de som genomen met een artikel dat door kunstmatige intelligentie is gemaakt in september 2022, voordat ChatGPT een begrip werd. Het artikel zit vol met stijlfouten, onlogische zinnen en onhandige formuleringen aan de ene kant, maar aan de andere kant is het wel degelijk 'origineel' en opvallend willekeurig.
De tekst was oorspronkelijk in het Pools, dus we herhaalden het proces van automatische vertalingen via DeepL en Google Translate, en voor de goede orde onderzochten we ook de originele tekst (vergeet niet dat niet alle tools de Poolse taal ondersteunen, maar toch de evaluatie ervan uitvoeren).
Dit zijn de resultaten:
Het is duidelijk dat Originality er het beste in slaagde om de vertaalde tekst te evalueren, maar de resultaten zijn niet eenduidig. Houd er rekening mee dat het proces van automatisch vertalen een 'onnatuurlijk' element in de content kan introduceren, wat deels verantwoordelijk kan zijn voor een verhoogde waarschijnlijkheid dat de content wordt gezien als AI-gegenereerd.
Samenvatting
De paradox van AI-contentdetectietools is dat we zo sceptisch zijn over de kwaliteit van AI-gegenereerde teksten dat we een andere AI-tool nodig hebben om ze te detecteren. De cruciale vragen die we onszelf op dit punt moeten stellen zijn: Kunnen we met absolute zekerheid bepalen hoe een stuk content is gemaakt? Als een artikel goed geschreven is en geen feitelijke fouten bevat, is de manier waarop het geschreven is dan echt van belang?
Er is een wijdverspreide overtuiging dat content die door AI is gemaakt van lage kwaliteit is. Sommigen beweren ook dat websites zullen worden 'gestraft' voor content die op deze manier is gegenereerd. Toch zijn Bing en Google bezig met het gebruik van kunstmatige intelligentie in hun zoekmachines, wat suggereert dat ze de voordelen van zulke oplossingen inzien.
Geen van de tools is foutloos. In onze test deden sommige het beter in het beoordelen van door mensen geschreven teksten, terwijl andere uitblonken met door AI geschreven teksten. De resultaten voor bepaalde content verschilden aanzienlijk tussen de tools. Bij het verifiëren van geselecteerde fragmenten wisten we hoe ze waren gemaakt, maar als we een dergelijke test blind hadden uitgevoerd, zouden de resultaten simpelweg onbetrouwbaar zijn. Het grootste probleem met de beoordelingen van deze tools is de onzekerheid over wanneer ze juist zijn en wanneer ze zich vergissen. Als we ze gebruiken, weten we echt nooit of we ze in een bepaald geval kunnen vertrouwen.