Qual è la qualità dei rilevatori di IA nella classificazione dei contenuti?
(12 min. di lettura)
La maggior parte degli strumenti di IA per la generazione di contenuti si basa sui modelli linguistici GPT forniti da OpenAI. Pertanto, i modelli che utilizzano per creare contenuti sono in qualche modo simili. Attualmente è possibile creare, migliorare o modificare testi non solo direttamente nell'applicazione ChatGPT, ma anche in documenti notion.so o utilizzando il plugin Grammarly.
Oggi, una quantità sempre maggiore di contenuti pubblicati online è generata da o con l'aiuto dell'intelligenza artificiale. Di conseguenza, stanno emergendo nuovi modi per verificare l'origine dei contenuti: i rilevatori di IA. Abbiamo deciso di indagare sulla loro affidabilità e sul grado di fiducia che possiamo riservargli.
Come funzionano i rilevatori di IA?
Gli strumenti di rilevamento dei contenuti provenienti dall'IA si basano essenzialmente su nuovi modelli linguistici che sono stati addestrati per distinguere tra i testi scritti dagli esseri umani e quelli creati dall'intelligenza artificiale. Questi strumenti determinano le loro valutazioni di probabilità in base alla perplexity (misura della casualità) e alla burstiness (misura della variazione della perplexity) del testo. Gli esseri umani tendono a scrivere con maggiore casualità: ad esempio, spesso intervalliamo frasi più lunghe con altre più brevi e meno complesse. I rilevatori di contenuti di IA identificano queste caratteristiche attraverso l'addestramento su milioni di testi campione, precedentemente classificati come scritti dall'uomo o creati dall'IA.
Mentre i modelli di IA come ChatGPT e altri strumenti basati su GPT possono generare contenuti in diverse lingue, la maggior parte degli strumenti di verifica supporta principalmente l'inglese. Come si fa quindi a verificare i contenuti in altre lingue?
Un metodo è quello di verificare i testi tradotti automaticamente da strumenti come DeepL o Google Translate. È fondamentale ricordare, però, che questo metodo di traduzione impone anche determinati modelli ai testi, in base ai quali vengono tradotti automaticamente, andando a influenzare la valutazione del rilevatore. Tuttavia, alcuni rilevatori sono inclini a verificare contenuti in altre lingue, nonostante il loro supporto ufficiale sia limitato all'inglese.
Inoltre, ciascun rilevatore ha delle limitazioni per quanto riguarda la lunghezza dei contenuti che può verificare, che dipendono dall'utilizzo di una versione gratuita o a pagamento. Inoltre, utilizzano metodi diversi per valutare l'origine dei contenuti; alcuni forniscono una percentuale di probabilità che, a loro giudizio, il testo sia stato generato da una fonte specifica, mentre altri utilizzano valutazioni verbali oppure una scala binaria (sì o no).
Gli strumenti che abbiamo testato
Tra le varie soluzioni disponibili sul mercato, abbiamo analizzato al microscopio i quattro strumenti più diffusi e li abbiamo testati utilizzando un campione di 20 testi. Abbiamo selezionato 10 testi scritti da esseri umani e 10 generati dall'intelligenza artificiale per valutare come questi strumenti li avrebbero classificati.
Nel gruppo di testi scritti con metodi tradizionali, abbiamo incluso articoli scritti interamente da copywriter (alcuni di questi sono stati scritti prima del 2021, il che esclude la partecipazione dell'intelligenza artificiale alla loro stesura), estratti di letteratura (compresi i libri per bambini), articoli di notizie e guide didattiche. I contenuti generati dall'IA includono frammenti di letteratura creati in questo modo, come The Inner Life of an AI: A Memoir by ChatGPT e Bob the Robot, oltre ad articoli prodotti utilizzando l'intelligenza artificiale (compresi quelli già pubblicati online e quelli appena creati da GPT-3.5 e GPT-4). Nel nostro campione di contenuti analizzati abbiamo inserito anche testi in polacco con le relative traduzioni di DeepL e Google Translate. Tutti i test sono stati condotti sugli stessi frammenti di testo e, data la diversità dei metodi di classificazione, abbiamo esaminato i risultati strumento per strumento.
Riportiamo di seguito una raccolta di testi scritti da esseri umani:
e quelli generati dall’intelligenza artificiale:
L’AI Text Classifier di OpenAI
L'AI Text Classifier di OpenAI (i creatori dei modelli GPT) è lo strumento più diffuso per individuare i contenuti creati dall'intelligenza artificiale. Valuta ed esprime i suoi risultati in termini di probabilità che il testo analizzato sia stato creato dall'intelligenza artificiale. Ciò avviene utilizzando una serie di categorie: "altamente improbabile", "improbabile", "incerto" e "probabilmente generato dall'intelligenza artificiale". Come si può notare, questa scala offre un discreto margine di sfumature. OpenAI stessa fa notare nella descrizione dello strumento che i risultati potrebbero non essere sempre accurati e che il rilevatore potrebbe potenzialmente sbagliare a classificare sia i contenuti creati dall'IA sia quelli scritti da esseri umani. È importante notare che il modello utilizzato per addestrare il classificatore di testi dell'IA non includeva lavori di studenti, quindi non è consigliato per verificare tali contenuti.
Su 10 testi scritti da esseri umani, l'AI Text Classifier ne ha classificati correttamente 9 come "altamente improbabile" o "improbabile" che siano stati creati dall'intelligenza artificiale. Tuttavia, ha più difficoltà a classificare quelli generati dall'intelligenza artificiale. In questo caso, lo strumento classifica spesso il testo come "incerto", "improbabile" o " probabile" che sia stato generato dall'intelligenza artificiale.
Originality.AI
Un altro strumento molto utilizzato per verificare i contenuti creati con l'intelligenza artificiale si chiama Originality. I suoi creatori affermano che ha un tasso di efficacia del 95,93%. È l'unico strumento della nostra lista ad avere un costo, con una tariffa di 0,01 dollari per ogni 100 parole verificate. Il pacchetto minimo costa 20 dollari. Oltre a verificare l'origine dei contenuti, Originality li esamina anche per individuare eventuali plagi.
Originality utilizza delle percentuali per esprimere la certezza sulle modalità di creazione del contenuto. Un punteggio del 66% di Originality non significa che il testo sia stato scritto per il 66% da un essere umano e per il 34% dall'intelligenza artificiale, ma bensì che Originality è certa al 66% che il contenuto sia stato creato da un essere umano. Il tool evidenzia in rosso le parti che ritiene siano state generate dall'IA e in verde quelle che è sicuro siano opera umana. È interessante notare come spesso, nei testi classificati come scritti dall'uomo, la maggior parte o almeno la metà del contenuto venga evidenziata in rosso.
In alcuni casi, Originality fatica a classificare in modo univoco i contenuti scritti da un essere umano. Di tutti i frammenti verificati, soltanto uno è stato classificato con il 100% di certezza come scritto da un essere umano. Per i testi restanti, i risultati variano dal 52 al 92% di certezza che il contenuto fosse umano.
Il tool ha svolto un lavoro leggermente migliore nella verifica dei contenuti generati dall'IA; in 7 testi su 10, la certezza che il contenuto fosse generato dall'IA era del 100% o del 99%. I dubbi sono sorti quando si trattava di contenuti generati dall'IA in polacco e poi tradotti in inglese. Benché l'articolo fosse stato generato da uno dei modelli GPT più vecchi (pubblicato su un blog nel settembre 2022) e presentasse diversi errori stilistici, Originality era certa al 92% che la versione polacca fosse stata scritta da un uomo. Ma quando le traduzioni sono proseguite, le stime si sono spostate a favore dell'IA: Originality aveva il 57% di certezza che il contenuto tradotto da DeepL fosse generato dall'IA e l'85% di certezza per la versione di Google Translate.
Il testo che ha dato più problemi a Originality è stato un articolo del popolare sito Bankrate.com, il cui contenuto è generato dall'IA e verificato da esseri umani. Questo è stato l'unico caso in cui lo strumento era sicuro all'88% che l'articolo fosse scritto da un essere umano, anche se in realtà era stato creato con l'aiuto dell'IA. Sembra quindi che la chiave per "ingannare" Originality risieda in un attento editing del testo.
CopyLeaks
La valutazione complessiva del contenuto in CopyLeaks è binaria; i risultati possibili sono "Si tratta di testo umano" e "Rilevato contenuto AI". La verifica dettagliata di segmenti specifici può essere visualizzata solo se si scorre il mouse sul testo. Il tool indica la probabilità che il paragrafo selezionato sia stato scritto da un essere umano o da un'IA.
Su 10 testi scritti da esseri umani, CopyLeaks ha rilevato contenuti generati dall'IA in due di essi. Quando si è trattato di contenuti generati dall'IA, lo strumento li ha valutati in egual misura come creati dall'uomo e dall'IA. Pertanto, i risultati non sono affidabili e potrebbero addirittura essere considerati inutili. È sorprendente quanto CopyLeaks si dimostri "sensibile" alle modifiche. Negli esempi verificati, è bastata una semplice modifica del prompt di input o l'aggiunta del numero del capitolo e delle informazioni sul titolo per cambiare completamente il risultato della valutazione.
Content at Scale - AI DETECTOR
Content at Scale è principalmente uno strumento per la generazione automatica di contenuti, con la funzione di verifica come caratteristica aggiuntiva. I creatori del tool affermano che i testi generati dal loro sistema non sono intercettabili dai rilevatori di IA. Viene spontaneo chiedersi: ma il rilevatore è stato progettato per confermare l'efficacia del generatore?
La società fornisce un esempio di testo generato da Content at Scale sul proprio sito web. Secondo il loro stesso rilevatore, questo testo aveva una probabilità del 95% di essere scritto da un essere umano. In ogni caso, l'AI Text Classifier ha giudicato improbabile che sia opera dell'IA. Originality e CopyLeaks, però, non si sono fatti ingannare così facilmente. Originality ha valutato il testo come generato al 100% dall'IA, mentre CopyLeaks ha rilevato il contenuto dell'IA. Come si può notare, i diversi rilevatori offrono prospettive diverse.
Il rilevatore di Content at Scale si è comportato abbastanza bene nell'individuare i contenuti scritti da un essere umano. Per 9 su 10 dei frammenti verificati, la probabilità che fossero scritti da un essere umano ha superato il 90%.
Tuttavia, ha avuto più difficoltà con i contenuti generati dall'IA; in 6 casi su 10, ha classificato i testi come creati sia da esseri umani che dall'IA. I restanti sono stati classificati erroneamente come scritti da un essere umano.
Ingannare i rilevatori
I contenuti generati dall'IA non appaiono dal nulla. Dietro i prompt che li creano, c'è sempre un essere umano. Quindi, la domanda sorge spontanea: possiamo escogitare dei metodi per ingannare i rilevatori di contenuti di IA e generare contenuti che sfuggono alle loro capacità di rilevazione?
Internet è pieno di trucchi per creare prompt non intercettabili. Uno di questi è quello di spiegare al chatbot i concetti di "perplexity" (perplessità) e "burstiness" (irruenza). L'idea è quella di guidare l'IA nel prendere in considerazione questi fattori quando genera un nuovo testo. Per metterlo alla prova, abbiamo chiesto a un chatbot basato sul modello GPT-4 di redigere un articolo sulle migliori zone di arrampicata nei dintorni di Parigi.
I risultati sono stati interessanti. Abbiamo confrontato il risultato della versione originale del testo e un secondo tentativo, in cui abbiamo chiarito i criteri di valutazione per il chatbot e lo abbiamo guidato su come far sembrare il contenuto più simile a quello umano:
L'unico tool che non è stato ingannato è stato Originality. Tuttavia, in entrambi i casi, siamo riusciti a ingannare l'AI Text Classifier, che ha ritenuto bassa la possibilità che entrambi i contenuti fossero stati generati dall'IA. È interessante notare come Content at Scale e CopyLeaks abbiano cambiato opinione dopo che ChatGPT-4 ha elaborato il testo, prendendo in considerazione le linee guida sulla perplessità e l'irruenza.
Cos'è che rende i rilevatori inaffidabili?
I rilevatori sono progettati per individuare gli elementi prevedibili del contenuto, noti come perplessità. Più bassa è la prevedibilità, maggiore è la possibilità che il testo sia stato scritto in modo tradizionale: da un essere umano. Tuttavia, così come lievi cambiamenti nei prompt inseriti in un chatbot come ChatGPT possono produrre un risultato completamente diverso, anche una piccola modifica nel testo da controllare (che può alterare solo leggermente il suo significato) può cambiare la valutazione data da questi strumenti.
Per esempio, prendiamo il libro per bambini Bob the Robot, che è stato generato per l'80% da un'intelligenza artificiale. L'editore ha attribuito il 20% della creazione all'editing umano del testo. Il segmento che abbiamo verificato in termini di creazione del libro è stato il primo capitolo, composto da 276 parole. Abbiamo verificato essenzialmente lo stesso testo due volte, con una sola piccola modifica: abbiamo aggiunto "Capitolo 1: Star City" prima del contenuto del capitolo. Di conseguenza, Copyleaks.com ha cambiato completamente la sua valutazione sull'origine del libro. Nel testo pulito del capitolo, il tool aveva rilevato un contenuto generato dall'IA, ma lo stesso testo con le informazioni sul numero del capitolo e sul titolo è stato considerato scritto da un essere umano.
Quindi, come rispondono i rilevatori ai contenuti tradotti? Come esempio, abbiamo utilizzato un contenuto scritto da un copywriter senza l'ausilio dell'intelligenza artificiale. L'articolo era stato scritto in polacco. Anche se alcuni strumenti non supportano questa lingua, cercano comunque di verificarne il contenuto senza segnalare errori. I risultati forniti da originality.ai hanno mostrato il 77% di certezza che il contenuto fosse scritto da un essere umano quando è stato verificato il testo polacco. Lo stesso testo, tradotto con DeepL, ha dato allo strumento solo il 67% di certezza che fosse stato scritto da un essere umano. Questa certezza scende al 36% quando il testo viene tradotto da Google Translate.
Tuttavia, un altro strumento, Copyleaks, che supporta ufficialmente i contenuti in polacco, ha classificato correttamente tutte le versioni. La probabilità che la maggior parte del testo fosse scritto da un essere umano (tenendo presente che il tool valuta separatamente le singole parti del testo) era del 99,9% per la versione polacca, dell'89,8% per la traduzione di DeepL e del 90,2% per la versione di Google Translate. Nonostante le differenze siano minime, è sorprendente notare come la traduzione di Google sia considerata più vicina allo stile di scrittura umano rispetto a DeepL, che è stata classificata in modo opposto da Originality.
In che modo i rilevatori di contenuti generati dall’IA si differenziano dagli esseri umani?
I ricercatori della School of Engineering and Applied Science dell'Università della Pennsylvania hanno studiato il modo in cui gli esseri umani discernono i contenuti generati dall'IA. Siamo in grado di individuare le differenze? E quali fattori consideriamo nella nostra valutazione?
Per i vari tipi di contenuto, ci concentriamo principalmente sulla rilevanza, che di solito esercita l’influenza maggiore sulla nostra valutazione. All'interno dei contenuti generati dall'IA, rileviamo anche errori derivanti dalla mancanza di buon senso logico, che i tool di IA non possono verificare, e dalla presenza di segmenti contraddittori.
I rilevatori di IA basano le loro valutazioni principalmente sulla prevedibilità e sulla casualità del testo, senza considerare molti altri fattori evidenziati dai partecipanti allo studio. Abbiamo messo alla prova questo aspetto con un articolo creato dall'intelligenza artificiale nel settembre 2022, prima che ChatGPT diventasse un nome noto. L'articolo è, da un lato, pieno di errori stilistici, frasi illogiche e formulazioni sgraziate ma, dall'altro, è effettivamente "originale" e decisamente casuale.
Il testo era originariamente in polacco, quindi abbiamo ripetuto il processo di traduzione automatica tramite DeepL e Google Translate e, per sicurezza, abbiamo anche esaminato il testo originale (si tenga presente che non tutti i tool supportano la lingua polacca, ma ne effettuano la valutazione).
Ecco i risultati:
Come è evidente, Originality.ai ha gestito al meglio il processo di valutazione del testo tradotto, ma i suoi risultati non sono del tutto univoci. Si tenga presente che il processo di traduzione automatica può introdurre un elemento "innaturale" nel contenuto, il che può in parte spiegare la maggiore probabilità che il contenuto venga percepito come generato dall'IA.
Conclusioni
Il paradosso dei tool per il rilevamento dei contenuti di IA è che abbiamo un tale livello di scetticismo sulla qualità dei testi generati dall'IA che abbiamo bisogno di un altro strumento basato sull'IA per rilevarli. Le domande sostanziali che a questo punto dovremmo porci sono: Possiamo determinare con assoluta certezza come sia stato creato un contenuto? Se un articolo è ben scritto e di fatto non contiene errori, ha davvero importanza il modo in cui è stato scritto?
È opinione diffusa che i contenuti creati dall'IA siano di bassa qualità. Alcuni sostengono anche che i siti web saranno "penalizzati" per i contenuti generati in questo modo. Tuttavia, Bing e Google si stanno muovendo verso l'utilizzo dell'intelligenza artificiale nei loro motori di ricerca, il che suggerisce che ne comprendono i benefici.
Nessuno di questi tool è infallibile. Durante il nostro esperimento, alcuni sono risultati migliori nella valutazione dei testi scritti da esseri umani, mentre altri hanno prevalso con quelli scritti dall'IA. I risultati per alcuni contenuti variano significativamente da strumento a strumento. Quando abbiamo verificato alcuni estratti selezionati, sapevamo in che modo erano stati creati, ma se avessimo condotto un test del genere alla cieca, i risultati sarebbero stati semplicemente non attendibili. Il problema principale delle valutazioni di questi tool è l'incertezza nel capire quando sono corrette e quando sono sbagliate. Utilizzandole, non sappiamo davvero mai se possiamo fidarci di loro nei casi singoli.
L'articolo che segue è una traduzione dell'articolo polacco "Detektory treści AI - jak radzą sobie z klasyfikacją tekstu?", scritto da Agata Gruszka, International SEO Manager di WhitePress®