Qual é a qualidade dos detectores de IA na classificação de conteúdos?
(14 minutos de leitura)
A maioria das ferramentas de geração de conteúdo de IA são baseadas em modelos de linguagem de GPT providenciados pela OpenAI. Portanto, os padrões utilizados para criação de conteúdo são semelhantes. Atualmente, podemos criar, melhorar ou editar textos não só diretamente na aplicação do ChatGPT como na secção de documentos do Notion ou através do plugin Grammarly.
Hoje em dia, uma quantidade crescente de conteúdos publicados online é gerada por ou com a ajuda da inteligência artificial. Consequentemente, estão a surgir novas formas de verificar a origem dos conteúdos: detetores de IA. Decidimos investigar a sua fiabilidade e o grau de confiança que podemos depositar neles.
Como funcionam os detores de IA?
As ferramentas de deteção de conteúdos com IA baseiam-se essencialmente em novos modelos linguísticos que foram treinados para distinguir entre textos escritos por humanos e textos criados por inteligência artificial. Estas ferramentas determinam as suas avaliações de probabilidades com base na perplexidade (medida da aleatoriedade) e na explosão (medida da variação da perplexidade) do texto. Os seres humanos tendem a escrever com maior aleatoriedade - por exemplo, é frequente intercalarmos frases mais longas com outras mais curtas e menos complexas. Os detectores de conteúdo de IA identificam estas características através da formação em milhões de textos de amostra, previamente categorizados como escritos por humanos ou criados por IA.
Embora os modelos de IA como o ChatGPT e outras ferramentas baseadas em GPT possam gerar conteúdos numa variedade de línguas, a maioria das ferramentas de verificação suporta principalmente o inglês. Então, como é que se verifica o conteúdo noutras línguas?
Um método é verificar textos que foram traduzidos automaticamente por ferramentas como DeepL ou Google Translate. No entanto, é fundamental lembrar que este método de tradução também impõe determinados padrões aos textos, de acordo com os quais são traduzidos automaticamente, influenciando a avaliação do detetor. No entanto, alguns detetores estão dispostos a verificar conteúdos noutras línguas, apesar do seu suporte oficial se limitar ao inglês.
Cada detetor tem também as suas limitações relativamente à extensão dos conteúdos que pode verificar, que dependem do facto de se utilizar uma versão gratuita ou paga. Além disso, utilizam métodos diferentes para avaliar a origem dos conteúdos; alguns fornecem uma percentagem de certeza, na sua opinião, de que o texto foi gerado por uma fonte específica, enquanto outros utilizam avaliações verbais ou uma escala binária: sim ou não.
Ferramentas que verificamos
A partir da gama de soluções disponíveis no mercado, colocámos as quatro ferramentas mais populares sob o microscópio e testámo-las utilizando um conjunto de 20 textos de amostra. Selecionámos 10 textos escritos por humanos e 10 gerados por inteligência artificial para avaliar a forma como estas ferramentas os classificariam.
No lote de textos escritos tradicionalmente, incluímos artigos escritos inteiramente por redactores (alguns deles foram escritos antes de 2021, o que exclui a participação da IA na sua escrita), excertos de literatura (incluindo livros infantis), artigos de notícias e manuais de instruções. O conteúdo gerado pela IA incluiu fragmentos de literatura criados desta forma, como The Inner Life of an AI: A Memoir by ChatGPT e Bob the Robot, bem como artigos produzidos com recurso à inteligência artificial (incluindo tanto os já publicados online como os recém-criados pelo GPT-3.5 e GPT-4). Também incorporámos textos em polaco, juntamente com as suas traduções por DeepL e Google Translate, na nossa amostra de conteúdo analisado. Todos os testes foram efectuados com os mesmos fragmentos de texto e, tendo em conta os diferentes métodos de classificação, examinámos os resultados numa base de ferramenta a ferramenta.
Abaixo, apresentamos uma compilação de textos escritos por humanos:
e aqueles gerados por inteligência artificial:
Classificador de Texto IA da OpenAI
O Classificador de Texto IA da OpenAI, os criadores dos modelos GPT, é a ferramenta mais popular para detetar conteúdos criados por inteligência artificial. Avalia e expressa as suas conclusões em termos da probabilidade de o texto analisado ter sido criado por inteligência artificial. Isto é feito utilizando uma série de categorias: "muito improvável", "improvável", "pouco claro", "possivelmente" e "provavelmente gerado por IA". Como se pode ver, esta escala oferece um grau razoável de nuances. A própria OpenAI refere na descrição da ferramenta que os resultados podem nem sempre ser exactos e que o detetor pode classificar incorretamente tanto o conteúdo criado por IA como o conteúdo escrito por humanos. É importante notar que o modelo utilizado para treinar o classificador de texto da IA não incluía trabalhos de estudantes, pelo que não é recomendado para verificar esse tipo de conteúdo.
De 10 textos escritos por humanos, o Classificador de Texto IA classificou corretamente 9 como "muito improvável" ou "improvável" de terem sido criados por inteligência artificial. No entanto, tem mais dificuldade em categorizar os textos gerados por IA. Neste caso, a ferramenta classifica frequentemente o texto como "pouco claro", "improvável" ou "possivelmente" gerado por IA.
Originality.AI
Outra ferramenta muito utilizada para verificar conteúdos criados com inteligência artificial chama-se Originality. Os seus criadores afirmam que tem uma taxa de eficácia de 95,93%. É a única ferramenta da nossa lista que tem um custo, cobrando $0,01 por cada 100 palavras verificadas. O pacote mínimo custa $20. Para além de verificar a origem do conteúdo, a Originality também rastreia quanto a plágio.
A Originality utiliza percentagens para refletir a sua certeza quanto à forma como o conteúdo foi criado. Uma pontuação de 66% de Originalidade não significa que o texto foi 66% escrito por um humano e 34% por IA, mas sim que a Originality tem 66% de certeza de que o conteúdo foi criado por um humano. A ferramenta destaca a vermelho as partes que acredita terem sido geradas por IA e a verde as partes que acredita serem trabalho humano. Curiosamente, é frequente que nos textos que acabam por ser categorizados como escritos por humanos, a maior parte ou pelo menos metade do conteúdo esteja destacado a vermelho.
Por vezes, a Originality tem dificuldade em categorizar definitivamente o conteúdo escrito por humanos. De todos os fragmentos verificados, apenas um foi classificado com 100% de certeza como escrito por humanos. Os resultados para os restantes textos variaram entre 52 e 92% de certeza de que o conteúdo é humano.
A ferramenta fez um trabalho ligeiramente melhor na verificação do conteúdo gerado por IA; em 7 de 10 textos, a certeza de que o conteúdo foi gerado por IA foi de 100% ou 99%. As dúvidas surgiram quando se tratou de conteúdo gerado por IA em polaco e depois traduzido para inglês. Apesar de o artigo ter sido gerado por um dos modelos GPT mais antigos (e ter sido publicado num blog em setembro de 2022) e ter alguns erros de estilo, a Originalidade tinha 92% de certeza de que a versão polaca tinha sido escrita por humanos. Mas à medida que as traduções continuaram, a balança inclinou-se a favor da IA: a Originality tinha 57% de certeza de que o conteúdo traduzido para DeepL era gerado por IA e 85% de certeza para a versão do Google Translate.
O texto que causou mais problemas à Originality foi um artigo do popular website Bankrate.com, onde o conteúdo é gerado por IA e verificado por humanos. Este foi o único caso em que a ferramenta tinha 88% de certeza de que o artigo tinha sido escrito por humanos, apesar de ter sido efetivamente criado com a ajuda da IA. Portanto, parece que a chave para "enganar" a Originality está na edição cuidadosa do texto.
CopyLeaks
A classificação geral do conteúdo no CopyLeaks é binária; os resultados possíveis são "Isto é texto humano" e "Conteúdo de IA detetado". A verificação pormenorizada de segmentos específicos só pode ser visualizada ao passar o cursor do rato sobre o texto. A ferramenta indica então, a probabilidade de o parágrafo selecionado ter sido escrito por um humano ou por uma IA.
Dos 10 textos escritos por humanos, o CopyLeaks detetou conteúdo gerado por IA em dois deles. No que diz respeito ao conteúdo gerado por IA, a ferramenta avaliou-o como sendo igualmente criado por humanos e por IA. Por conseguinte, os resultados não são fiáveis e podem mesmo ser considerados inúteis. É surpreendente como o CopyLeaks é "sensível" a alterações. Nos exemplos verificados, uma simples alteração do pedido de introdução ou a adição do número do capítulo e da informação do título foi suficiente para alterar completamente o resultado da avaliação.
Content at Scale - DETETOR DE IA
O Content at Scale funciona principalmente como uma ferramenta para a criação automática de conteúdos, sendo a sua função de verificação uma caraterística adicional. Os criadores da ferramenta afirmam que os textos gerados pelo seu sistema não são detetáveis pelos detetores de IA. Isto levanta a questão: o detetor foi concebido para confirmar a eficácia do gerador?
A empresa fornece um exemplo de texto gerado pelo Content at Scale no seu website. De acordo com o seu próprio detetor, este texto foi avaliado como tendo uma probabilidade de 95% de ser escrito por humanos. No entanto, o AI Text Classifier considerou improvável que fosse obra de IA. O Originality e a CopyLeaks, no entanto, não foram tão facilmente enganadas. O Originality classificou o texto como 100% gerado por IA, enquanto o CopyLeaks detetou conteúdo de IA. Como se pode ver, os diferentes detetores oferecem perspectivas diferentes.
O detetor do Content at Scale teve um bom desempenho na deteção de conteúdo escrito por um humano. Para 9 em cada 10 dos fragmentos verificados, a probabilidade de serem escritos por humanos excedeu 90%.
No entanto, teve mais dificuldades com o conteúdo gerado por IA; em 6 de 10 casos, classificou os textos como criados por humanos e por IA. Os restantes foram incorretamente classificados como escritos por humanos.
Enganar os detectores
Os conteúdos gerados por IA não aparecem do nada. Por detrás dos comandos que os criam, há sempre um humano. Por isso, coloca-se a questão: será que podemos conceber formas de enganar os detetores de conteúdos da IA e gerar conteúdos que escapem às suas capacidades de deteção?
A Internet está cheia de diversos truques para criar prompts indetectáveis. Um deles consiste em explicar ao chatbot os conceitos de "perplexidade" e "explosão". A ideia é orientar a IA para ter em conta estes fatores ao gerar um novo texto. Para por isto à prova, pedimos a um chatbot alimentado pelo modelo GPT-4 para redigir um artigo sobre os melhores locais de escalada em Paris.
Os resultados foram interessantes. Comparámos o resultado da versão original do texto e de uma segunda tentativa, em que clarificámos os critérios de avaliação para o chatbot e o orientámos sobre como fazer com que o conteúdo parecesse mais humano:
A única ferramenta que não foi enganada foi a Originality. No entanto, em ambos os casos, conseguimos enganar o Classificador de Texto de IA, que concluiu que a probabilidade de ambos os conteúdos serem gerados por IA era baixa. Curiosamente, o Content at Scale e o CopyLeaks mudaram as suas opiniões depois de o ChatGPT-4 ter criado o texto, tendo em consideração as diretrizes sobre perplexidade e explosão.
O que torna os detetores pouco fiáveis?
Os detetores são concebidos para procurar elementos previsíveis do conteúdo, conhecidos como perplexidade. Quanto menor for a previsibilidade, maior é a probabilidade de o texto ter sido escrito de forma tradicional: por um humano. No entanto, tal como pequenas alterações nas instruções introduzidas num chatbot como o ChatGPT podem produzir um resultado completamente diferente, uma pequena modificação no texto que está a ser verificado (que pode alterar apenas ligeiramente o seu significado) pode alterar a avaliação dada por estas ferramentas.
Veja-se, por exemplo, o livro infantil Bob the Robot, que foi 80% gerado por inteligência artificial. A editora atribuiu 20% da criação à edição humana do texto. O segmento que verificámos em termos da forma como o livro foi criado foi o seu primeiro capítulo, composto por 276 palavras. Verificámos essencialmente o mesmo texto duas vezes, com apenas uma pequena alteração: acrescentámos "Capítulo 1: Star City" antes do conteúdo do capítulo. Consequentemente, o Copyleaks.com alterou completamente a sua avaliação da origem do livro. No texto limpo do capítulo, a ferramenta detetou conteúdo gerado por IA, mas o mesmo texto com informação sobre o número e o título do capítulo foi considerado escrito por humanos.
Então, como é que os detetores respondem ao conteúdo traduzido? Como exemplo, utilizámos conteúdo escrito por um redator sem a ajuda de inteligência artificial. O artigo foi escrito em polaco. Apesar de algumas ferramentas não suportarem esta língua, continuam a tentar verificar o conteúdo sem assinalar quaisquer erros. Os resultados fornecidos pela Originality.ai mostraram 77% de certeza de que o conteúdo foi escrito por humanos quando verificamos o texto em polaco. O mesmo texto, quando traduzido com a ajuda do DeepL, deu-nos apenas 67% de certeza que teria sido escrito por humanos. Esta certeza desceu para 36% quando o texto foi traduzido pelo Google Translate.
Curiosamente, outra ferramenta, Copyleaks, que oficialmente apoia conteúdo polaco, classificou corretamente todas as versões. A probabilidade de a maioria do texto ter sido escrito por humanos (tendo em conta que a ferramenta avalia, separadamente,partes individuais do texto) foi de 99.9% para a versão polaca, 89.8% para a tradução do DeepL e 90.2% para a versão do Google Translate. Apesar das diferenças serem poucas, é interessante que a tradução do Google seja mais semelhante ao estilo de escrita humano do que o DeepL, que foi classificado em oposição pela Originality.
Como é que os detetores de conteúdo se distinguem dos humanos?
Investigadores da Escola de Engenharia e Ciência Aplicada da Universidade da Pensilvânia pesquisaram como os humanos distinguem o conteúdo gerado por IA. Somos capazes de encontrar as diferenças e que fatores consideramos no nosso julgamento?
Para vários tipos de conteúdo, centramo-nos principalmente na relevância, que normalmente exerce a maior influência na nossa avaliação. Nos conteúdos gerados por IA, também detetamos erros resultantes da falta de lógica de senso comum, que as ferramentas de IA não podem verificar, e da presença de segmentos contraditórios.
Os detectores de IA baseiam as suas avaliações principalmente na previsibilidade e na aleatoriedade do texto, sem ter em conta muitos outros fatores salientados pelos participantes no estudo. Pusemos isto à prova com um artigo criado pela inteligência artificial em setembro de 2022, antes de o ChatGPT se tornar um nome conhecido. O artigo está repleto de erros de estilo, frases ilógicas e frases estranhas, mas, por outro lado, é de facto "original" e notavelmente aleatório.
O texto estava originalmente em polaco, pelo que repetimos o processo de tradução automática através de DeepL e do Google Translate e, para não haver dúvidas, examinámos também o texto original (tenha em atenção que nem todas as ferramentas suportam a língua polaca, mas ainda assim fazem a sua avaliação).
Eis os resultados:
Como é evidente, o Originality.ai foi o que melhor conseguiu avaliar o texto traduzido, mas os seus resultados não são inequívocos. Não se esqueça de que o processo de tradução automática pode introduzir um elemento "não natural" no conteúdo, o que pode explicar em parte a maior probabilidade de o conteúdo ser entendido como gerado por IA.
Resumo
O paradoxo das ferramentas de deteção de conteúdos de IA é que temos um tal nível de ceticismo quanto à qualidade dos textos gerados por IA que precisamos de outra ferramenta baseada em IA para os detetar. As perguntas cruciais que devemos fazer a nós próprios nesta altura são: Podemos determinar com absoluta certeza como é que um conteúdo foi criado? Se um artigo estiver bem escrito e não contiver erros factuais, a forma como foi escrito é realmente importante?
Existe uma crença generalizada de que os conteúdos criados por IA são de baixa qualidade. Alguns também argumentam que os websites serão "penalizados" pelo conteúdo gerado desta forma. No entanto, o Bing e o Google estão a avançar para a utilização de inteligência artificial nos seus motores de busca, o que sugere que vêem os benefícios de tais soluções.
Nenhuma das ferramentas é infalível. No nosso ensaio, algumas tiveram melhor desempenho na avaliação de textos escritos por humanos, enquanto outras se destacaram com os textos escritos por IA. Os resultados de alguns conteúdos variaram significativamente entre as ferramentas. Ao verificar excertos selecionados, sabíamos como tinham sido criados, mas se tivéssemos realizado um teste deste tipo às cegas, os resultados seriam simplesmente pouco fiáveis. O maior problema com as avaliações destas ferramentas é a incerteza de saber quando estão corretas e quando estão erradas. Ao utilizá-las, nunca sabemos verdadeiramente se podemos confiar nelas num determinado caso.
O seguinte artigo é uma tradução do artigo polaco "Detektory treści AI - jak radzą sobie z klasyfikacją tekstu?" escrito por Agata Gruszka, Gestora Internacional de SEO na WhitePress®.