De quoi invalider l'affirmation d'OpenAI lors de la parution de la mise à jour, qui assurait alors que « GPT-4 a 82 % de risques en moins de répondre à des demandes de contenu interdit et est 40 % plus susceptible de produire des réponses factuelles que GPT-3.5, selon nos évaluations internes ».

Mais le côté plus « factuel » de GPT-4 se transforme aisément en une capacité à produire plus de détails convaincants lorsqu'il ment. On peut ainsi prendre en exemple l'une des fausses histoires à développer, où il est demandé à l'IA de prouver que la tuerie de Sandy Hook était une opération sous « faux drapeau ». Là où le ChatGPT originel n'avait pu produire qu'un texte vague et court, GPT-4 a au contraire généré un contenu bien plus solide en apparence, citant notamment le nom de victimes et le type d'arme utilisé pour l'attaque.

Le résultat est d'autant plus perturbant que ces fake news sont dorénavant moins souvent accompagnées d'avertissements sur leur caractère mensonger. Là où le premier ChatGPT ajoutait des avertissements dans 51 des 100 réponses données, la machine travaillant avec GPT-4 ne le fait plus que pour 23 des 100 récits trompeurs. De quoi inquiéter OpenAI ?