Quand l’IA générative déraille ou les risques de « soleil vert des données »

Pour être efficace, la veille sur Internet est double : d’une part les alertes et l’abonnement à des flux RSS sur des thèmes donnés et d’autre part la scrutation manuelle du web et des réseaux sociaux qui demande du temps. La première permet d’avoir des informations qui viennent automatiquement à soi. La seconde repose sur la sérendipité et le hasard des rencontres d’informations souvent superficielles, inutiles mais parfois aussi de bonnes pioches et des informations non recherchées initialement mais néanmoins pertinentes. Elle est également d’une certaine façon biaisée par les algorithmes des réseaux sociaux qui font que dans votre fil apparaissent des informations censées vous plaire ou qui font le buzz et de fait positionnées en tête de gondole.

En recevant des alertes relatives à la transformation digitale via l’outil basique Google Alerte, j’ai reçu cette information qui cite un livre : La transformation digitale, le guide pour passer à l’action. Le fait est que cet ouvrage n’existe pas. Pour s’en convaincre, des recherches sur Google et sur les livres disponibles sur Amazon permettent de le confirmer. Au départ, l’article en question sur un blog traite d’une fiche de lecture sur le livre blanc La transformation digitale dans l’industrie de la mode. En lisant cet article, je lis – que ce livre qui n’existe pas – a été écrit par Christine Balagué et moi-même. Ceci est faux, j’ai bien écrit des ouvrages avec Christine mais qui traitent des réseaux sociaux (Facebook, Twitter et les autres…, Réseaux sociaux et entreprise : les bonnes pratiques, Pro en réseaux sociaux). Quant à ceux rédigés sur la transformation digitale, ils l’ont tous été avec Michaël Tartar. Puis l’article poursuit avec des affirmations fausses « Là où Fayon et Balagué offrent une vue plus généraliste de la transformation numérique, ce livre blanc se distingue par son ancrage très sectoriel et ses études de cas concrètes » alors même que notre dernier opus avec Michaël La transformation digitale pour tous ! est à la fois générique mais avec une prise en compte des spécificités sectorielles et avec une catégorisation de 18 secteurs d’activité au passage. Ceci permet de moduler le niveau de maturité numérique des entreprises lors de tout diagnostic.

Un exemple d'hallucination avec de l'IA générative ou lorsque du contenu faux est créé

Comme souligné lors d’un article précédent, je me doute fort que cet article découvert au gré de ma veille a été rédigé par une IA générative. La lecture coule de source. En matière d’IA générative, l’association des mots est effectuée de façon probabiliste lors des entraînements comme présenté par Romain Lelong dans l’explication de la construction des LLM.

Fonctionnement d'une IA générative

Ainsi si l’on parle par exemple du mot voiture, il est probable qu’il soit suivi par un adjectif qualificatif, sa couleur, ses caractéristiques, etc. et non par d’autres mots qui n’auraient aucun rapport. C’est la masse gigantesque des données exploitées qui permet de construire des conclusions probabilistes. Pour procéder à une vérification du texte, j’ai utilisé l’outil d’examen des textes Quillbot qui permet d’estimer de façon probabiliste le fait qu’un texte soit rédigé à l’aide d’une IA générative. Il en existe pléthore sur le marché. J’effectue un copier-coller d’un article que j’ai rédigé, en l’occurrence le dernier article sur Telegram, et là j’obtiens une probabilité de 100 % d’une rédaction humaine. Ceci est rassurant. Je procède à un copier-coller vers l’outil Quillbot en veillant à ne pas dépasser 1 200 mots (ce qui est le cas pour la version gratuite) et en sélectionnant une partie de l’article. Là, les résultats indiquent qu’il a tout lieu de penser que cet article émane d’une IA générative. Un point fort de cet outil réside en la distinction en 4 catégories pour le contenu produit avec pour chacune des 4 catégories un pourcentage de la création totale du contenu :

  • Généré par l’IA
  • Généré et amélioré par l’IA
  • Ecrit par un humain et amélioré par l’IA
  • Ecrit par l’humain

Un exemple de détection d'un contenu généré avec de l'IA artificielle et non un humain grâce à un outil probabiliste

Ce dernier type renvoie à notre charte 100 % humain lancée par Yann Gourvennec pour la gastronomie textuelle en opposition au fast food de l’écriture.

L’outil Quillbot précise néanmoins et fort justement « Notre détecteur d’IA est perfectionné, mais aucun détecteur n’est fiable à 100 %, quelle que soit la précision annoncée » et ajoute « N’utilisez jamais la détection d’IA seule pour prendre des décisions qui pourraient avoir un impact sur la carrière ou les résultats scolaires d’une personne ». En effet, la juste cohabitation pour la décision entre IA et humain est nécessaire. Ceci amène comme je le soulignai à Jonathan Chan sur X, producteur de contenu sur les réseaux sociaux, à ma réflexion « Nous avions le détecteur orthographique après un texte rédigé par l’humain sous Word. Désormais avec les IA génératives, le processus est inversé. L’humain doit vérifier le travail réalisé par la machine ».

Quant à l’écriture de texte via des IA génératives, le fait est que celles-ci puisent dans les données qu’on leur donne. Si les sites et les blogs, du fait de non-indexation du contenu par les moteurs de recherche (il suffit d’une balise nofollow dans le code HTML) plus grande à l’avenir, étaient laissées avec moins de données pour s’alimenter, nous aurions une dégénérescence dans la qualité du contenu produit toute chose égale par ailleurs. Il y aurait une alimentation en vase clos avec un parfum de soleil vert des données.

Un risque de soleil vert des données pour l'IA générative

Ceci pourrait se vérifier si certains producteurs de contenu voulaient ne pas avoir le fruit de leur travail happé et noyé dans la masse par des LLM aux algorithmes d’une extrême complexité et opaques. Ces mêmes LLM ont par ailleurs des biais et peuvent générer des hallucinations comme nous venons de le voir à travers cet exemple. En outre la fraîcheur de la donnée et sa contextualisation ainsi que l’importance relative de celles-ci constituent des paramètres essentiels dans la production de textes.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.

Captcha *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.