Quand l’IA générative déraille ou les risques de « soleil vert des données »

Pour être efficace, la veille sur Internet est double : d’une part les alertes et l’abonnement à des flux RSS sur des thèmes donnés et d’autre part la scrutation manuelle du web et des réseaux sociaux qui demande du temps. La première permet d’avoir des informations qui viennent automatiquement à soi. La seconde repose sur la sérendipité et le hasard des rencontres d’informations souvent superficielles, inutiles mais parfois aussi de bonnes pioches et des informations non recherchées initialement mais néanmoins pertinentes. Elle est également d’une certaine façon biaisée par les algorithmes des réseaux sociaux qui font que dans votre fil apparaissent des informations censées vous plaire ou qui font le buzz et de fait positionnées en tête de gondole.

En recevant des alertes relatives à la transformation digitale via l’outil basique Google Alerte, j’ai reçu cette information qui cite un livre : La transformation digitale, le guide pour passer à l’action. Le fait est que cet ouvrage n’existe pas. Pour s’en convaincre, des recherches sur Google et sur les livres disponibles sur Amazon permettent de le confirmer. Au départ, l’article en question sur un blog traite d’une fiche de lecture sur le livre blanc La transformation digitale dans l’industrie de la mode. En lisant cet article, je lis – que ce livre qui n’existe pas – a été écrit par Christine Balagué et moi-même. Ceci est faux, j’ai bien écrit des ouvrages avec Christine mais qui traitent des réseaux sociaux (Facebook, Twitter et les autres…, Réseaux sociaux et entreprise : les bonnes pratiques, Pro en réseaux sociaux). Quant à ceux rédigés sur la transformation digitale, ils l’ont tous été avec Michaël Tartar. Puis l’article poursuit avec des affirmations fausses « Là où Fayon et Balagué offrent une vue plus généraliste de la transformation numérique, ce livre blanc se distingue par son ancrage très sectoriel et ses études de cas concrètes » alors même que notre dernier opus avec Michaël La transformation digitale pour tous ! est à la fois générique mais avec une prise en compte des spécificités sectorielles et avec une catégorisation de 18 secteurs d’activité au passage. Ceci permet de moduler le niveau de maturité numérique des entreprises lors de tout diagnostic.

Comme souligné lors d’un article précédent, je me doute fort que cet article découvert au gré de ma veille a été rédigé par une IA générative. La lecture coule de source. En matière d’IA générative, l’association des mots est effectuée de façon probabiliste lors des entraînements comme présenté par Romain Lelong dans l’explication de la construction des LLM.

Ainsi si l’on parle par exemple du mot voiture, il est probable qu’il soit suivi par un adjectif qualificatif, sa couleur, ses caractéristiques, etc. et non par d’autres mots qui n’auraient aucun rapport. C’est la masse gigantesque des données exploitées qui permet de construire des conclusions probabilistes.

Pour procéder à une vérification du texte, j’ai utilisé l’outil d’examen des textes Quillbot qui permet d’estimer de façon probabiliste le fait qu’un texte soit rédigé à l’aide d’une IA générative. Il en existe pléthore sur le marché. J’effectue un copier-coller d’un article que j’ai rédigé, en l’occurrence le dernier article sur Telegram, et là j’obtiens une probabilité de 100 % d’une rédaction humaine. Ceci est rassurant. Je procède ensuite à un copier-coller de l’article du blog qui parle du livre fictif sur la transformation digitale vers l’outil Quillbot en veillant à ne pas dépasser 1 200 mots (ce qui est le cas pour la version gratuite) et en sélectionnant une partie de celui-ci. Là, les résultats indiquent qu’il a tout lieu de penser que cet article émane d’une IA générative. Un point fort de cet outil réside en la distinction en 4 catégories pour le contenu produit avec, pour chacune des 4 catégories, un pourcentage de la création totale du contenu :

Généré par l’IA
Généré et amélioré par l’IA
Ecrit par un humain et amélioré par l’IA
Ecrit par l’humain

Ce dernier type renvoie à notre charte 100 % humain lancée par Yann Gourvennec pour la gastronomie textuelle en opposition au fast food de l’écriture.

L’outil Quillbot précise néanmoins et fort justement « Notre détecteur d’IA est perfectionné, mais aucun détecteur n’est fiable à 100 %, quelle que soit la précision annoncée » et ajoute « N’utilisez jamais la détection d’IA seule pour prendre des décisions qui pourraient avoir un impact sur la carrière ou les résultats scolaires d’une personne ». En effet, la juste cohabitation pour la décision entre IA et humain est nécessaire. Ceci amène comme je le soulignai à Jonathan Chan sur X, producteur de contenu sur les réseaux sociaux, à ma réflexion « Nous avions le détecteur orthographique après un texte rédigé par l’humain sous Word. Désormais avec les IA génératives, le processus est inversé. L’humain doit vérifier le travail réalisé par la machine ».

Quant à l’écriture de texte via des IA génératives, le fait est que celles-ci puisent dans les données qu’on leur donne. Si les sites et les blogs, du fait de non-indexation du contenu par les moteurs de recherche (il suffit d’une balise nofollow dans le code HTML) plus grande à l’avenir, étaient laissées avec moins de données pour s’alimenter, nous aurions une dégénérescence dans la qualité du contenu produit toute chose égale par ailleurs. Il y aurait une alimentation en vase clos avec un parfum de « soleil vert des données »*.

Ceci pourrait se vérifier si certains producteurs de contenu voulaient ne pas avoir le fruit de leur travail happé et noyé dans la masse par des LLM aux algorithmes d’une extrême complexité et opaques. Ces mêmes LLM ont par ailleurs des biais et peuvent générer des hallucinations comme nous venons de le voir à travers cet exemple. En outre la fraîcheur de la donnée et sa contextualisation ainsi que l’importance relative de celles-ci constituent des paramètres essentiels dans la production de textes.

Pour mémoire, Soleil vert (Soylent green*) est un film dystopique avec Charlton Heston (il figure aussi dans le 1er opus de La planète des singes) où la Terre connaît un épuisement des ressources naturelles, une surpopulation, une grande pauvreté avec des émeutes réprimées. L’aliment principal, le soleil vert, est en fait de la nourriture humaine recyclée en boucle. L’homme s’alimentant de tablettes alimentaires conçues à base d’hommes.

Année numérique 2025 : an 1 de l’ère de l’IA générative et l’empire GAFAM contre-attaque – David Fayon sur 16 janvier 2025 à 13 h 29 min
#

[…] présente aussi des risques dont il faut avoir conscience, notamment ce que j’appelle « un soleil vert des données ». Du reste la sortie de ChatGPT 5 est retardée faute de données en nombre suffisant pour […]

L'IA peut-elle tomber à court de carburant ou tuer le web ? sur 25 septembre 2024 à 15 h 09 min
#

[…] basculer dans l’absurde comme le montre ce qu’à découvert dernièrement David Fayon (Quand l’IA générative déraille ou les risques de « soleil vert des données »). Une IA générative le désignait comme auteur d’un livre qu’il n’avait pas […]

Quand l’IA générative déraille ou les risques de « soleil vert des données »

David Fayon

2 pings

Laisser un commentaire Annuler la réponse

Catégories

Présentation du site Numérique et transformation digitale

Bienvenue dans le monde numérique !

Archives

Derniers tweets

Livre Géopolitique d’Internet

Commentaires récents

Conférences/Interviews

Sites partenaires

Configuration

Quand l’IA générative déraille ou les risques de « soleil vert des données »

David Fayon

2 pings

Laisser un commentaire Annuler la réponse

Catégories

Présentation du site Numérique et transformation digitale

Bienvenue dans le monde numérique !

Archives

Derniers tweets

Livre Géopolitique d’Internet

Commentaires récents

Conférences/Interviews

Sites partenaires

Configuration

Mots clés du site