Tags
Aktuelle Nachrichten
America
Aus Aller Welt
Breaking News
Canada
DE
Deutsch
Deutschsprechenden
Europa
Europe
Global News
Internationale Nachrichten aus aller Welt
Japan
Japan News
Kanada
Konflikt
Korea
Krieg in der Ukraine
Latest news
Maps
Nachrichten
News
News Japan
Polen
Russischer Überfall auf die Ukraine seit 2022
Science
South Korea
Ukraine
UkraineWarVideoReport
Ukraine War Video Report
Ukrainian Conflict
United Kingdom
United States
United States of America
US
USA
USA Politics
Vereinigte Königreich Großbritannien und Nordirland
Vereinigtes Königreich
Welt
Welt-Nachrichten
Weltnachrichten
Wissenschaft
World
World News
8 Comments
Aah on y est enfin, les IA consanguines. Ca a pas réussi dans la monarchie, ça risque pas de marcher dans le numérique non plus.
Personne n’est surpris. Garbage in, garbage out est toujours valable, surtout si les LLM se mettent à faire du recyclage (sans trier leurs déchets)
Moi : Hey ChatGPT combien j’ai de doigts ?
ChatGPT en 2040 : n̸̡̧̛̙͖͇͙͇̘͔̲͙̆̆̆́͌̍͊̾̍̾̚o̴̡̬͙̙͈̟̟̟͇̪̺̗͒͒͐͌͆͗̍̓̋̀̒͂̀̚͜͜ͅf̴̨͊̽̆͆̆̋̌̏̀̐̐̌̒̍̒ư̷͍̤͖̝̯̜̔̈́̿͆̇̽̅́̚͜͝c̸̨̜̣͉̞̳̹̩̬͇͉̈̔̾̆͜͜k̴̢̨̲̰̪͎̅̑̐̊̓̿í̷̦̪̙̿̃͛͒͆̂̎̂͑̂n̸̢̛̞̮̥͔͚̖̬̖͖͔̈́̍̇̇̈́́͑g̵̨̢̗̘͓͎̪̝̤̺͐́͜ͅc̸̡̻͓̐̀͘l̸̯̺͚̠̬͒̄̊̂̕ụ̸͈̻̲̥̺̻̹͕͊̾͗̋̂̈̐̏͋͂̒́ȩ̶̳̯͔̄̓̀̾m̷̧̛̟̰̗̝̪͔̞̰̝͍̦͚̣̓̈͊̾͗́̿͒̓̈́͑͘y̴̧̻̩̬͎͕̥̦̬̣̫͗͊͌̂͆͊͆̀̅̂̚͝͠g̷͚̼̩̼̟͛̂͌͌͌͛̌͊͋̊͒u̷̜̔̌͌̓̏̚y̶̡̡̛̟̝͙͔̻̦̥̳̣̤̜͚̻l̴̛̺͕͚̺͓͚͆̒͂̐͌̆̑̌̌̾̈́̏́͘ͅm̵̨̡͚̟͕͇͊̾̅ą̴̡̛̛̲̭̫̘͍͎̤̠͓͈̃̉̒͗̈̔̆͝ỏ̶̢̮̹͔̞̫͒͊̀̓̈̚
CiclejerkAI**™**
Outre la piètre qualité de l’article qui ne fait que surfer sur des buzzwords, il faut savoir que la littérature scientifique concernant “l’IA” évolue littéralement tout les jours.
Oui des entreprises “nourrissent des IA” avec des données générés par d’autres “IA”, mais cela dans un but précis et en connaissant les limites de cette méthode.
> des modèles linguistiques entraînés en boucle sur leurs propres générations produisent, dès la neuvième itération, un contenu totalement incohérent
Je me souviens qu’il y a quelques années, on s’amusait avec des auto-encodeurs (càd des modèles qui font image-to-image mais avec une compression au milieu) à les chaîner sur eux-mêmes pour voir comment évoluait l’espace des sorties. Inévitablement, on aboutissait sur le fait qu’il y avait quelques attracteurs dans cet espace où convergeaient toutes les entrées. Après n-itération de l’auto-encodeur, il n’y avait que trois ou quatre images possibles quelque soit l’entrée qu’on lui mettait.
—
Digression mise à part, “entraîner des modèles avec des données générées par IA” n’est pas un problème spécifique aux modèles de langage ou aux applications gadget comme chatGPT. Et ce n’est pas particulièrement saugrenu non plus. C’est très transverse et c’est une technique utilisée depuis longtemps. Depuis même bien avant le deep learning. Par exemple, en télédétection, on n’a pas toujours à disposition les observations qui nous intéresseraient (en observation de la Terre, c’est souvent le problème pour les évènements extrêmes). On se retrouve donc d’un côté à avoir un système pour modéliser l’observation, et de l’autre un système pour le but premier du modèle (segmentation, catégorisation, détection, …).
Aujourd’hui (‘fin depuis une dizaine d’années en fait), la différence est que l’on peut utiliser des modèles de deep learning pour faire cette augmentation de données. Mais quand on lit que ça “réduit drastiquement la diversité [des sorties] et amplifie mécaniquement leurs biais préexistants”… c’est beaucoup trop péremptoire comme affirmation. Si on le fait connement juste en branchant le modèle, évidemment que ça va faire de la merde, mais ce n’est pas une propriété intrinsèque que rien ne saurait changer. Rien n’empêche d’implémenter le bouzin de sorte à, justement, diminuer les biais préexistants. En météo par exemple, on forcerait une augmentation de la proportion des vents/pluies forts pour pousser le modèle à apprendre sur des cas rares.
C’est vraiment l’arbre qui jette le bébé avec l’eau du bain cette histoire.
On savait que ça arriverait.