Frankreich

Da ihnen die „echten Daten“ ausgehen, trainieren KI-Labore Modelle mit… KI-generierten Daten

16.12.2024

https://www.clubic.com/actualite-547283-a-court-de-vraies-donnees-les-laboratoires-d-ia-entrainent-des-modeles-avec-des-donnees-generees-par-ia.html

Von pouf_le_cascadeur

View 8 Comments

8 Comments

CcChaleur on 16.12.2024 10:18 PM

Aah on y est enfin, les IA consanguines. Ca a pas réussi dans la monarchie, ça risque pas de marcher dans le numérique non plus.
Tarnique on 16.12.2024 10:23 PM

Personne n’est surpris. Garbage in, garbage out est toujours valable, surtout si les LLM se mettent à faire du recyclage (sans trier leurs déchets)
roux-cool on 16.12.2024 10:30 PM

Moi : Hey ChatGPT combien j’ai de doigts ?

ChatGPT en 2040 : n̸̡̧̛̙͖͇͙͇̘͔̲͙̆̆̆́͌̍͊̾̍̾̚o̴̡̬͙̙͈̟̟̟͇̪̺̗͒͒͐͌͆͗̍̓̋̀̒͂̀̚͜͜ͅf̴̨͊̽̆͆̆̋̌̏̀̐̐̌̒̍̒ư̷͍̤͖̝̯̜̔̈́̿͆̇̽̅́̚͜͝c̸̨̜̣͉̞̳̹̩̬͇͉̈̔̾̆͜͜k̴̢̨̲̰̪͎̅̑̐̊̓̿í̷̦̪̙̿̃͛͒͆̂̎̂͑̂n̸̢̛̞̮̥͔͚̖̬̖͖͔̈́̍̇̇̈́́͑g̵̨̢̗̘͓͎̪̝̤̺͐́͜ͅc̸̡̻͓̐̀͘l̸̯̺͚̠̬͒̄̊̂̕ụ̸͈̻̲̥̺̻̹͕͊̾͗̋̂̈̐̏͋͂̒́ȩ̶̳̯͔̄̓̀̾m̷̧̛̟̰̗̝̪͔̞̰̝͍̦͚̣̓̈͊̾͗́̿͒̓̈́͑͘y̴̧̻̩̬͎͕̥̦̬̣̫͗͊͌̂͆͊͆̀̅̂̚͝͠g̷͚̼̩̼̟͛̂͌͌͌͛̌͊͋̊͒u̷̜̔̌͌̓̏̚y̶̡̡̛̟̝͙͔̻̦̥̳̣̤̜͚̻l̴̛̺͕͚̺͓͚͆̒͂̐͌̆̑̌̌̾̈́̏́͘ͅm̵̨̡͚̟͕͇͊̾̅ą̴̡̛̛̲̭̫̘͍͎̤̠͓͈̃̉̒͗̈̔̆͝ỏ̶̢̮̹͔̞̫͒͊̀̓̈̚
Codex_Absurdum on 16.12.2024 10:34 PM

CiclejerkAI**™**
Competitive_Chad on 16.12.2024 10:43 PM

Outre la piètre qualité de l’article qui ne fait que surfer sur des buzzwords, il faut savoir que la littérature scientifique concernant “l’IA” évolue littéralement tout les jours.

Oui des entreprises “nourrissent des IA” avec des données générés par d’autres “IA”, mais cela dans un but précis et en connaissant les limites de cette méthode.
TrueRignak on 16.12.2024 10:53 PM

> des modèles linguistiques entraînés en boucle sur leurs propres générations produisent, dès la neuvième itération, un contenu totalement incohérent

Je me souviens qu’il y a quelques années, on s’amusait avec des auto-encodeurs (càd des modèles qui font image-to-image mais avec une compression au milieu) à les chaîner sur eux-mêmes pour voir comment évoluait l’espace des sorties. Inévitablement, on aboutissait sur le fait qu’il y avait quelques attracteurs dans cet espace où convergeaient toutes les entrées. Après n-itération de l’auto-encodeur, il n’y avait que trois ou quatre images possibles quelque soit l’entrée qu’on lui mettait.

—

Digression mise à part, “entraîner des modèles avec des données générées par IA” n’est pas un problème spécifique aux modèles de langage ou aux applications gadget comme chatGPT. Et ce n’est pas particulièrement saugrenu non plus. C’est très transverse et c’est une technique utilisée depuis longtemps. Depuis même bien avant le deep learning. Par exemple, en télédétection, on n’a pas toujours à disposition les observations qui nous intéresseraient (en observation de la Terre, c’est souvent le problème pour les évènements extrêmes). On se retrouve donc d’un côté à avoir un système pour modéliser l’observation, et de l’autre un système pour le but premier du modèle (segmentation, catégorisation, détection, …).

Aujourd’hui (‘fin depuis une dizaine d’années en fait), la différence est que l’on peut utiliser des modèles de deep learning pour faire cette augmentation de données. Mais quand on lit que ça “réduit drastiquement la diversité [des sorties] et amplifie mécaniquement leurs biais préexistants”… c’est beaucoup trop péremptoire comme affirmation. Si on le fait connement juste en branchant le modèle, évidemment que ça va faire de la merde, mais ce n’est pas une propriété intrinsèque que rien ne saurait changer. Rien n’empêche d’implémenter le bouzin de sorte à, justement, diminuer les biais préexistants. En météo par exemple, on forcerait une augmentation de la proportion des vents/pluies forts pour pousser le modèle à apprendre sur des cas rares.
LundiDesSaucisses on 16.12.2024 11:05 PM

C’est vraiment l’arbre qui jette le bébé avec l’eau du bain cette histoire.
Lautael on 17.12.2024 3:44 AM

On savait que ça arriverait.

Hochrangiger russischer Beamter deutet Rache für Explosion in Moskau an

Yoon ignoriert Vorladungen und erscheint nicht zur Befragung

2024 Field Goal-Versuche nach Spielzeit [OC]

Umfragen zu den Bundestagswahlen in Kanada von Riding (17. Dezember 2024)

DARPA möchte die roten Blutkörperchen von Kriegskämpfern so modifizieren, dass sie in gefährlichen Umgebungen effektiver funktionieren können

NASA-Astronauten, die mit Boeings Raumschiff geflogen sind, bleiben noch länger im Weltraum

Johnny Somali „hat große Angst“, dass ihm noch mehr Gefängnis droht, nachdem die Polizei sein Telefon gestohlen hat – Dexerto

Da ihnen die „echten Daten“ ausgehen, trainieren KI-Labore Modelle mit… KI-generierten Daten

8 Comments

Hochrangiger russischer Beamter deutet Rache für Explosion in Moskau an

Yoon ignoriert Vorladungen und erscheint nicht zur Befragung

2024 Field Goal-Versuche nach Spielzeit [OC]

Umfragen zu den Bundestagswahlen in Kanada von Riding (17. Dezember 2024)

DARPA möchte die roten Blutkörperchen von Kriegskämpfern so modifizieren, dass sie in gefährlichen Umgebungen effektiver funktionieren können

NASA-Astronauten, die mit Boeings Raumschiff geflogen sind, bleiben noch länger im Weltraum

Johnny Somali „hat große Angst“, dass ihm noch mehr Gefängnis droht, nachdem die Polizei sein Telefon gestohlen hat – Dexerto

Tags

Da ihnen die „echten Daten“ ausgehen, trainieren KI-Labore Modelle mit… KI-generierten Daten

8 Comments