Da ihnen die „echten Daten“ ausgehen, trainieren KI-Labore Modelle mit… KI-generierten Daten

https://www.clubic.com/actualite-547283-a-court-de-vraies-donnees-les-laboratoires-d-ia-entrainent-des-modeles-avec-des-donnees-generees-par-ia.html

Von pouf_le_cascadeur

8 Comments

  1. Aah on y est enfin, les IA consanguines. Ca a pas réussi dans la monarchie, ça risque pas de marcher dans le numérique non plus.

  2. Personne n’est surpris. Garbage in, garbage out est toujours valable, surtout si les LLM se mettent à faire du recyclage (sans trier leurs déchets)

  3. Moi : Hey ChatGPT combien j’ai de doigts ?

    ChatGPT en 2040 : n̸̡̧̛̙͖͇͙͇̘͔̲͙̆̆̆́͌̍͊̾̍̾̚o̴̡̬͙̙͈̟̟̟͇̪̺̗͒͒͐͌͆͗̍̓̋̀̒͂̀̚͜͜ͅf̴̨͊̽̆͆̆̋̌̏̀̐̐̌̒̍̒ư̷͍̤͖̝̯̜̔̈́̿͆̇̽̅́̚͜͝c̸̨̜̣͉̞̳̹̩̬͇͉̈̔̾̆͜͜k̴̢̨̲̰̪͎̅̑̐̊̓̿í̷̦̪̙̿̃͛͒͆̂̎̂͑̂n̸̢̛̞̮̥͔͚̖̬̖͖͔̈́̍̇̇̈́́͑g̵̨̢̗̘͓͎̪̝̤̺͐́͜ͅc̸̡̻͓̐̀͘l̸̯̺͚̠̬͒̄̊̂̕ụ̸͈̻̲̥̺̻̹͕͊̾͗̋̂̈̐̏͋͂̒́ȩ̶̳̯͔̄̓̀̾m̷̧̛̟̰̗̝̪͔̞̰̝͍̦͚̣̓̈͊̾͗́̿͒̓̈́͑͘y̴̧̻̩̬͎͕̥̦̬̣̫͗͊͌̂͆͊͆̀̅̂̚͝͠g̷͚̼̩̼̟͛̂͌͌͌͛̌͊͋̊͒u̷̜̔̌͌̓̏̚y̶̡̡̛̟̝͙͔̻̦̥̳̣̤̜͚̻l̴̛̺͕͚̺͓͚͆̒͂̐͌̆̑̌̌̾̈́̏́͘ͅm̵̨̡͚̟͕͇͊̾̅ą̴̡̛̛̲̭̫̘͍͎̤̠͓͈̃̉̒͗̈̔̆͝ỏ̶̢̮̹͔̞̫͒͊̀̓̈̚

  4. Competitive_Chad on

    Outre la piètre qualité de l’article qui ne fait que surfer sur des buzzwords, il faut savoir que la littérature scientifique concernant “l’IA” évolue littéralement tout les jours.

    Oui des entreprises “nourrissent des IA” avec des données générés par d’autres “IA”, mais cela dans un but précis et en connaissant les limites de cette méthode.

  5. TrueRignak on

    > des modèles linguistiques entraînés en boucle sur leurs propres générations produisent, dès la neuvième itération, un contenu totalement incohérent

    Je me souviens qu’il y a quelques années, on s’amusait avec des auto-encodeurs (càd des modèles qui font image-to-image mais avec une compression au milieu) à les chaîner sur eux-mêmes pour voir comment évoluait l’espace des sorties. Inévitablement, on aboutissait sur le fait qu’il y avait quelques attracteurs dans cet espace où convergeaient toutes les entrées. Après n-itération de l’auto-encodeur, il n’y avait que trois ou quatre images possibles quelque soit l’entrée qu’on lui mettait.

    Digression mise à part, “entraîner des modèles avec des données générées par IA” n’est pas un problème spécifique aux modèles de langage ou aux applications gadget comme chatGPT. Et ce n’est pas particulièrement saugrenu non plus. C’est très transverse et c’est une technique utilisée depuis longtemps. Depuis même bien avant le deep learning. Par exemple, en télédétection, on n’a pas toujours à disposition les observations qui nous intéresseraient (en observation de la Terre, c’est souvent le problème pour les évènements extrêmes). On se retrouve donc d’un côté à avoir un système pour modéliser l’observation, et de l’autre un système pour le but premier du modèle (segmentation, catégorisation, détection, …).

    Aujourd’hui (‘fin depuis une dizaine d’années en fait), la différence est que l’on peut utiliser des modèles de deep learning pour faire cette augmentation de données. Mais quand on lit que ça “réduit drastiquement la diversité [des sorties] et amplifie mécaniquement leurs biais préexistants”… c’est beaucoup trop péremptoire comme affirmation. Si on le fait connement juste en branchant le modèle, évidemment que ça va faire de la merde, mais ce n’est pas une propriété intrinsèque que rien ne saurait changer. Rien n’empêche d’implémenter le bouzin de sorte à, justement, diminuer les biais préexistants. En météo par exemple, on forcerait une augmentation de la proportion des vents/pluies forts pour pousser le modèle à apprendre sur des cas rares.

  6. LundiDesSaucisses on

    C’est vraiment l’arbre qui jette le bébé avec l’eau du bain cette histoire.

Leave A Reply