Frankreich

LLMs führen kein formales Denken durch – und das ist ein RIESIGES Problem (Wichtige neue Studie von Apple)

14.10.2024

https://garymarcus.substack.com/p/llms-dont-do-formal-reasoning-and

Von grzzt

View 9 Comments

9 Comments

grzzt on 14.10.2024 8:32 PM

lire aussi: [The real data wall is billions of years of evolution](https://dynomight.net/data-wall/)

article en français qui couvre la même étude: https://intelligence-artificielle.developpez.com/actu/363774/L-etude-d-Apple-prouve-que-les-modeles-d-IA-bases-sur-le-LLM-sont-defectueux-car-ils-ne-peuvent-pas-raisonner-Nous-n-avons-trouve-aucune-preuve-de-raisonnement-formel-dans-les-modeles-de-langage/
sacado on 14.10.2024 8:45 PM

> A superb new article on LLMs from six AI researchers at Apple who were brave enough to challenge the dominant paradigm has just come out.

Le fait que les LLM ne fassent pas de raisonnement formel est loin d’être une découverte ni une affirmation controversée, c’est l’essence même de ces techniques (les méthodes statistiques type réseaux de neurones, par opposition aux approches symboliques). Ils ne sont pas faits pour ça.

Ce qui est peut-être un peu plus controversé, c’est que certains chercheurs dans la communauté pensent qu’on pourrait à terme apprendre à un réseau de neurones à raisonner, mais à ma connaissance personne (je ne parle pas des promesses commerciales qui n’engagent que ceux qui y croient) ne dit que c’est possible avec les modèles actuels. Je pense personnellement (comme l’auteur du billet) que l’avenir est à la fusion entre approches connexionnistes et approches logiques.

Quoi qu’il en soit c’est intéressant d’avoir une étude qui montre à quel point ces outils sont peu robustes face à des tâches de raisonnement assez basiques.
NorthKoreanKnuckles on 14.10.2024 8:52 PM

Je speak pas l’anglais.
Jean-Porte on 14.10.2024 9:35 PM

Il faut arrêter de considérer que le raisonnement est quelque chose de binaire qu’on a ou qu’on n’a pas. C’est une notion de degré. Et même avec ces stress tests la plupart des modeles s’en sortent bien mieux que le hasard voire mieux que l’humain median.
YisBlockChainTrendy on 14.10.2024 10:04 PM

Tu aimes bien l’auteur ? C’est pas un peu un connard ?
F-b on 15.10.2024 1:08 AM

Apple en train de justifier la nullité de Siri /s
narnou on 15.10.2024 1:27 AM

Ca me semble tout à fait exact, c’est exactement comme ca que comptent les multinationales qui achètent au producteur de kiwis.
EvolvedEukaryote on 15.10.2024 2:13 AM

Il faut une étude d’Apple pour ça alors que tout le monde peut s’en rendre compte? Rien qu’hier, j’ai donné de simples problèmes de physique à ChatGPT et Gemini (simple application de formules de mécanique ou d’électricité). ChatGPT a fait un peu mieux mais en lui demandant plusieurs fois la même chose, il donne des réponses différentes. Les deux ont donné une mauvaise réponse à cause d’une interprétation erronée de l’énoncé, un peu comme dans l’article.
Personal-Thought9453 on 15.10.2024 5:06 AM

J’ai demandé à chatGPT il y a un an “combien de temps faut il pour chauffer 160L d eau de 15 degrés à 70 degrés en y appliquant 2400W. Chat GPT m a donné le bon raisonnement qu il allait faire, la bonne formule, an appliqué, et m a donné le bon résultat, mais x1000. Je lui ai répondu “non, pas possible, revérifie “ il an est excusé et est revenu vers moi avec un résultat un ordre de grandeur plus proche. Je lui ai dit de revérifier. Il an est excusé et est revenu vers moi avec le bon résultat. Je lui ai dit que c’était le bon résultat et lui ai demandé s il savait pourquoi il s’était trompé. Excusé à nouveau. Je lui repose le même problème avec les mêmes chiffres dans la même session: même erreur d ordre de grandeur. Zéro apprentissage. J ai refait le test dans chatgpt4o: réponse correcte, du premier coup, en un fraction du temps. C est pas un problème de fou, mais c est pas mal.

Der Ukraine-Russland-Krieg und seine geopolitischen Folgen

Bauern in Ehime, Westjapan, ernten die ersten Mandarinen seit der Katastrophe von 2018

Vereinigungsminister: US-N. Ohne Südkorea ist es für Korea schwierig, zu reden

Nach dem größten Dammentfernungsprojekt in der Geschichte der USA kehren Lachse zur Eiablage in historischen Lebensraum zurück

Koreanischer Slang-Leitfaden

Kevin Smith sagt, dass „Dogma 2“ mit der Rückkehr von Ben Affleck und Matt Damon passiert

LLMs führen kein formales Denken durch – und das ist ein RIESIGES Problem (Wichtige neue Studie von Apple)

9 Comments

Der Ukraine-Russland-Krieg und seine geopolitischen Folgen

Bauern in Ehime, Westjapan, ernten die ersten Mandarinen seit der Katastrophe von 2018

Vereinigungsminister: US-N. Ohne Südkorea ist es für Korea schwierig, zu reden

Nach dem größten Dammentfernungsprojekt in der Geschichte der USA kehren Lachse zur Eiablage in historischen Lebensraum zurück

Koreanischer Slang-Leitfaden

Kevin Smith sagt, dass „Dogma 2“ mit der Rückkehr von Ben Affleck und Matt Damon passiert

Tags

LLMs führen kein formales Denken durch – und das ist ein RIESIGES Problem (Wichtige neue Studie von Apple)

9 Comments