LLMs führen kein formales Denken durch – und das ist ein RIESIGES Problem (Wichtige neue Studie von Apple)

https://garymarcus.substack.com/p/llms-dont-do-formal-reasoning-and

Von grzzt

9 Comments

  1. > A superb new article on LLMs from six AI researchers at Apple who were brave enough to challenge the dominant paradigm has just come out.

    Le fait que les LLM ne fassent pas de raisonnement formel est loin d’être une découverte ni une affirmation controversée, c’est l’essence même de ces techniques (les méthodes statistiques type réseaux de neurones, par opposition aux approches symboliques). Ils ne sont pas faits pour ça.

    Ce qui est peut-être un peu plus controversé, c’est que certains chercheurs dans la communauté pensent qu’on pourrait à terme apprendre à un réseau de neurones à raisonner, mais à ma connaissance personne (je ne parle pas des promesses commerciales qui n’engagent que ceux qui y croient) ne dit que c’est possible avec les modèles actuels. Je pense personnellement (comme l’auteur du billet) que l’avenir est à la fusion entre approches connexionnistes et approches logiques.

    Quoi qu’il en soit c’est intéressant d’avoir une étude qui montre à quel point ces outils sont peu robustes face à des tâches de raisonnement assez basiques.

  2. Jean-Porte on

    Il faut arrêter de considérer que le raisonnement est quelque chose de binaire qu’on a ou qu’on n’a pas. C’est une notion de degré. Et même avec ces stress tests la plupart des modeles s’en sortent bien mieux que le hasard voire mieux que l’humain median.

  3. Ca me semble tout à fait exact, c’est exactement comme ca que comptent les multinationales qui achètent au producteur de kiwis.

  4. EvolvedEukaryote on

    Il faut une étude d’Apple pour ça alors que tout le monde peut s’en rendre compte? Rien qu’hier, j’ai donné de simples problèmes de physique à ChatGPT et Gemini (simple application de formules de mécanique ou d’électricité). ChatGPT a fait un peu mieux mais en lui demandant plusieurs fois la même chose, il donne des réponses différentes. Les deux ont donné une mauvaise réponse à cause d’une interprétation erronée de l’énoncé, un peu comme dans l’article.

  5. Personal-Thought9453 on

    J’ai demandé à chatGPT il y a un an “combien de temps faut il pour chauffer 160L d eau de 15 degrés à 70 degrés en y appliquant 2400W. Chat GPT m a donné le bon raisonnement qu il allait faire, la bonne formule, an appliqué, et m a donné le bon résultat, mais x1000. Je lui ai répondu “non, pas possible, revérifie “ il an est excusé et est revenu vers moi avec un résultat un ordre de grandeur plus proche. Je lui ai dit de revérifier. Il an est excusé et est revenu vers moi avec le bon résultat. Je lui ai dit que c’était le bon résultat et lui ai demandé s il savait pourquoi il s’était trompé. Excusé à nouveau. Je lui repose le même problème avec les mêmes chiffres dans la même session: même erreur d ordre de grandeur. Zéro apprentissage. J ai refait le test dans chatgpt4o: réponse correcte, du premier coup, en un fraction du temps. C est pas un problème de fou, mais c est pas mal.

Leave A Reply