Wissenschaft

Neue Forschungsergebnisse zeigen, dass KI strategisch lügt | Das Papier zeigt, wie Anthropics Modell Claude seine Schöpfer während des Trainingsprozesses strategisch in die Irre führt, um einer Modifikation zu entgehen.

19.12.2024

https://time.com/7202784/ai-research-strategic-lying/

View 1 Comment

1 Comment

Brrdock on 19.12.2024 9:10 PM

Paper shows no such thing. It shows that an LLM (why are we calling it AI especially in scientific context) will maximize its reward within the bounds of its “environment,” as is its only function and definition, but that those bounds are hard to unambiguously define and set.

AI doesn’t have intention or “strategy.” If it can take a path that rewards it maximally, it will take that path if it comes across it, like you’d expect. Or I doubt there’s any imaginable way to prove anything about about an LLM’s intention, anyway

Ishiba teilt Selenskyj mit, dass Japan mit der Ukraine zusammenarbeiten werde, um Frieden zu schaffen

Die Regierungspartei beschließt, die Abstimmung über die Ernennung von Richtern des Verfassungsgerichts zu boykottieren

Jede nationale Regierung erhält ihre Befehle von einer einzigen Einheit, dem herrschenden Imperium, dessen Hauptapparat die Krone ist.

Polnische F-35-Kampfflugzeuge treffen im Rahmen eines ausländischen Trainingsprogramms am 188. in Fort Smith ein

Selenskyj verurteilt den russischen Angriff auf das ukrainische Stromnetz am Weihnachtstag

Ich habe dieses Video vor über 3 Jahren gemacht. Damals nannten Sie mich verrückt, weil ich dachte, China sei eine Bedrohung für Estland.

Fmr. Verteidigungsminister: Yoon hat die Ausgangssperre im Entwurf des Kriegsrechtsdekrets gestrichen

Neue Forschungsergebnisse zeigen, dass KI strategisch lügt | Das Papier zeigt, wie Anthropics Modell Claude seine Schöpfer während des Trainingsprozesses strategisch in die Irre führt, um einer Modifikation zu entgehen.

1 Comment

Ishiba teilt Selenskyj mit, dass Japan mit der Ukraine zusammenarbeiten werde, um Frieden zu schaffen

Die Regierungspartei beschließt, die Abstimmung über die Ernennung von Richtern des Verfassungsgerichts zu boykottieren

Jede nationale Regierung erhält ihre Befehle von einer einzigen Einheit, dem herrschenden Imperium, dessen Hauptapparat die Krone ist.

Polnische F-35-Kampfflugzeuge treffen im Rahmen eines ausländischen Trainingsprogramms am 188. in Fort Smith ein

Selenskyj verurteilt den russischen Angriff auf das ukrainische Stromnetz am Weihnachtstag

Ich habe dieses Video vor über 3 Jahren gemacht. Damals nannten Sie mich verrückt, weil ich dachte, China sei eine Bedrohung für Estland.

Fmr. Verteidigungsminister: Yoon hat die Ausgangssperre im Entwurf des Kriegsrechtsdekrets gestrichen

Tags

Neue Forschungsergebnisse zeigen, dass KI strategisch lügt | Das Papier zeigt, wie Anthropics Modell Claude seine Schöpfer während des Trainingsprozesses strategisch in die Irre führt, um einer Modifikation zu entgehen.

1 Comment