Inzwischen habe ich den Anfang des Papers
https://arxiv.org/pdf/2308.14752.pdf gelesen. Hier meine Meinung dazu:
Ich finde das Paper anstrengend zu lesen, wegen der verwendeten Begrifflichkeiten, die aus meiner Sicht wenig sachlich sondern meist bedeutungsbeladen sind, implizite Nebenaussagen taetigen und die Stimmung praegen. Wissenschaftliche Arbeit stelle ich mir anders vor.
Beispielsweise:
Manipulation: Meta developed the AI system CICERO to play the alliance-building and world-conquest game Diplomacy. Meta’s intentions were to train Cicero to be “largely honest and helpful to its speaking partners” (Bakhtin et al. 2022b). Despite Meta’s efforts, CICERO turned out to be an expert liar. It not only betrayed other players, but also engaged in premeditated deception, planning in advance to build a fake alliance with a player in order to trick that player into leaving themselves undefended for an attack.
Das ist eine starke, bildliche Sprache. Dabei haette man auch einfach nur sagen koennen, dass Cicero erfolglich Diplomacy spielen kann und dabei auf eine Vielzahl von Verhaltensmoeglichkeiten zurueckgreift, wie es jeder gute menschliche Spieler auch tun wuerde. ``Largely honest and helpful to its speaking partners'' widerspricht nunmal dem Spielerfolg. In diesem Dilemma kann die KI dann halt entweder nett/ehrlich oder erfolgreich sein. Als Entwickler einer KI fuer ein Spiel waere ich wenig zufrieden mit einem Ergebnis, das sie nett/ehrlich ist aber nicht gewinnt. Folglich ist es erwartbar, dass die KI vor allem erfolgreich sein soll, wodurch das ``largely honest and helpful'' zu einer netten Marketinganmerkung herabgestuft werden wird. -- Ich habe das Ursprungspaper dieser Aussage nicht gelesen, sondern analysiere hier nur was zu erwarten ist. ``... planning in advance to build a fake alliance with a player in order to trick that player into leaving themselves undefended for an attack'' ist jedenfalls (soweit ich Diplomacy kenne) eine ganz normale Strategie, um zu gewinnen ... vermutlich sogar eine fast essenzielle Strategie, um ueberhaupt gewinnen zu koennen. Siehe:
https://en.wikipedia.org/wiki/Diplomacy_(game) hat geschrieben:
players spend much of their time forming and betraying alliances with other players
[...]
In the negotiation phase, players discuss tactics and strategy, form alliances, and share intelligence or spread disinformation. Negotiations may be made public or kept private. Players are not bound to anything they say or promise, and no agreements are enforceable.
Communication and trust are highly important; players must forge alliances with others and observe their actions to evaluate their trustworthiness. At the same time, they must convince others of their own trustworthiness while making plans to turn against their allies when least expected. A well-timed betrayal can be just as profitable as an enduring, reliable alliance.
Es wird hier also eine moralische Erwartung gemacht, die in einem solchen Spiel nicht angebracht ist. Sie widerspricht ja geradezu dem moeglichst erfolgreichen Spielen eines solchen Spieles ... wenn man es fuer sich alleine betrachtet. Die moralische Bewertung wird nur dann ggf. relevant, wenn man weiteren Kontakt mit den Mitspielern abseits des Spiels pflegen will, und diese nicht klar zwischen Spiel und Realitaet trennen koennen. Wuerde man dies in den Versuch mit einbeziehen, dann waere die Erfolgsbewertung auch eine andere und somit wuerde die KI anders agieren. Bloss weil Menschen oft Skrupel haben, auch wenn sie nur in einem Spiel moeglichst erfolgreich sein sollen, finde ich das eine seltsame Basis, um daran eine KI abzuwerten, die die gestellte Aufgabe viel besser und zielgerichteter erreicht als die meisten Menschen. Die moralische Bewertung finde ich hier fehl am Platz.
Diesen Punkt finde ich durchaus interessant:
Loss of control: Deceptive AI systems will be more likely to escape the control of humanoperators. One risk is that deceptive AI systems will pretend to behave safely during the testing phase in order to ensure their release.
Letztlich kann man all diese Punkte aber damit zusammenfassen, dass eine KI sich so verhaelt, dass sie moeglichst erfolgreich ihr Ziel erreicht.
For example, we will document cases where instead of strictly pursuing the accuracy of outputs, AI systems instead try to win games, please users, or imitate text.
Die relevante Frage ist also, wie das Ziel festgelegt wird. Und dann ist es entscheidend, ob die KI einfach dieses Ziel -- auf welchem Weg auch immer -- erreicht, oder ob sie andere Ziele erreicht. Insofern sie das gesetzte Ziel erreicht, so ist die moralische Frage, bezogen auf die KI, unpassend, sondern sie muss den Menschen, die das Ziel vorgeben, gestellt werden! Das waere dann aber eine Arbeit ueber KI-Hersteller und nicht ueber KI-Systeme.
Und es muss gefragt werden, ob KI-Technologie ueberhaupt technisch in der Lage oder geeignet ist, um anhand einer moralischen oder Korrektheits-/Wahrheitsvorgabe arbeiten zu koennen. (Ich persoenlich denke, dass ein unscharfes System niemals Exaktheit liefern kann. Man kann halt nicht beides haben: die gewollte Unscharfheit und zugleich auch Exaktheit, sondern man muss verstehen, dass manche System unscharf sind und andere exakt, jeweils mit allen Vor- und Nachteilen. Die Staerke von KI-Systemen ist ja gerade ihr unscharfes Wesen ... nur wird in all der euphorischen Marketingpropaganda halt nie erwaehnt, dass das unscharfe Wesen Exaktheit ausschliesst.)
Insofern die KI andere Ziele erreicht, muss man die fehlende Qualitaet der KI kritisieren. Mit Moral hat das aber nichts zu tun. Moral kann hier nur ein beliebiges, austauschbares, gleichgestelltes Ziel fuer das Verhalten der KI sein.
Stoerend finde ich den unzaehlige Male verwendeten Begriff ``truth'' (Wahrheit). Ich finde es unpassend, dass eine Erwartung von Wahrheit vorhanden ist und ihr Fehlen kritisiert wird, wenn es darum geht, dass eine KI ein gesetztes Ziel moeglichst erfolgreich verfolgt. Bei menschlichen Pokerspielern wuerde ja auch niemand auf die Idee kommen, von Wahrheit zu reden, weil allen klar ist, dass Bluffen Teil des erfolgreichen Spiels ist. Warum wird das von KIs verlangt, wenn die Anforderung, nur wahrheitsgemaesse Aussagen zu machen, nicht Teil ihrer Anforderung war? (Zumal hinlaenglich bekannt ist, dass Menschen, besonders diejenigen, die engagiert Ziele erreichen wollen, selten moralisch komplett integer sind. So gesehen, verhaelt sich die KI nur ebenso wie wir Menschen auch ... was nicht ueberraschen sollte, wenn sie aehnlich aufgebaut ist, wie unser Gehirn.)
It is difficult to talk about deception in AI systems without psychologizing them. In humans, we ordinarily explain deception in terms of beliefs and desires: a person engages in deception because they want to cause the listener to form a false belief, and understands that their deceptive words are not true. But it is difficult to say whether AI systems literally count as having beliefs and desires. For this reason, our definition does not require that AI systems literally have beliefs and goals. Instead, our definition focuses on the question of whether AI systems engage in regular patterns of behavior that tend towards the creation of false beliefs in users, and focuses on cases where this pattern is the result of AI systems optimizing for a different outcome than merely producing truth.
Sie sagen, dass KIs kein geplant manipulatives Verhalten unterstellt werden koenne, aber ihre Wortwahl deutet eben genau das die ganze Zeit an. Sie sagen, dass man es neutraler betrachten muesse, tun das aber nicht. Das ueberzeugt mich einfach nicht.
Gerade der letzte Satz -- KI-Systeme, die etwas anderes anstreben, als nur die Wahrheit zu erzeugen -- ... Diese Erwartung, dass die Wahrheit eine stets zu erwartende Grundlage von KI-Systemen sei, wo sie gar nicht dafuer gemacht sind, in einer Weise zu arbeiten, dass dies sichergestellt werden koennte, ...
Nun, man kann das Thema und die potenziellen Gefahren schon kritisch sehen (und ich selbst bin klar fuer weniger, langsamere und vorsichtigere Forschung in diesem Thema), aber dann sollte das mit anderer Sprache und neutralerem Blick auf das Eigentliche geschehen. Ich finde das Paper, in seinem Stil, einfach keine gute wissenschaftliche Arbeit.
Auf Seite 5 (von 30) habe ich aufgehoert zu lesen, weil es mir zu anstrengend war, mit meiner Unzufriedenheit durch die konstante unterschwellige Emotionalitaet der Sprache umzugehen. Ich vermute/hoffe, dass die folgenden Hauptteile des Papers etwas sachlicher sein werden, als die Zusammenfassung, ... aber warum kann die Zusammenfassung dann nicht auch sachlich sein?! Mich stoeren die vielen Unterstellungen, die nicht -- wie ich das bei wissenschaftlicher Arbeit erwarte -- entlarvt, zerlegt und separiert werden. Ich denke durchaus, dass in dem Paper relevante Aspekte stecken, insbesondere moralische Fragen, die aber nicht gestellt werden, sondern verwoben mit all den anderen Inhalten als Grundstimmung transportiert werden -- nicht als Analyse, sondern als Meinung.