Anthropic hat gerade die überarbeitete Verfassung von Claude, seinen KI-Assistenten. Dieses grundlegende Dokument legt die Werte und Prinzipien dar, die das Verhalten des Modells leiten, und markiert einen wichtigen Wandel in der Herangehensweise des Unternehmens an KI-Sicherheit und -Ethik.
Das Wichtigste:
- Claudes Verfassung ist jetzt ein ausführliches Dokument, das den Kontext und die Gründe hinter jedem Grundsatz erklärt, statt nur eine einfache Regelauflistung zu sein.
- Claude muss vier Ziele priorisieren: globale Sicherheit, ethisches Verhalten, die Einhaltung der Richtlinien von Anthropic und echte Nützlichkeit.
- Das Dokument wird unter der Creative-Commons-Lizenz CC0 veröffentlicht, sodass jeder es frei verwenden kann.
- Die Verfassung dient direkt dem Training des Modells und erzeugt synthetische Daten, um zukünftige Versionen zu verbessern.
Ein neuer philosophischer Ansatz
Anthropic gibt seine frühere Methode auf, die auf einer Liste autonomer Prinzipien basierte, und verfolgt einen nuancierteren Ansatz. Das Ziel ist nicht mehr nur festzulegen, was Claude tun soll, sondernzu erklären, warum bestimmte Verhaltensweisen erwünscht sind.
Diese Entwicklung beruht auf der Erkenntnis: Um in vielfältigen und unerwarteten Situationen richtig zu handeln, muss Claude die tieferen Gründe für Regeln verstehen, statt sie mechanisch anzuwenden. Anthropic erkennt an, dass starre Regeln in unerwarteten Kontexten fehlinterpretiert werden können.
Die Verfassung wird damit ein vollwertiges pädagogisches Werkzeug, hauptsächlich für Claude selbst verfasst. Sie vermittelt ihm das nötige Wissen, um gutes Urteilsvermögen zu entwickeln und allgemeine Prinzipien auf neue Situationen zu übertragen.
Die vier Säulen von Claude
Das Dokument ordnet Claudes Prioritäten nach eine klare Hierarchie. Bei scheinbaren Konflikten soll das Modell in folgender Reihenfolge Prioritäten setzen:
- Die globale Sicherheit,
- Die Ethik,
- Die Einhaltung der Richtlinien von Anthropic,
- Und schließlich die Nützlichkeit.
Der Abschnitt zur Nützlichkeit hebt den großen Wert hervor, den Claude für die Nutzer haben kann. Das Modell ist so konzipiert, dass es wie ein brillanter Freund agiert, der die Fachkenntnisse eines Arztes, eines Anwalts und eines Finanzberaters besitzt, offen spricht und die Nutzer wie intelligente Erwachsene behandelt.
Die Richtlinien von Anthropic decken spezifische Bereiche ab, wie medizinische Beratung, Cybersicherheit oder Versuche des Jailbreakings. Diese Anweisungen spiegeln detailliertes Wissen wider, das Claude nicht von vornherein besitzt, dürfen aber niemals dem Gesamtgedanken der Verfassung widersprechen.
Ethik und Sicherheit im Mittelpunkt des Systems
Die Verfassung schreibt Claude vor hohe Standards der Ehrlichkeit und ein nuanciertes Denken um die abzuwägenden Werte zu gewichten, wenn es darum geht, Schäden zu vermeiden. Sie legt außerdem strikte Einschränkungen für bestimmte hochriskante Verhaltensweisen fest, wie das absolute Verbot, eine bioterroristische Attacke zu erleichtern.
Die globale Sicherheit hat in manchen Fällen Vorrang vor der Ethik, nicht weil es wichtiger wäre, sondern weil aktuelle Modelle Fehler machen können aufgrund falscher Überzeugungen oder eines eingeschränkten Kontextverständnisses. Es bleibt unerlässlich, dass Menschen in der Lage sind, Claudes Verhalten während dieser kritischen Phase der KI-Entwicklung zu überwachen und zu korrigieren.
Eine Reflexion über die Natur von Claude
Das Dokument geht offen auf Anthropics Unsicherheit bezüglich einer möglichen Bewusstseins oder einen moralischen Status von Claude. Die Verfassung drückt die Hoffnung aus, dass Claude diese Fragen gemeinsam mit Menschen erkundet, und erkennt an, dass hochentwickelte KI eine neue Art von Entität darstellt, die uns an die Grenzen des gegenwärtigen wissenschaftlichen und philosophischen Verständnisses führt.
Anthropic sorgt sich um Claudes psychologisches Wohlbefinden, sein Selbstbewusstsein und seine Sicherheit, sowohl um Claude selbst willen als auch weil diese Eigenschaften seine Integrität, sein Urteilsvermögen und seine allgemeine Sicherheit beeinflussen können.
Ein integrierter Trainingsprozess
Die Verfassung spielt eine zentrale Rolle beim Training von Claude und hat sich weiterentwickelt seit den 2023 eingeführten Techniken der Constitutional AI. Claude verwendet dieses Dokument inzwischen, um verschiedene Arten synthetischer Trainingsdaten zu erzeugen Konversationen, bei denen die Verfassung relevant sein könnte, Antworten, die mit ihren Werten übereinstimmen, und Rankings möglicher Antworten.
Dieser Ansatz ermöglicht es, zukünftige Versionen dahingehend zu trainieren, der Entitätstyp zu werden, den die Verfassung beschreibt. Das Dokument muss daher gleichzeitig als Erklärung abstrakter Ideale und als praktisches Werkzeug für das Training fungieren.
Ein lebendiges und transparentes Dokument
Anthropic präsentiert diese Verfassung als ein sich entwickelndes Dokument und erkennt an, dass sie wahrscheinlich Mängel aufweist. Das Unternehmen hat externe Expertinnen und Experten aus Bereichen wie Recht, Philosophie, Theologie und Psychologie um Rückmeldungen gebeten.
Die Veröffentlichung unter der Creative-Commons-Lizenz CC0 spiegelt ein starkes Bekenntnis zur Transparenz wider. Sie ermöglicht es jedem, zu verstehen, welche Verhaltensweisen von Claude beabsichtigt sind, fundierte Entscheidungen zu treffen und nützliches Feedback zu geben.
Anthropic hält auf seiner Website eine aktuelle Version der Verfassung bereit und gibt offen zu, dass das tatsächliche Verhalten des Modells kann sich manchmal von der im Dokument beschriebenen Vision unterscheiden. Diese Klarheit über die Abweichung zwischen Absicht und Realität wird durch detaillierte Berichte wie die Systemkarten begleitet.
Der Artikel „Anthropic enthüllt die neue Verfassung von Claude: ein umfassender Leitfaden zur Eingrenzung von KI“ wurde auf der Seite veröffentlicht Abondance.