In einer bemerkenswerten Initiative hat das Unternehmen Anthropic ein Team aus 16 Claude-Opus-4.6-Agenten eingesetzt, um einen C-Compiler in Rust zu entwickeln. Dieser Compiler ist nicht nur in der Lage, den Linux-Kernel 6.9 erfolgreich zu kompilieren, sondern kann auch auf verschiedenen Architekturen wie x86, ARM und RISC-V übersetzen. Das Projekt, welches in fast 2.000 Claude Code-Sitzungen über zwei Wochen durchgeführt wurde, hat beeindruckende 2 Milliarden Eingabetoken verbraucht und 140 Millionen Ausgabetoken generiert. Die Gesamtkosten des Vorhabens beliefen sich auf knapp 20.000 US-Dollar (Quelle).

Der Compiler, der aus 100.000 Zeilen Code besteht, kann auch Programme wie QEMU, FFmpeg, SQLite, Postgres und Redis kompilieren. Bei den meisten Compiler-Testuiten, einschließlich der anspruchsvollen GCC-Torture-Testsuite, erzielte er eine Erfolgsquote von 99 Prozent. Zudem kann der Compiler sogar das klassische Spiel Doom kompilieren und ausführen, was die Vielseitigkeit und Leistungsfähigkeit des Projekts unterstreicht. Forscher Nicholas Carlini hat die Erfahrungen im Projekt in einem Blog festgehalten und dabei betont, dass eine stabile Arbeitsumgebung sowie enge Leitplanken entscheidend für den Erfolg waren.

Herausforderungen und Lösungen

Ein zentrales Element der Forschungsarbeit war die Zerlegung von Problemen in kleinere Teile, um den Fortschritt besser verfolgen zu können. Trotz des hohen Automatisierungsgrades war es notwendig, dass ein menschlicher Supervisor an verschiedenen Stellen eingreift, um sicherzustellen, dass die Entwicklung auf dem richtigen Weg bleibt. Gegen Ende des Projekts traten Herausforderungen auf, bei denen Claude Schwierigkeiten hatte, bestehende Funktionen beizubehalten, während neue implementiert wurden. Um die Qualität der Arbeit zu verbessern, implementierte Carlini eine Pipeline für kontinuierliche Integration sowie strengere Durchsetzungsmaßnahmen.

Ein weiterer Aspekt war die Entwicklung einer neuen Testumgebung, die GCC als zuverlässigen Compiler zu Rate zog. Diese Maßnahme erleichterte die parallele Arbeit der Agenten und half, die Herausforderungen bei der Kompilierung des Linux-Kernels zu meistern. Das Projekt beleuchtet auch die Relevanz von hochwertigen Tests und die Notwendigkeit für die Agenten, den Kontext und die Dokumentation zu wahren, um effizient arbeiten zu können (Quelle).

Technische Einblicke und zukünftige Entwicklungen

Die Experimente zeigen, dass Agenten-Teams, die aus mehreren Claude-Instanzen bestehen, parallel an einem gemeinsamen Code arbeiten können, ohne dass menschliches Eingreifen erforderlich ist. Dies stellt einen bedeutenden Fortschritt in der autonomen Softwareentwicklung dar. Carlini baute ein System, das Claude in einer Schleife laufen lässt, sodass es kontinuierlich neue Aufgaben übernehmen kann, ohne auf menschliche Eingaben zu warten. Diese Art der Arbeit adressiert die Einschränkungen herkömmlicher Einzelagenten-Harnesses und ermöglicht eine Spezialisierung der Agenten.

Allerdings gibt es auch Einschränkungen: Der Compiler bietet derzeit keinen 16-Bit x86-Compiler und hat keinen integrierten Assembler oder Linker. Zudem ist der generierte Code weniger effizient im Vergleich zu dem der GCC. Die Quellcodes sind jedoch für die Öffentlichkeit zugänglich, was experimentelle Entwicklungen und Verbesserungen durch andere Forscher ermöglicht (Quelle).

Zusätzlich wurde im Engineering-Bericht das Problem des „Infrastructure Noise“ thematisiert. Kleinere API-Fehler oder Latenzspitzen können sich bei Agenten, die über längere Zeiträume aktiv sind, summieren und zu hohen Abbruchquoten führen. Eine Datenanalyse zeigt, dass das Ressourcenmanagement einen direkten Einfluss auf die Erfolgsquote hat. Wenn die Ressourcen stark begrenzt sind, kann die Fehlerquote erheblich steigen. Doch bei Aufhebung dieser Einschränkungen sinkt die Fehlerrate auf unter 1 Prozent, was die Notwendigkeit der Optimierung von Ressourcenmanagement-Strategien unterstreicht.

Insgesamt stellt dieses Projekt einen bedeutenden Schritt in der Erforschung der Möglichkeiten von KI-gesteuerten Agenten dar und gibt spannende Einblicke in die zukünftige Entwicklung autonomer Software.