OpenWeights belegte den ersten Platz. Meta ging leer aus

Article by

Dr. Anoj Winston Gladius

In derselben Woche belegte ein Open-Source-Modell kurzzeitig Platz 1 beim anspruchsvollsten Software-Engineering-Benchmark im Bereich KI – und Meta stellte seine Open-Source-Strategie an der technologischen Spitze ein. Die beiden Ereignisse scheinen gegensätzlich zu sein. Sie weisen jedoch in dieselbe Richtung. Für Unternehmenskunden in der DACH-Region kommt es jetzt nicht darauf an, welches Modell den nächsten Benchmark gewinnt, sondern auf die zugrunde liegende Bereitstellungstopologie, die darüber liegende Orchestrierungsebene und darauf, wie konform ein Stack ist, den Sie bis zum 2. August 2026 aufstellen können.

In der ersten Aprilwoche 2026 gab es zwei Ankündigungen, die noch den Rest des Jahres nachwirken werden.

Am 7. April veröffentlichte Z.ai (ehemals Zhipu AI) GLM-5.1: ein Mixture-of-Experts-Modell mit 754 Milliarden Parametern, davon 40 Milliarden aktive Parameter, einem Kontextfenster von 200.000 Zeichen und vollständig unter der MIT-Lizenz stehenden Gewichten auf Hugging Face. Es erzielte 58,4 Punkte auf SWE-Bench Pro und lag damit knapp vor GPT-5.4 (57,7) und Claude Opus 4.6 (57,3). [¹] Es war das erste Modell mit offenen Gewichten überhaupt, das diesen Benchmark anführte. Es hielt diese Position neun Tage lang, bevor Claude Opus 4.7 sie mit 64,3 zurückeroberte. [²] Bemerkenswert ist, dass GLM-5.1 auf etwa 100.000 Huawei Ascend 910B-Chips trainiert wurde, ohne dass NVIDIA-Hardware im Spiel war – ein Meilenstein in der Infrastruktur, der unabhängig vom Benchmark selbst von Bedeutung ist. [³]

Am 8. April – bereits am nächsten Tag – veröffentlichte Meta Muse Spark: sein erstes proprietäres Frontier-Modell seit drei Jahren, das von Superintelligence Labs unter der Leitung von Alexandr Wang entwickelt wurde, nachdem Berichten zufolge 14,3 Milliarden US-Dollar in Scale AI investiert worden waren. [⁴] Das Unternehmen von Mark Zuckerberg, das seine Glaubwürdigkeit in diesem Bereich mit Llama und geschätzten 1,2 Milliarden Downloads aufgebaut hat, plant nun für 2026 Investitionen in Höhe von 115–135 Milliarden US-Dollar in KI und distanziert sich ausdrücklich von Open-Weight-Veröffentlichungen an der Grenze. Meta sagt, es „hoffe, zukünftige Versionen als Open Source zur Verfügung zu stellen“. Das Entwickler-Ökosystem, das auf Llama aufbaut, wird nun gebeten, auf einen Zeitplan zu warten, zu dem sich das Unternehmen nicht festlegen will. [⁵]

Zusammengenommen vermitteln uns diese beiden Geschichten eine wichtige Erkenntnis: Der Wettbewerbsvorteil liegt nicht mehr in der Spitzenklasse der Leistungsfähigkeit. Wenn unter der MIT-Lizenz stehende Open-Source-Modelle in einem seriösen Benchmark kurzzeitig den ersten Platz einnehmen können und das Unternehmen, das drei Jahre lang das Open-Source-Flywheel vorangetrieben hat, sich innerhalb eines einzigen Quartals davon abwenden kann, dann ist die Frage „Welches Modell ist das beste?“ eine Frage mit einer immer kürzeren Halbwertszeit.

Was bleibt denn lange genug bestehen, um eine echte Geschäftsentscheidung zu rechtfertigen? Wo das Modell läuft, wer es kontrolliert und wie es in das eigentliche Geschäft eingebunden wird.

Was wir derzeit in unseren Kundenprojekten beobachten

In unseren laufenden Projekten bitten uns mehr Kunden denn je, den neuland.ai HUB auf ihrer eigenen Infrastruktur zu implementieren, gepaart mit selbst gehosteten Open-Weight-Modellen. Dies ist keine exotische Konfiguration mehr. Für Organisationen in regulierten Branchen – Finanzdienstleistungen, Rechtswesen, öffentliche Verwaltung, Gesundheitswesen, Industrie – wird dies eher zur Standardfrage als zum Ausnahmefall.

Drei Kräfte haben dazu beigetragen, dass dies so ist.

1. Der Zeitplan für die Durchsetzung des EU-KI-Gesetzes. Am 2. August 2026 – in etwas mehr als drei Monaten – treten die Durchsetzungsbefugnisse der Kommission gegenüber Anbietern von GPAI in Kraft, und die Verpflichtungen für risikoreiche Systeme werden vollstreckbar; bei entsprechenden Verstößen drohen Verwaltungsstrafen von bis zu 15 Millionen Euro oder 3 % des weltweiten Umsatzes, bei verbotenen Praktiken 35 Millionen Euro oder 7 %. [⁶] Der Nachweis von Datenresidenz, der Vollständigkeit des Prüfpfads, der technischen Dokumentation und des laufenden Risikomanagements gegenüber einer Aufsichtsbehörde wird erheblich schwieriger, wenn Ihr Inferenzpfad gemäß dem CLOUD Act über einen US-Hyperscaler verläuft. Für Organisationen, die neben dem KI-Gesetz auch der DSGVO, DORA oder dem BRAO unterliegen, ist der kumulative Effekt keine Hypothese – er ist der häufigste Grund für On-Prem-Anfragen, den ich in diesem Quartal beobachte.

2. Die Lehre in Sachen Zuverlässigkeit aus dem ersten Quartal. Die stillschweigenden Standardänderungen bei Claude Code im Februar und März – adaptives Denken, die Umstellung von „Aufwand: hoch“ auf „mittel“ ohne umfassende Ankündigung – haben jedem ernsthaften Entwicklerteam konkret vor Augen geführt, was eine vom Anbieter kontrollierte Inferenz in der Praxis tatsächlich bedeutet. [⁷] Der Punkt ist nicht, dass ein einzelner Anbieter unzuverlässig ist. Der Punkt ist, dass kein einzelner Anbieter Ihr einziger Weg sein kann und dass eine „stabile Grundlage“ eine Entscheidung bei der Bereitstellung ist, nicht eine Eigenschaft des Modells. AWS drosselt die EC2-Leistung nicht stillschweigend. Google Cloud reduziert den Datenbankdurchsatz nicht unbemerkt. Die Modell-Anbieter-Ebene hat sich bisher an einen anderen Standard gehalten – und Unternehmensarchitekturen müssen dies berücksichtigen.

3. Die Leistungsfähigkeit offener Modelle hat bei den Workloads, die Unternehmen tatsächlich ausführen, messbar aufgeholt. Unabhängige Bewertungen beziffern die Gesamt-Codierungsfähigkeit von GLM-5.1 nun auf etwa 94,6 % derjenigen von Claude Opus 4.6. [⁸] Bei der Dokumentenverarbeitung, Klassifizierung, dem durch Informationsabruf erweiterten Chat, der strukturierten Extraktion, der Zusammenfassung und den anderen Workloads, die den Großteil des KI-Aufkommens in Unternehmen ausmachen, ist der Leistungsunterschied praktisch gleich null. Parallel dazu reifen europäische Eigenentwicklungen heran: Mistral Large 3 (675B MoE unter Apache 2.0) und der PhariaAI-Stack von Aleph Alpha bieten nun wirklich glaubwürdige Alternativen europäischer Herkunft mit On-Premise-Bereitstellung und garantierter Datenresidenz in der EU. [⁹] Der Punkt, an dem sich Self-Hosting gegenüber der API-Ökonomie durchsetzt, liegt typischerweise bei etwa 2 Millionen Token pro Tag. Die meisten unserer mittelständischen Unternehmenskunden erreichen diese Marke innerhalb einer einzigen Abteilung innerhalb weniger Monate nach der Inbetriebnahme.

Ein Zwangsfaktor, mit dem niemand gerechnet hatte

Hinter den regulatorischen und technischen Triebkräften verbirgt sich eine dritte Kraft, die die Debatte neu prägt: Das Betriebsmodell von Unternehmenssoftware selbst wird gerade öffentlich neu geschrieben. Als Snap im April 1.000 Entlassungen ankündigte – etwa ein Viertel der geplanten Belegschaft, wobei mittlerweile mehr als 65 % des neuen Codes von KI erzeugt werden –, ließ diese Ankündigung die Aktie im vorbörslichen Handel um 11 % steigen. [¹⁰] Gartner prognostiziert nun, dass bis 2027 über 40 % der Projekte mit agentischer KI eingestellt werden, während Daten von Composio zeigen, dass 97 % der Führungskräfte im vergangenen Jahr Agenten eingesetzt haben, aber nur 12 % dieser Initiativen in großem Maßstab in die Produktion gehen. [¹¹]

Die Schlussfolgerung für Unternehmenskunden lautet nicht: „KI ersetzt Ingenieure.“ Vielmehr ist die wirtschaftliche Rentabilität von KI im großen Maßstab mittlerweile so real, dass man bereit ist, dafür Personal einzustellen – und die Ausfallrate in der Produktionsphase ist nach wie vor erschreckend hoch. Diese Kombination macht die Architekturentscheidungen im zweiten Quartal 2026 folgenreicher als die Entscheidungen zur Modellauswahl im ersten Quartal. Ein Stack, der bei Veränderungen von Funktionen und Preisen nicht zwischen Modellanbietern wechseln kann, der ohne enormen Aufwand nicht auf die Einhaltung von EU-Vorschriften geprüft werden kann oder der die nächste „stille Standardänderung“ nicht absorbieren kann, ohne die Produktion lahmzulegen, ist keine produktionsreife Infrastruktur – unabhängig davon, welches Logo auf dem Modell steht, das ihn bedient.

Die Falle, über die niemand spricht

Hier stoßen die meisten Projekte an ihre Grenzen: Offene Gewichte sind keine KI-Funktion für Unternehmen. Sie sind eine Engine.

Das Selbsthosting von GLM-5.1 in BF16 bedeutet etwa 1,49 TB an Modellgewichten, einen Serving-Stack (vLLM, SGLang, xLLM oder gleichwertig), einen GPU-Cluster der Enterprise-Klasse und eine Routing-Schicht, bevor Sie Ihre erste Eingabeaufforderung aufrufen können. [¹²] Nichts davon bietet Ihnen:

eine Möglichkeit für das Unternehmen, die Funktion zu nutzen, ohne für jeden neuen Anwendungsfall die Integration zu SAP, SharePoint, M365, Ihrem DMS und Ihrem CRM neu aufbauen zu müssen
Eine Governance, die einen Modellwechsel übersteht – RBAC, Audit, Aufbewahrungsfristen und Ausgaberichtlinien, die an Funktionen statt an einen bestimmten Endpunkt gebunden sind
Beobachtbarkeit, die erkennen kann, wann die Leistung Ihres selbst gehosteten Modells bei Ihrer Workload nachlässt – und nicht in einer öffentlichen Rangliste
die Möglichkeit, die wenigen Workloads, bei denen ein proprietäres Modell nach wie vor die Nase vorn hat (Coding-Agenten mit langem Zeithorizont, bestimmte Aufgaben mit hohem Denkanteil), an dieses Modell weiterzuleiten, während alles andere auf offenen Gewichten läuft, die Sie selbst kontrollieren
eine einheitliche Plattform, auf der das Unternehmen KI-Apps, Assistenten und Workflows entwickeln kann, ohne die Compliance-Anforderungen für jedes einzelne Element neu implementieren zu müssen

Das ist die Aufgabe der Orchestrierungs- und Managementebene. Es ist auch die Ebene, die in rund 80 % der KI-Stacks fehlt, die ich sehe, wenn wir mit einem neuen Kunden zusammenarbeiten. Ohne sie verlagert die Aussage „Wir haben ein Open-Source-Modell vor Ort bereitgestellt“ das Chaos lediglich an einen anderen Ort. Der Integrationsaufwand, die Lücken in der Governance und die operative Anfälligkeit wandern mit – und in regulierten Umgebungen verschärfen sie sich noch.

Wie die Topologie in der Praxis aussieht

Das Muster, das sich in unserer Lieferarbeit für das zweite Quartal 2026 herauskristallisiert, ist vom Prinzip her einfach, in der Umsetzung jedoch anspruchsvoll. Der neuland.ai HUB fungiert als Verwaltungs- und Koordinierungsebene – Identität, RBAC, Prüfpfad, Abstraktion von Fähigkeiten, Ausgabegestaltung sowie die Assistenten-, Workflow- und KI-App-Oberflächen, die das Unternehmen tatsächlich nutzt. Darunter, auf der Modellebene, unterhalten Kunden in der Regel ein oder zwei proprietäre Endpunkte (Claude, GPT oder Gemini) für die Workloads, bei denen die Fähigkeitslücke noch immer eine externe Abhängigkeit rechtfertigt, und betreiben für alles andere Open-Weight-Modelle – meist vor Ort oder in einer in der EU angesiedelten privaten Cloud. Der HUB leitet den Datenverkehr zwischen ihnen gemäß den Richtlinien weiter, verwaltet die Integration in Unternehmenssysteme zentral, sodass einzelne Anwendungsfälle diese nicht erneut implementieren müssen, und bietet Compliance- und Sicherheitsteams eine einzige Oberfläche für die Prüfung.

Das Ergebnis ist nicht „Open Source gegen proprietäre Lösungen“. Es handelt sich vielmehr um eine Bereitstellungstopologie, bei der jede Schicht die Aufgaben übernimmt, für die sie am besten geeignet ist, keine Schicht die gesamte Last für das gesamte Unternehmen trägt und Entscheidungen auf Modellebene vierteljährlich überprüft werden können, ohne die Integrationsschnittstelle des Unternehmens neu schreiben zu müssen.

Was ist im 2. Quartal 2026 zu tun?

Für Unternehmen, die es ernst meinen, dies noch vor Ablauf der Frist im August zu schaffen, sieht der Ablauf, den wir mit unseren Kunden durchlaufen, wie folgt aus: Bestandsaufnahme aller KI-Workloads, die sich derzeit in Produktion oder im Pilotbetrieb befinden; Klassifizierung jedes einzelnen nach Datensensibilität, Latenzanforderungen und Leistungsprofil; Zuordnung jedes einzelnen zu einer vorgesehenen Modellebene (proprietär, Open-Weight-Hosted, Open-Weight-On-Prem); die Orchestrierungs- und Governance-Ebene vor der Migration der Workloads einrichten, statt erst danach; und erst dann mit der Arbeit an der Modellebene beginnen. In dieser Reihenfolge übersteht die Architektur den nächsten Modellzyklus. In jeder anderen Reihenfolge bauen Sie Compliance auf einem Stack auf, der nicht dafür ausgelegt war.

Meine persönliche Meinung

Ich betrachte GLM-5.1 und Muse Spark nicht als eine Entscheidung zwischen offen und geschlossen. Ich sehe darin vielmehr einen Beleg dafür, dass sich der Wert von KI in Unternehmen zunehmend vom Modell selbst weg verlagert. Die Modellebene wird zu einer Commodity-Ebene mit mehreren glaubwürdigen Anbietern, die zunehmend austauschbar und auf einer selbst kontrollierten Infrastruktur immer kostengünstiger zu betreiben ist. Das Unterscheidungsmerkmal ist nun die darüber liegende Ebene – jene, die es einem regulierten Unternehmen ermöglicht, KI tatsächlich als verwaltete Funktion zu betreiben, anstatt als eine Sammlung von Integrationen zu einer in den USA gehosteten API.

Insbesondere für europäische Unternehmen ist der Zeitpunkt nicht zu übersehen. Da die Durchsetzungsmaßnahmen des EU-KI-Gesetzes in etwas mehr als drei Monaten in Kraft treten, lautet die Frage, die sich jeder CIO und CISO derzeit stellen sollte, nicht „auf welches Modell sollten wir uns standardisieren?“, sondern „wie sieht unsere Modelltopologie aus, wo findet die Inferenz statt und was verwaltet sie?“

Offene Gewichtungskriterien sind wichtig. Lokale Bereitstellung ist wichtig. Europäische staatliche Optionen sind mittlerweile glaubwürdig genug, um darauf aufzubauen. Doch all dies ist keine produktionsreife Infrastruktur ohne die Orchestrierungsschicht, die sie zu etwas macht, das ein reguliertes Unternehmen vertrauensvoll betreiben kann – und, was noch wichtiger ist, das auch nach der Ankündigung des nächsten bahnbrechenden Modells unverändert weiterlaufen kann.

¹ Z.ai, GLM-5.1-Release, 7. April 2026. Hugging Face: zai-org/GLM-5. Selbst gemeldeter SWE-Bench Pro: 58,4. Unabhängige Bestätigung auf Code Arena: Elo 1.530 (Rang 3). Hinweis: Die SWE-Bench Pro-Ergebnisse sind selbst gemeldet und stehen noch unter dem Vorbehalt einer Überprüfung durch Dritte.

² SWE-Bench Pro-Rangliste, April 2026. Claude Opus 4.7 meldete am 16. April 2026 einen Wert von 64,3.

³ Angaben zur Trainingsinfrastruktur, Z.ai, April 2026: ca. 100.000 Huawei Ascend 910B-Chips, keine Beteiligung von NVIDIA – bemerkenswert angesichts der Aufnahme von Z.ai in die US-Entity-Liste im Januar 2025.

⁴ Meta AI, „Introducing Muse Spark“, 8. April 2026. Berichterstattung von VentureBeat, 8. April 2026. Die Investitionen von Scale AI werden mit 14,3 Milliarden US-Dollar angegeben.

⁵ Meta-Prognose für AI-Investitionen 2026: 115–135 Milliarden US-Dollar, etwa doppelt so viel wie 2025. Die Anzahl der Llama-Downloads wird Anfang 2026 mit 1,2 Milliarden angegeben. Erklärung von Meta: hofft, zukünftige Muse-Versionen als Open Source zur Verfügung zu stellen, kein festgelegter Zeitplan.

⁶ Verordnung (EU) 2024/1689. Durchsetzungsbefugnisse, Governance-Regeln und Verpflichtungen bei hohem Risiko im Rahmen des GPAI treten am 2. August 2026 in Kraft. Referenz: AI-Büro der Europäischen Kommission, DLA Piper „Latest wave of obligations under the EU AI Act take effect“, August 2025.

⁷ Siehe meine frühere Analyse: „Wenn KI-Systeme plötzlich schlechter werden“, neuland.ai, 17. April 2026. Adaptives Denken von Anthropic dokumentiert; Standardaufwand in Claude Code am 3. März 2026 von hoch auf mittel reduziert.

⁸ Unabhängige, durch SWE-Bench verifizierte zusammengesetzte Analyse, April 2026. GLM-5.1 liegt im Terminal-Bench + NL2Repo-Composite hinter Claude Opus 4.6 zurück (54,9 vs. 57,5), führt jedoch im isolierten SWE-Bench Pro.

⁹ Mistral Large 3 (Dezember 2025): 675 Mrd. MoE, Apache 2.0, Devstral 2-Codierungsvariante mit 72,2 % auf SWE-Bench Verified. Aleph Alpha PhariaAI: GenAI-Betriebssystem für Unternehmen mit On-Premise-Bereitstellung und garantierter Datenspeicherung in Europa; Partnerschaft mit AMD und Schwarz Digits.

¹⁰ Umstrukturierung bei Snap im 1. Quartal 2026: ~1.000 Stellen abgebaut, >300 offene Stellen geschlossen, ~500 Mio. USD jährliche Einsparungen. CEO Evan Spiegel verweist auf KI-getriebene Produktivität; gemeldeter KI-Anteil am neuen Code: >65 %.

¹¹ Gartner-Prognose: >40 % der Projekte mit agentischer KI werden bis 2027 eingestellt. Composio AI Agent Report: 97 % der Führungskräfte haben im vergangenen Jahr Agenten eingesetzt, 12 % erreichen den Produktionsbetrieb in großem Maßstab. Umfrage vom März 2026 unter 650 Technologieführern in Unternehmen: 78 % mit Agenten-Pilotprojekten, 14 % im Produktionsmaßstab.

¹² Z.ai GLM-5.1-Bereitstellungsdokumentation, github.com/zai-org/GLM-5. BF16-Gewichte ~1,49 TB; empfohlene Serving-Stacks: vLLM, SGLang, xLLM, Ktransformers.

Plattform

Services

Ressourcen

Preise

Unternehmen

Select Language

Sales kontaktieren

OpenWeights belegte den ersten Platz. Meta ging leer aus

Sicherheit

Case Studies

Sicherheit

Case Studies