
Research
AI Agents
Lasst die Rennpferde laufen. Ihr Unternehmen braucht Arbeitspferde.

Article by
Dr. Anoj Winston Gladius
·
Lasst die Rennpferde laufen. Euer Unternehmen braucht Arbeitspferde.
Die fünf größten US-amerikanischen Cloud- und KI-Infrastrukturanbieter – Microsoft, Alphabet, Amazon, Meta und Oracle – haben sich gemeinsam zu Investitionsausgaben (Capex) zwischen 660 und 725 Milliarden Dollar im Jahr 2026 verpflichtet. Das entspricht etwa dem 3,5-Fachen ihrer kombinierten Investitionsausgaben von 2024. Sowohl Bank of America als auch Evercore prognostizieren, dass 2027 die Marke von einer Billion Dollar überschritten wird. Im selben Zeitraum gehen interne Dokumente von Anthropic von einem Verlust von 14 Milliarden Dollar für 2026 aus – und von keinem positiven freien Cashflow vor frühestens 2028; OpenAI begann im Februar, Werbung in seinem kostenlosen Tarif auszuspielen. Der Gesamtumsatz aller reinen Frontier-Labore macht nach wie vor nur einen Bruchteil der Infrastrukturinvestitionen aus, die in ihrem Namen getätigt werden. Die Investoren, die diesen Ausbau finanzieren, setzen auf Umsatzverläufe, die letztlich Billionenbeträge erreichen müssen, damit die Rechnung aufgeht. Es gibt zwei sehr unterschiedliche Arten, wie europäische Unternehmen auf diese Landschaft reagieren können. Die meisten reagieren falsch.
Dies ist der siebte Beitrag einer Serie, die ich für neuland.ai schreibe. Der rote Faden, der sich durch alle Beiträge zieht, ist derselbe: Im Enterprise-KI-Bereich liegen der Wert, das Risiko und der Wettbewerbsvorteil in der Schicht über und um das Modell herum – nicht im Modell selbst. [¹] Der Beitrag vom Februar handelte von der Steuerungsebene, die LLMs in gesteuerte Unternehmensfähigkeiten verwandelt. Der April-Beitrag behandelte Modelldrift und die Multi-LLM-Resilienz als Antwort darauf. Der erste Mai-Beitrag befasste sich mit Modelltopologie – wo Modelle laufen, wer sie kontrolliert. Der zweite handelte von Compliance als Systemeigenschaft. Der dritte führte dasselbe Argument für Agent-Sicherheit. Der vierte machte es für Protokoll-Governance mit MCP. Das Argument, das ich hier vorbringen möchte, ist dasjenige, das alles wirtschaftlich zusammenführt. Kostendisziplin in der Enterprise-KI ist ebenfalls eine Eigenschaft des Systems. Und das System, auf das sich die meisten europäischen Unternehmen heute stillschweigend festlegen, ist eines, das für eine andere Gruppe von Investoren optimiert ist, in einer anderen Währung, unter einem anderen Rechtsregime, ohne Aussicht auf positiven Cashflow vor Ende des Jahrzehnts.
Es gibt eine bessere Strategie, und sie ist still und leise gereift, während alle vom Frontier-Markt abgelenkt waren.
Der Markt, der nicht die Frontier ist
Es lohnt sich, klar festzuhalten, dass inzwischen zwei unterschiedliche KI-Märkte parallel operieren – und sie zu verwechseln ist der teuerste analytische Fehler, den ein CIO im Jahr 2026 machen kann.
Der erste Markt ist der Frontier-Modellmarkt – das Rennen zwischen OpenAI, Anthropic, Google DeepMind, xAI, Meta Superintelligence Labs und einer Handvoll anderer um den Bau der größten und leistungsfähigsten generalistischen Systeme. Dieser Markt treibt die 700-Milliarden-Dollar-Capex-Linie. Die Akteure darin konkurrieren um Benchmark-Führerschaft, Aufmerksamkeit und die künftigen Umsatzverläufe, die ihre Investoren einpreisen. Die Ökonomie dieses Marktes ist außergewöhnlich: rund 88 % Bruttomarge für den Chip-Lieferanten (Nvidia), eine kleine Gruppe von Cloud-Plattformen, die das Capex-Risiko tragen, und die Modelllabore dazwischen, die die Stückökonomie halten. [²] Allein Mark Zuckerbergs Meta erhöhte seine Capex-Prognose für 2026 im April auf 125–145 Milliarden Dollar. [³] Anthropic stieg von einer annualisierten Umsatzrate von einer Milliarde Dollar im Dezember 2024 auf rund 30 Milliarden Dollar bis April 2026 – der schnellste Umsatzanstieg eines Unternehmens in der dokumentierten Geschichte – und projiziert dennoch einen Verlust von 14 Milliarden Dollar für das Jahr und keinen positiven freien Cashflow vor 2028. [⁴]
Der zweite Markt ist der Enterprise-Deployment-Markt – die Arbeit, KI-Fähigkeiten in die tatsächlichen Geschäftsprozesse tatsächlicher Unternehmen zu integrieren und dabei messbare Produktivität und vorhersagbare Kosten zu erzielen. Die in diesem Markt eingesetzte Technologie ist größtenteils nachgelagert zum ersten. Open-Weight-Modelle, die vor achtzehn Monaten veröffentlicht wurden, auf Serving-Stacks, die ausgereift sind, auf Hardware, die abgeschrieben ist, für Geschäftsprobleme, die seit Jahrzehnten verstanden werden. Der in diesem Markt geschaffene Wert ist real und substanziell. Die Investition, die nötig ist, um daran teilzunehmen, beträgt im Jahr 2026 nur einen Bruchteil dessen, was an der Frontier ausgegeben wird.
Die strategische Erkenntnis ist, dass dies nicht derselbe Markt ist. Der erste Markt macht den zweiten Markt möglich, indem er die Kosten der Wissenschaft absorbiert. Die Investoren des ersten Marktes bezahlen die Entdeckung; der zweite Markt darf die Ergebnisse nutzen, sobald sie sich stabilisiert haben. Der erste Markt operiert auf einer Fünf-Jahres-Umsatzprojektion, die sprunghafte Steigerungen der Inferenz-Monetarisierung erfordert. Der zweite Markt operiert auf einem vierteljährlichen Beschaffungszyklus, der vorhersagbare, verteidigbare Kosten pro Einheit Geschäftswert erfordert.
Die ehrliche ingenieurtechnische Position ist diese: Die meisten Unternehmen müssen nicht am ersten Markt teilnehmen. Sie müssen sorgfältig und gut am zweiten teilnehmen.
Warum diese Strategie jetzt funktioniert (und vor 18 Monaten noch nicht)
Die Position „Lasst sie vorauslaufen, wir deployen, was sie liefern" ist nicht neu. Neu ist, dass die Voraussetzungen, sie tatsächlich umzusetzen, in den letzten 12 bis 18 Monaten alle gleichzeitig eingetreten sind.
Open-Weight-Modelle haben für Enterprise-Workloads messbar aufgeholt. GLM-5.1 hielt im April kurzzeitig den Spitzenplatz auf SWE-Bench Pro unter MIT-Lizenz. [⁵] Mistral Large 3 kommt mit 675 Milliarden Parametern unter Apache 2.0. DeepSeek-V3.2, Qwen 3.6 und das breitere Open-Ökosystem liegen in Schlagdistanz zu proprietären Frontier-Modellen bei den Workloads, die den Großteil des Enterprise-KI-Verkehrs ausmachen – Dokumentenverarbeitung, Klassifikation, Retrieval-Augmented Chat, strukturierte Extraktion, Zusammenfassung, internes Wissensmanagement. Bei diesen Workloads stufen unabhängige Evaluierungen führende Open-Weight-Modelle inzwischen bei etwa 94–95 % der vergleichbaren proprietären Frontier-Leistungsfähigkeit ein. [⁶]
Serving-Stacks für Open-Weight-Modelle sind zu produktionsreifer Infrastruktur herangereift. vLLM, SGLang, Ktransformers, xLLM und ähnliche Projekte bieten inzwischen den Durchsatz, das Batching, die Quantisierung, das KV-Cache-Management, das spekulative Decoding und die Observability, die ein Enterprise-Inferenz-Workload tatsächlich benötigt. [⁷] Was 2024 ein Forschungsteam zum Betrieb erforderte, erfordert 2026 ein Platform-Engineering-Team.
Fine-Tuning-Toolchains sind wirklich produktiv geworden. LoRA, QLoRA, DPO, RLAIF, parametereffizientes Fine-Tuning in allen Varianten – die Techniken, die es einem kleinen Unternehmensteam ermöglichen, ein mittelgroßes Open-Weight-Modell zu nehmen und es an eine bestimmte Branche anzupassen (Recht, Finanzen, Fertigung, Gesundheitswesen), sind inzwischen gängige Ingenieurspraxis statt Forschungsprojekte. Ein feinabgestimmtes Modell mit 13 bis 70 Milliarden Parametern, das das Vokabular, die Dokumentenstruktur, die Entscheidungslogik und die Grenzfälle Ihrer Domäne aufgenommen hat, wird ein Frontier-API bei Ihrem spezifischen Workload übertreffen – zu einem Bruchteil der Kosten pro Inferenz, mit dem zusätzlichen Vorteil, dass Ihr proprietäres Wissen nicht mehr bei jeder Anfrage an einen Drittanbieter-Endpunkt übertragen wird.
Der Gebraucht-GPU-Markt ist liquide und ausgereift. Eine neue H100 80GB kostet 2026 zwischen 25.000 und 40.000 Euro; generalüberholt 21.000–34.000 Euro; gebraucht 15.000–28.000 Euro. [⁸] Die Preise für A100 80GB sind weiter gefallen – 4.000–9.000 Euro gebraucht, gegenüber 7.000–15.000 Euro neu. [⁹] Selbst drei Jahre alte H100 halten etwa 75–85 % ihres Anschaffungswerts, weil die Inferenz-Nachfrage nach Hardware der vorherigen Generation stark geblieben ist, während Unternehmen zur Frontier-Kapazität aufschließen. Der DACH-Markt verfügt über mehrere Wiederverkäufer, Integratoren und ITAD-Spezialisten, die in diesem Bereich auf Enterprise-Niveau operieren. Mit der gebotenen Sorgfalt – Service-Tag-Verifizierung, SMART-Betriebsstunden, Lifecycle-Log-Prüfung am iDRAC-Controller – kann eine generalüberholte H100-Beschaffung nach Beschaffungs- und Prüfungsstandards erfolgen, die einer Vorstandsprüfung standhalten.
Souveräne und EU-jurisdiktionelle Cloud ist eine echte Option geworden, kein Slogan. Dies ist die Entwicklung, die sich am schnellsten verändert hat und die die meisten DACH-Beschaffungsteams noch nicht vollständig verinnerlicht haben. STACKIT, betrieben von Schwarz Digits und gestützt durch die Schwarz-Gruppe – unabhängig von externen Investoren und daher nicht unter vierteljährlichem VC-Druck –, bietet inzwischen GPU-Instanzen auf Enterprise-Grade-Infrastruktur mit voller DSGVO-Konformität und ohne CLOUD-Act-Exposition. [¹⁰] IONOS hat einen AI Model Hub mit OpenAI-kompatiblen API-Endpunkten, H200- und H100-GPU-Instanzen und Intel-Gaudi-Beschleunigern gestartet, auf Infrastruktur, die unter deutscher börsennotierter Unternehmensführung betrieben wird. [¹¹] T Cloud Public (ehemals Open Telekom Cloud) bietet die Positionierung der Deutschen Telekom für regulierte Sektoren. Plus Server und Hetzner runden die deutschen Optionen für selbstverwaltetes Deployment ab. Aleph Alphas PhariaAI bietet einen vollständig souveränen Stack mit On-Premises-Deployment und garantierter europäischer Datenresidenz, in Partnerschaft mit AMD und Schwarz Digits. [¹²] Das verbindliche Cloud-Souveränitäts-Framework der Europäischen Kommission trat im Oktober 2025 in Kraft. [¹³] Wie Andreas Nauerz, Chief Product Officer von IONOS, Anfang dieses Monats formulierte: „Souveränität wird nicht allein durch den physischen Standort eines Rechenzentrums bestimmt, sondern dadurch, wem der Anbieter gehört und wo die rechtliche Zuständigkeit liegt." [¹⁴]
Die Warnung, die man dabei im Hinterkopf behalten sollte, ist jedoch, dass nicht jedes als souverän vermarktete Produkt es tatsächlich ist. OpenAI für Deutschland, Anfang 2026 angekündigt und als souveräne Antwort des öffentlichen Sektors für KI in der Bundesrepublik positioniert, wird über SAPs Delos Cloud bereitgestellt – die ihrerseits auf Microsoft-Azure-Infrastruktur darunter läuft. [¹⁵] Die Beschaffungsunterlagen des Bundes verwenden das Wort „souverän". Die zugrunde liegende Deployment-Topologie läuft über einen in den USA inkorporierten Hyperscaler. Das ist der Unterschied zwischen Souveränität per Aufkleber und Souveränität durch Konstruktion, und es ist dasselbe Muster, das ich im Copilot-Beitrag Anfang dieses Monats argumentiert habe: Compliance ist eine Eigenschaft des gesamten Systems, nicht der Schicht, die das Marketingmaterial hervorheben wollte. [¹⁶]
Wie die Deployment-Topologie tatsächlich aussieht
Ein seriöser DACH-Enterprise-Stack im Jahr 2026, betrieben mit einer Disziplin, die sowohl den nächsten Finanzierungszyklus der Frontier-Labore als auch den nächsten Abschwung des europäischen Beschaffungsumfelds übersteht, sieht ungefähr so aus.
Die Modellschicht hat drei Stufen, nicht eine. Die Arbeitspferd-Stufe – feinabgestimmte Open-Weight-Modelle im Bereich von 13 bis 70 Milliarden Parametern – läuft auf eigener Hardware, wo möglich, auf gebrauchter oder generalüberholter H100/A100-Kapazität, hinter einem Serving-Stack, den das Plattformteam kontrolliert. Diese Stufe bewältigt 70 bis 90 Prozent des Enterprise-Inferenz-Verkehrs nach Volumen: Dokumentenverarbeitung, Klassifikation, RAG, Zusammenfassung, strukturierte Extraktion, internes Q&A, einfache Agenten-Aufgaben. Die souveräne Cloud-Stufe betreibt gleichwertige oder größere Open-Weight-Modelle auf STACKIT, IONOS, T Cloud Public oder einem anderen EU-jurisdiktionellen Anbieter und bewältigt variable Last sowie die Workloads, die Cloud-Ökonomie gegenüber Kapitalkauf rechtfertigen. Die Frontier-Stufe ist den spezifischen Workloads vorbehalten, bei denen die Fähigkeitslücke die Abhängigkeit, die Kosten und die jurisdiktionelle Exposition noch rechtfertigt: Coding-Agenten mit langem Horizont, bestimmte reasoning-intensive analytische Aufgaben, multimodale Arbeit, die das Open-Ökosystem noch nicht abdeckt. Diese Stufe macht einen kleinen Anteil des Gesamtverkehrs aus.
Die Orchestrierungsschicht über dieser gestuften Modellschicht ist das, was die Strategie umsetzbar macht. Sie muss pro Workload unter Richtlinien routen, Fähigkeiten abstrahieren, sodass die Anwendungsoberfläche nicht weiß oder wissen muss, welche Stufe die Anfrage bedient hat, Identität und Audit einheitlich über alle drei Stufen durchsetzen, die Integration in Unternehmenssysteme zentral halten und Fine-Tuning-Workflows unterstützen, die Workloads im Laufe der Zeit von der Frontier-Abhängigkeit zur Arbeitspferd-Unabhängigkeit überführen. Außerdem muss sie all dies tun und dabei hyperscaler-unabhängig bleiben, sodass die strategische Topologie-Entscheidung des Kunden bewahrt wird, anstatt an die Roadmap eines einzelnen Anbieters gebunden zu sein.
Genau dafür ist der neuland.ai HUB gebaut: als Enterprise-Management- und Orchestrierungsplattform. Der HUB sitzt als Management- und Orchestrierungsebene über heterogenen Ausführungsoberflächen – MCP-Server, CLI- und Shell-Ausführung, kontrollierte Code-Ausführungs-Sandboxen, Browser-Automatisierung, deterministische Orchestrierung mehrstufiger Workflows, direkte Enterprise-Konnektoren – und über der oben beschriebenen dreistufigen Modellschicht, wobei er Identität, RBAC, Audit, Richtlinien, Fähigkeitsabstraktion und kostenoptimiertes Routing einheitlich anwendet. Der HUB selbst wird auf demselben Spektrum an Optionen bereitgestellt: im eigenen Rechenzentrum des Kunden, in einer EU-jurisdiktionellen souveränen Cloud oder in einer Hyperscaler-Region, wo der Workload dies tatsächlich rechtfertigt. Wir integrieren Fine-Tuning-Workflows direkt, sodass der Weg von „Wir zahlen Frontier-API-Preise für diesen Workload" zu „Wir betreiben ein Arbeitspferd-Modell, das unsere Domäne aufgenommen hat" ein gesteuerter Übergang ist und kein Forschungsprojekt. [¹⁷]
Ein bedachter Hinweis
Ich möchte mit der Einordnung hier vorsichtig sein. Dieser Beitrag ist nicht gegen Frontier-Labore gerichtet. Die Arbeit, die aus Anthropic, OpenAI, Google DeepMind und Meta Superintelligence Labs kommt, ist wirklich beeindruckende Ingenieurwissenschaft. Das Open-Ökosystem ist nachgelagert zu Entscheidungen, die diese Labore darüber getroffen haben, wie viel Wissenschaft sie veröffentlichen – was wiederum von Umsatzverläufen abhängt, die von der 700-Milliarden-Dollar-Capex-Verpflichtung abhängen, die im Namen der Labore eingesetzt wird. Ohne die Rennpferde gibt es 18 Monate später keine Arbeitspferde.
Wogegen ich argumentiere, ist die Annahme, dass die richtige Strategie für ein europäisches Unternehmen darin besteht, die Rennpferde zum Einzelhandelspreis zu reiten. Die Rechnung geht nicht auf. Die kombinierten Hyperscaler-Capex 2026 betragen etwa das 3,5-Fache ihrer Ausgaben von 2024. Der Gesamtumsatz der reinen Frontier-Labore ist ein Bruchteil dieser Infrastrukturausgaben. Wenn Investoren die Renditeerwartung irgendwann korrekt einpreisen – und das werden sie, wie Bank of America und Evercore inzwischen beide 2027-Capex über einer Billion Dollar prognostizieren –, werden die Preisentscheidungen, die Feature-Entscheidungen, die jurisdiktionellen Entscheidungen und die Vertragsbedingungen sich alle in Richtung der Renditeanforderungen dieser Investoren rationalisieren. Sie werden sich nicht in Richtung europäischer Enterprise-Beschaffungsvorhersagbarkeit, DSGVO-Compliance-Positionierung oder souveräner Datenresidenz rationalisieren. Sie sind dem europäischen Markt nicht absichtlich ungeeignet; sie sind lediglich strukturell nicht darauf ausgerichtet.
Die strukturelle Antwort ist die Deployment-Topologie, die ich beschrieben habe. Arbeitspferd-Modelle, eigene oder souverän-cloud-gehostete Infrastruktur, Fine-Tuning für die Branche, Frontier-Kapazität reserviert für die echte Minderheit der Workloads, die sie benötigen, und eine Orchestrierungsschicht, die das Ganze als eine einzige verwaltete Fähigkeit betreibt statt als Sammlung von Integrationen in US-gehostete APIs – oder, ebenso wichtig, in EU-gehostete Endpunkte, die US-betriebene Modelle auf US-Infrastruktur darunter maskieren.
Persönliche Einschätzung
Ich möchte mit dem kulturellen Argument schließen, da dieses Publikum hauptsächlich im DACH-Markt angesiedelt ist und die kulturelle Passung dieser Strategie mit den Instinkten des deutschen Mittelstands meiner Ansicht nach das stärkste Argument überhaupt ist.
Der deutsche Mittelstand betreibt seit zwei Jahrhunderten eine kapitalkonservative, ingenieurexzellente, auf langfristige Lieferantenbeziehungen ausgerichtete, generationenübergreifend denkende Strategie. Eigene Anlagen statt gemieteter; vorhersagbare Kosten statt aufregender Fähigkeiten; tiefe Lieferantenbeziehungen statt transaktionaler; Qualität statt Geschwindigkeit; ingenieurtechnische Substanz statt Marketing-Oberfläche. Wendet man dieselbe Disziplin auf die KI-Beschaffung an, ist die Schlussfolgerung fast trivial offensichtlich. Eigene und souverän-cloud-gehostete Arbeitspferd-Modelle, feinabgestimmt auf Ihr Geschäft, gesteuert über eine Kontrollschicht, die Sie auditieren können, zugänglich über eine Orchestrierungsschicht, die Ihnen Optionalität über die Modellstufen hinweg gibt – das ist exakt die Architektur, zu der ein seriöses deutsches Ingenieursunternehmen von selbst gelangt wäre, wenn der KI-Hype-Zyklus von 2023–2025 die Beschaffung nicht standardmäßig in den Rennpferd-Markt gezogen hätte.
Ich habe es in dieser Serie schon geschrieben und werde es weiter schreiben: Der Differenzierungsfaktor in der Enterprise-KI im Jahr 2026 ist nicht mehr das Modell. Es ist die Topologie, die Orchestrierung, die Governance und die Disziplin. Wenn ein Frontier-Modell zwei Wochen, nachdem es bei einem unserer Wettbewerber oder auf dessen öffentlicher API gelandet ist, in unserem HUB landet, ist das keine Verzögerung, für die wir uns entschuldigen. Wir brauchen diese Zeit, um die Tool-Call-Oberfläche, die Datenfluss-Pfade, das jurisdiktionelle Verhalten und die operativen Eigenschaften des neuen Modells gegen denselben 100-%-DSGVO-Konformitätsstandard zu verifizieren, den wir auf jede andere Fähigkeit anwenden, die der HUB einem regulierten Workload zur Verfügung stellt. Lieber sicher, ordentlich evaluiert, feinabgestimmt wo es zählt, souverän gehostet und vorhersagbar kalkuliert als schnell zum Einzelhandelspreis unter einer fremden Jurisdiktion mit einem 14-Milliarden-Dollar-Jahresverlustprofil auf der anderen Seite der API.
Ein kurzer Hinweis zur regulatorischen Landschaft, da sie sich weiterentwickelt. Am 7. Mai 2026 verschob die Einigung zum Digital Omnibus on AI der EU die Hochrisiko-Pflichten nach Annex III vom 2. August 2026 auf den 2. Dezember 2027 und die Annex-I-Pflichten auf den 2. August 2028. [¹⁸] Die GPAI-Durchsetzungsbefugnisse nach Kapitel V bleiben beim ursprünglichen Zeitplan vom 2. August 2026. Die strategische Implikation für europäische Unternehmen bleibt unverändert gegenüber dem, was ich in den vorherigen Beiträgen dieser Serie argumentiert habe: Der regulatorische Termindruck hat sich leicht abgeschwächt, die Prüfungsintensität der Einkäufer hat zugenommen, und die Architekturentscheidungen des dritten Quartals 2026 sind diejenigen, die darüber bestimmen, ob Ihr KI-Stack die Beschaffungszyklen 2027 intakt übersteht.
Lasst die Rennpferde laufen. Baut Arbeitspferde. Die Topologie ist das, was zählt.
¹ Serienartikel auf neuland.ai/insights. Vorherige Beiträge: „Control Panels, Execution Surfaces…" (Feb. 2026); „Wenn KI-Systeme plötzlich schlechter werden" (Apr. 2026); „Open weights took the top spot. Meta walked away." (Apr./Mai 2026); „Compliance is a system property, not a checkbox" (Mai 2026); „The lethal trifecta is not a vulnerability. It is a property of the system." (Mai 2026); „MCP solved the integration problem. It just made the governance problem bigger." (Mai 2026).
² Kombinierte Hyperscaler-Capex 2026: Microsoft auf Kurs für 120–190 Mrd. $, Alphabet 175–185 Mrd. $, Amazon ~200 Mrd. $, Meta 125–145 Mrd. $, Oracle 50 Mrd. $ – insgesamt 660–725 Mrd. $. Siehe Futurum Group, „AI Capex 2026: The $690B Infrastructure Sprint," Februar 2026; Yahoo Finance, „Hyperscalers Hit $700 Billion in 2026 AI Spending Plans," April 2026; Tom's Hardware, „Google, Microsoft, Meta, and Amazon capex spending to hit $725 billion in 2026," April 2026. Bank of America und Evercore prognostizieren beide 2027-Capex über 1 Billion $. Nvidia-Bruttomargen ~88 %.
³ Meta erhöhte seine Capex-Prognose für 2026 Ende April auf 125–145 Mrd. $ und verwies auf höhere Komponentenpreise (insbesondere Speicher) sowie wachsenden Wettbewerb um Grundstücke, Strom und Fachkräfte. Der Umsatz im Q1 2026 wuchs um 33 % auf 56,3 Mrd. $.
⁴ Finanzlage von Anthropic laut Vin Vashishta, „$700 Billion in Capex. $50 Billion in Revenue. AI's Math Is Broken.," Mai 2026; Anthropic stieg von ~87 Mio. $ annualisierter Umsatzrate (Januar 2024) auf ~30 Mrd. $ (April 2026). Interne Dokumente projizieren 14 Mrd. $ Verlust 2026; positiver freier Cashflow nicht vor 2028 erwartet. Serie G im Februar 2026 bei 380 Mrd. $ Post-Money-Bewertung; Angebote bei 800–900 Mrd. $ im Mai 2026 berichtet. OpenAI begann im Februar 2026 mit der Ausspielung von Werbung im kostenlosen Tarif.
⁵ Siehe früherer Beitrag: „Open weights took the top spot. Meta walked away. The real question is where these models actually run." (April/Mai 2026). GLM-5.1 am 7. April 2026 von Z.ai veröffentlicht; MIT-Lizenz; 754 Mrd. Parameter (40 Mrd. aktiv); SWE-Bench Pro: 58,4 – hielt den Spitzenplatz neun Tage lang.
⁶ Unabhängige SWE-Bench-Verified-Gesamtanalysen, April–Mai 2026. GLM-5.1 liegt hinter Claude Opus 4.6 beim Terminal-Bench + NL2Repo-Komposit (54,9 vs. 57,5) und erreicht ~94,6 % der Coding-Fähigkeit von Claude Opus 4.6 im breiteren Komposit. DeepSeek-V3.2, Qwen 3.6, Mistral Large 3 in Schlagdistanz für die Mehrheit der Enterprise-Non-Frontier-Workloads.
⁷ Ausgereifte Open-Weight-Serving-Stacks (April 2026): vLLM (UC Berkeley, breit eingesetzt), SGLang (LMSYS), Ktransformers (Tsinghua), xLLM (mehrere Beitragende), TGI (Hugging Face). Alle unterstützen produktionsreifen Durchsatz, Batching, Quantisierung, KV-Cache-Management, spekulatives Decoding.
⁸ H100-GPU-Preise 2026: neu 25.000–40.000 $ (PCIe am unteren Ende, SXM5 am oberen Ende); generalüberholt 21.000–34.000 $; gebraucht nicht-generalüberholt 15.000–28.000 $. H100 hält 75–85 % des Anschaffungswerts über 24 Monate. Siehe Compute Exchange, „NVIDIA H100 GPU Price in 2026," April 2026. Blackwell-Allgemeinverfügbarkeit wird voraussichtlich 10–20 % Abwärtsdruck auf H100-Sekundärpreise ausüben, sobald breit verfügbar.
⁹ A100 80GB-Preise: neu 7.000–15.000 $; gebraucht 4.000–9.000 $. Siehe Jarvislabs, „NVIDIA A100 GPU Price in 2026," März 2026; Introl, „Secondary GPU Markets," März 2026. A100-Preise könnten im Laufe von 2026 um weitere 10–15 % sinken, da Unternehmen weiterhin auf Hopper- und Blackwell-Generationen umsteigen.
¹⁰ STACKIT – Cloud-Service von Schwarz Digits, gestützt durch die Schwarz-Gruppe (Lidl, Kaufland – das größte Einzelhandelsunternehmen Europas). Als unabhängig von externen Investoren vermarktet. DSGVO-konform; Daten ausschließlich in Europa gehostet. Partnerschaften mit ServiceNow und Salesforce (Tableau).
¹¹ IONOS – Deutscher Cloud- und Hosting-Anbieter, Teil der United Internet AG (börsennotiert in Frankfurt). Portfolio 2026 umfasst AI Model Hub mit OpenAI-kompatiblen API-Endpunkten, H200- und H100-GPU-Instanzen, Intel-Gaudi-Beschleuniger, Managed Kubernetes, Object Storage, Data Centre Designer. Mitglied der Gaia-X- und Sovereign-X-Initiativen.
¹² Aleph Alpha PhariaAI: Enterprise-GenAI-Betriebssystem mit On-Premises-Deployment und garantierter europäischer Datenresidenz; Partnerschaften mit AMD und Schwarz Digits.
¹³ Cloud-Souveränitäts-Framework der Europäischen Kommission, verbindlich seit Oktober 2025. Definiert und bewertet die digitale Souveränität von Cloud-Diensten hinsichtlich Eigentum, Jurisdiktion, operativer Kontrolle und technischer Umsetzung.
¹⁴ Andreas Nauerz (Chief Product Officer, IONOS), zitiert in IoT Now, „Europe's €180 million move: Sovereign cloud rebuild starts now," 25. Mai 2026. Vollständiges Zitat: „Souveränität wird nicht allein durch den physischen Standort eines Rechenzentrums bestimmt, sondern dadurch, wem der Anbieter gehört und wo die rechtliche Zuständigkeit liegt."
¹⁵ Ankündigung „OpenAI für Deutschland", 2026: SAP-OpenAI-Partnerschaft zur Bereitstellung von OpenAI-Fähigkeiten für den deutschen öffentlichen Sektor über SAPs Delos-Cloud-Plattform, die ihrerseits auf Microsoft-Azure-Infrastruktur läuft. SAP kündigte den Ausbau der Delos Cloud in Deutschland auf 4.000 GPUs an, um die Nachfrage zu bedienen. Siehe TechRadar-Berichterstattung, „Germany is getting its own sovereign version of OpenAI," 2026.
¹⁶ Siehe vorheriger Beitrag in dieser Serie: „Compliance is a system property, not a checkbox" (Mai 2026), insbesondere das Argument, dass EU-Residenz für die Inferenzschicht Datenflüsse, die über die Tool-Schicht oder die zugrunde liegende Infrastruktur die EU verlassen, nicht rückwirkend legitimiert.
¹⁷ Referenzierte Fähigkeiten des neuland.ai HUB: Identität / RBAC / Audit-Trail / Tool-Call-Governance / Fähigkeitsabstraktion / Multi-LLM-Routing / kostenoptimiertes Routing nach Workload-Klassifikation / Integration von Fine-Tuning-Workflows / hyperscaler-unabhängiges Deployment (On-Premises, EU-jurisdiktionelle souveräne Cloud, Hyperscaler-Region nach Bedarf). Die neuland.ai AG behält die Verantwortung für Inhaltsqualität und saubere Ergebnislieferung.
¹⁸ Vorläufige politische Einigung des Rates der EU und des Europäischen Parlaments zum Digital Omnibus on AI, 7. Mai 2026. Annex-III-Hochrisiko-Pflichten verschoben vom 2. August 2026 auf den 2. Dezember 2027 (16 Monate Verzögerung); Annex-I-Pflichten verschoben auf den 2. August 2028 (12 Monate Verzögerung); Artikel 50(2) Wasserzeichen verschoben auf den 2. Dezember 2026. GPAI-Durchsetzungsbefugnisse nach Kapitel V bleiben beim ursprünglichen Zeitplan vom 2. August 2026.
Bild generiert mit dem neuland.ai HUB.