SOHN.AI
← Alle Insights
KI-MarktKostenStrategie

Die Party ist vorbei: Wie wir in wenigen Wochen mit KI arbeiten, wenn die Anbieter den Hahn zudrehen

Ein Lagebericht aus der Maschinenraum-Perspektive

Von Marcel Sohn··7 Min. Lesezeit

Die unbequeme Wahrheit zuerst

Du hast es vielleicht schon gemerkt. Mitten in der Arbeit, beim dritten oder vierten Prompt, knallt plötzlich eine Meldung auf den Bildschirm: Limit erreicht. Komm in fünf Stunden wieder. Oder nächste Woche. Was du da erlebst, ist kein Bug. Es ist das Ende einer Illusion, die uns die KI-Branche zwei Jahre lang verkauft hat: die Illusion der unbegrenzten Intelligenz für 20 Euro im Monat.

Diese Illusion war von Anfang an eine Lüge. Genauer gesagt: ein Marketing-Trick, finanziert mit Risikokapital. Und gerade jetzt, in diesen Wochen, läuft die Rechnung auf.

Warum jetzt? Die Zahlen, die niemand laut sagt

Lass mich nicht um den heißen Brei reden. Die großen KI-Anbieter verkaufen dir jede Anfrage unter ihren eigenen Kosten. Das ist kein Geschäftsmodell, das ist eine Subvention.

OpenAI gab 2025 für jeden eingenommenen Dollar rund 1,70 Dollar aus und steuert nach eigenen Planungen auf einen Verlust von etwa neun Milliarden Dollar zu, bei prognostizierten Verlusten von bis zu 14 bis 17 Milliarden Dollar im Jahr 2026 [1][6]. Die Kosten allein fürs Ausführen der Modelle, die sogenannten Inferenzkosten, haben sich 2025 vervierfacht und drückten die Bruttomarge von 40 auf 33 Prozent [7].

Es ist offen ausgesprochen: OpenAI, Google, Anthropic und Meta preisen ihre Inferenz unter den tatsächlichen Kosten ein, um Marktanteile zu erobern [8]. Branchenbeobachter nennen das einen künstlichen Boden im Markt, der sich irgendwann nach oben korrigieren wird, sobald die Kapitaldisziplin zurückkehrt [8].

Anders gesagt: Du wurdest mit billigem Investorengeld gefüttert. Jetzt kommt die Diät.

Der eigentliche Brandbeschleuniger: Eine Anfrage ist keine Anfrage mehr

Hier wird es interessant, und hier verstehen die meisten den Kern nicht. Vor drei Jahren war eine KI-Interaktion ein kurzer Frage-Antwort-Schlagabtausch. Ein, zwei, drei Rechenschritte. Billig und vorhersehbar [9].

Diese Welt existiert nicht mehr. Moderne Modelle arbeiten agentisch. Eine einzige Nachricht löst heute zehn bis zwanzig Schritte aus: Recherche, Dokumentenerstellung, Prüfung, alles in einem Durchgang [9]. Agentische Arbeitslasten verbrauchen pro Aufgabe das Fünf- bis Dreißigfache an Token im Vergleich zu einem simplen Chatbot [10].

Und genau das ist die Falle, in der wir alle sitzen. Die Token-Preise pro Million sind im Vergleich zum Vorjahr von rund zehn auf 2,50 Dollar gefallen [11]. Pro Einheit wurde KI also billiger. Nur nützt dir das nichts, wenn dein Verbrauch sich verzwanzigfacht. Unternehmen, die ihre Budgets auf Basis der Token-Raten von 2024 geplant haben, stellen fest, dass agentische Workflows auf dem Nutzungsniveau von 2026 ein Vielfaches dessen verschlingen, was die Tabelle vorhergesagt hatte [11].

Billiger pro Token bedeutet eben nicht billiger insgesamt.

Was gerade konkret passiert

Das ist keine Theorie. Schau dir an, was in den letzten Wochen passiert ist:

Google hat im Mai 2026 für Gemini rechenleistungsbasierte Nutzungslimits eingeführt, die alle fünf Stunden aktualisiert werden, bis das Wochenlimit erreicht ist [4]. Begründung: explodierende Nutzerzahlen, die sich innerhalb eines Jahres mehr als verdoppelt haben [3]. Die kostenlosen Limits für Gemini 3 Pro wurden spürbar gesenkt, Gratisnutzer bekommen nur noch einen Basiszugang, dessen Grenzen sich täglich ändern können [2].

Anthropic kämpfte ab Ende März 2026 mit Leistungsproblemen, bei denen selbst Nutzer des teuren 200-Dollar-Tarifs berichteten, dass ihr Nutzungszähler nach wenigen Befehlen von fast leer auf hundert Prozent sprang [12]. Das Unternehmen reagierte mit neuen Spitzenlast-Beschränkungen [12].

Die ganze Branche verschiebt den Standard gerade weg von Nachrichten-Limits hin zu kostenbasierten Limits [9]. GitHub kündigte die Umstellung auf eine tokenbasierte Abrechnung zum 1. Juli 2026 an [12].

Das Muster ist eindeutig. Es ist kein Zufall, dass das alles zur selben Zeit passiert.

Die provokante These: Die Demokratisierung der KI war ein Werbeversprechen

Jetzt der Teil, der wehtut. Zwei Jahre lang hieß es, KI demokratisiere Wissen und Produktivität. Jeder bekäme einen Assistenten auf Doktorniveau für den Preis eines Netflix-Abos.

Vergiss das. Was sich gerade herausbildet, ist das genaue Gegenteil: eine Zwei-Klassen-Gesellschaft der Rechenleistung.

Oben sitzen die, die zahlen können. Anthropic empfiehlt seinen Max-Tarif für 180 Euro im Monat allen, die täglich ernsthaft arbeiten [13]. Googles Ultra-Stufe beginnt bei 99,99 Euro und reicht bis 219,99 Euro monatlich [13]. Wer wirklich uneingeschränkt arbeiten will, landet bei der API und zahlt jeden Token einzeln, mit versteckten Aufschlägen: Datenresidenz-Premium von zehn Prozent, ein schneller Modus zum sechsfachen Standardtarif, Websuche extra [14].

Unten sitzt der Rest. Mit Gratiszugängen, deren Limits sich täglich ändern können, und mit der ständigen Wand mitten in der Arbeit.

Die Wahrheit ist unbequem: Intelligenz wird nicht demokratisiert. Sie wird rationiert. Und der Preis dieser Rationierung steigt gerade.

Wie wir also in wenigen Wochen arbeiten werden

Genug Diagnose. Hier ist mein nüchterner Ausblick als jemand, der diese Systeme täglich im professionellen Einsatz hat.

Erstens: Das Ende des sorglosen Prompts. Wir werden lernen, mit KI hauszuhalten wie mit einem teuren Rohstoff. Nicht mehr zwanzig halbgare Versuche, sondern ein durchdachter Prompt. Wer präzise fragt, spart Rechenbudget. Prompt-Qualität wird von der Kür zur Pflicht.

Zweitens: Der Aufstieg der kleinen, lokalen Modelle. Nicht jede Aufgabe braucht das teuerste Flaggschiffmodell. Für viele Routineaufgaben reichen kleinere, oft lokal laufende Modelle, die keinem fremden Limit unterliegen. Die Amortisation eigener Hardware rechnet sich weniger finanziell als über gewonnene Privatsphäre und Freiheit von Nutzungslimits, besonders für Berufe mit Schweigepflicht [15].

Drittens: Das Modell-Portfolio statt der einen Wunder-KI. Profis werden nicht mehr ein Abo haben, sondern eine Werkzeugkiste: ein günstiges Modell für Masse, ein Premium-Modell für Komplexes, die API für Volumen, ein lokales Modell für Sensibles. Wer KI ernsthaft nutzt, merkt ohnehin, dass sich die vielen Einzelabos läppern [15].

Viertens: Kostentransparenz als Kernkompetenz. Die entscheidende Frage in Unternehmen lautet nicht mehr, ob KI hilft, sondern welche Teams und Workflows die Token verbrennen [14]. Wer das nicht misst, verliert die Kontrolle über sein Budget.

Der eigentliche Lichtblick

Und jetzt kommt die Wendung, die diesen Artikel von reinem Alarmismus trennt. Diese Korrektur ist gesund.

Die Subventionsblase hat uns verwöhnt und faul gemacht. Sie hat eine Erwartungshaltung erzeugt, die niemals nachhaltig war. Die Rationierung zwingt uns jetzt zu dem, was wir ohnehin hätten tun sollen: bewusst, gezielt und kompetent mit dieser Technologie umzugehen.

Gleichzeitig arbeitet die Forschung mit Hochdruck am eigentlichen Problem. Inferenzoptimierung ist im Jahr 2026 zum kompetitivsten Feld der KI-Forschung geworden, mit mehreren Durchbrüchen allein im ersten Quartal [8]. Die Kosten pro Token fallen weiter dramatisch, wenn man Preis und Effizienzgewinne zusammen betrachtet [11]. Anthropic etwa plant, seinen Mittelabfluss bis 2027 auf neun Prozent des Umsatzes zu senken und 2028 die Gewinnschwelle zu erreichen [16].

Die Frage der nächsten Jahre lautet schlicht: Fallen die Kosten schneller, als die Nachfrage steigt? [10] Wenn ja, kommt die Fülle zurück, dann aber auf einem ehrlichen Fundament statt auf Investorengeld.

Fazit

Die Limits, die dich gerade nerven, sind kein Versagen der Technik. Sie sind das Geräusch eines Marktes, der erwachsen wird. Die Phase des kostenlosen Rauschs endet, die Phase der bewussten Nutzung beginnt.

Wer das jetzt begreift und seinen Umgang mit KI professionalisiert, geht gestärkt daraus hervor. Wer weiter auf das verschwundene Schlaraffenland wartet, wird sich wundern, wie schnell die Wand kommt.

Die Party ist vorbei. Aber die Arbeit fängt gerade erst an.


Quellen

[1] AOL / Wall Street Journal: OpenAI plant Verluste bis 2028, Break-even-Ziel 2030. https://www.aol.com/finance/openai-says-plans-report-stunning-161814673.html

[2] connect: Google verschärft Limits für Gemini 3 Pro, Gratiszugriffe sinken deutlich (Dezember 2025). https://www.connect.de/news/google-gemini-3-pro-kostenlose-nutzungslimits-gesenkt-3211358.html

[3] GoogleWatchBlog: Gemini-Nutzungslimits, Nutzerzahlen mehr als verdoppelt (Mai 2026). https://www.googlewatchblog.de/2026/05/gemini-google-schraenkt-nutzung-des-ki-chatbot-ein-so-haben-sich-die-limits-jetzt-veraendert-uebersicht/

[4] GoogleWatchBlog: Gemini führt rechenleistungsbasierte Limits ein, Fünf-Stunden- und Wochenzyklen (Mai 2026). https://www.googlewatchblog.de/2026/05/gemini-google-schraenkt-die-nutzung-des-ki-chatbot-und-der-ki-generatoren-ein-nutzungslimits-starten/

[5] Google Workspace Help: AI-Erweiterungs-Add-ons und Nutzungslimits. https://knowledge.workspace.google.com/admin/getting-started/editions/compare-google-ai-expansion-add-ons

[6] PhoneArena: OpenAI Verluste bis zu 14 Milliarden Dollar bis 2026. https://www.phonearena.com/news/openai-financial-losses_id163742

[7] Sahi: Burn Rate erklärt, Inferenzkosten vervierfacht, Marge von 40 auf 33 Prozent. https://www.sahi.com/blogs/the-burning-billions-can-open-ai-afford-to-win-the-ai-race

[8] AI Automation Global: Inference Cost Crisis 2026, Subventionierung unter Kosten, Forschungsdurchbrüche. https://aiautomationglobal.com/blog/ai-inference-cost-crisis-openai-economics-2026

[9] marketing-ki.de: Wechsel von Nachrichten- zu kostenbasierten Limits, agentische Nutzung (Mai 2026). https://marketing-ki.de/aktuelles/warum-10-nachrichten-pro-tag-als-ki-limit-ausgedient-hat/

[10] AI After Hours / Substack: OpenAI vs Anthropic Financials, agentische Workloads verbrauchen 5- bis 30-fach mehr Token. https://aiafterhours.substack.com/p/openai-vs-anthropic-the-121-billion

[11] Investing.com: AI Token Pricing Crisis, Tokenpreis von 10 auf 2,50 Dollar, Budgetfalle. https://www.investing.com/analysis/the-ai-token-pricing-crisis-behind-openai-and-anthropics-revenue-race-200680777

[12] borncity.com: Anthropic Leistungsprobleme und neue Limits, GitHub tokenbasierte Abrechnung ab 1. Juli 2026. https://borncity.com/news/anthropic-ki-plattform-kaempft-mit-leistungsproblemen-und-neuen-limits/

[13] mind-verse.de: Vergleich der Abo-Modelle, Max-Tarif 180 Euro, Google Ultra bis 219,99 Euro. https://www.mind-verse.de/news/vergleich-abo-modelle-ki-tools-chatgpt-claude-gemini

[14] finout.io: OpenAI vs Anthropic API-Pricing 2026, versteckte Aufschläge und Kostentransparenz. https://www.finout.io/blog/openai-vs-anthropic-api-pricing-comparison

[15] bildungssprache.net: KI Kosten sparen, API, lokale Modelle, Freiheit von Nutzungslimits (Mai 2026). https://bildungssprache.net/ki-kosten-sparen/

[16] AOL / Wall Street Journal: Anthropic senkt Burn auf 9 Prozent bis 2027, Break-even 2028. https://www.aol.com/finance/openai-says-plans-report-stunning-161814673.html

[17] Sacra: OpenAI Research, Inferenzkosten 8,4 Milliarden 2025, projiziert 14,1 Milliarden 2026. https://sacra.com/research/openai/

Hat Ihnen das geholfen?

Teilen Sie den Artikel – und folgen Sie für mehr.

Marcel Sohn teilt auf LinkedIn regelmäßig solche Analysen zu KI, Markt und Praxis. Folgen Sie für neue Beiträge – oder teilen Sie diesen Artikel mit Ihrem Netzwerk.

Wir nutzen Cookies für Terminbuchungen (Calendly). Ohne Ihre Zustimmung werden keine externen Dienste geladen. Datenschutzerklärung