KI-Eigenentwicklung vs. Kaufen: Entscheidungsmatrix für deutsche Unternehmen

Die Make-or-Buy-Frage ist im deutschen Mittelstand keine neue Disziplin. Sie wird in jeder Geschäftsleitungs-Sitzung seit dreißig Jahren gestellt, sobald ein neues IT-Vorhaben auf den Tisch kommt — ERP, CRM, BI, jetzt KI. Was die KI-Variante 2026 strukturell von ihren Vorgängern unterscheidet, ist nicht die Frage selbst, sondern die Asymmetrie der Fehlentscheidungen. Wer ein ERP zu früh selbst baut, hat ein teures Problem. Wer eine KI-Plattform zu früh selbst baut, hat ein Problem, das mit jedem Modell-Update größer wird.

Dieser Beitrag liefert die Entscheidungsmatrix für deutsche Geschäftsführer, IT-Leiter und CFOs — mit den ehrlichen Kostenpositionen, den versteckten Aufwänden der Eigenentwicklung, der AI-Act- und ISO-42001-Komponente, und der Hybrid-Variante, die in der Praxis fast immer die richtige ist.

Hinweis: Knowlee ist Anbieter im Markt der KI-Workforce-Plattformen. Dieser Beitrag bemüht sich um Quellentreue, ist aber keine neutrale Drittpartei-Analyse. Die folgenden Aussagen sind Marktanalyse, keine Rechtsberatung.

Warum der klassische Make-or-Buy-Rahmen für KI nicht reicht

Die Standardlogik vergleicht: Lizenzkosten Anbieterlösung vs. Eigenentwicklungskosten + laufende Wartung + Differenz im Funktions-Fit. Diese Logik funktioniert für klassische Software, weil die Eigenentwicklungskosten kalkulierbar sind (Anforderungen, Architektur, Code, Test, Betrieb) und der Funktions-Fit konkret prüfbar ist.

KI-Systeme brechen beide Annahmen.

Die Kostenschätzungs-Falle bei Eigenentwicklung

Ein KI-Agent ist keine Web-Anwendung. Die Entwicklungskosten sind schwer in den Front-End-Phasen aufgehängt, in denen Forschung und Experimentation stattfinden — Phasen, deren Aufwand nicht linear planbar ist:

Modellauswahl und Evaluation. Welches Foundation-Modell performt auf der konkreten Unternehmensaufgabe? Das erfordert strukturierte Evaluation gegen echte Daten, nicht Benchmark-Folklore.
Prompt-Engineering und Instruction-Architektur. Bei mehrschrittigen Agenten beeinflusst die Prompt-Architektur die Output-Qualität substanziell. Iteration verläuft nicht linear.
Retrieval-Architektur. Wenn der Agent organisationale Wissensquellen erreichen muss (was in fast allen Mittelstands-Use-Cases der Fall ist), braucht es ein Retrieval-System, das Volumen, Format und Latenz der eigenen Daten erträgt.
Werkzeug-Integration. Jedes externe System, mit dem der Agent spricht, braucht eine Integrations-Schicht — Authentifizierung, Rate-Limiting, Fehlerzustände, Datentransformation.
Evaluations-Framework. Wie misst man, ob der Agent gut arbeitet? Die Mess-Infrastruktur kostet typischerweise 20-30 Prozent des Build-Aufwands.
Sicherheits- und Guardrail-Schicht. Verhindern, dass der Agent schädliche Aktionen ausführt, erfordert systematisches Failure-Mode-Testing — mit nicht vollständig vorhersehbaren Mustern.

Die Konsequenz: interne Kostenschätzungen für KI-Agent-Builds liegen branchenweit konsistent 40-60 Prozent unter den tatsächlichen Realisierungskosten. Das ist kein Planungsfehler, sondern eine Eigenschaft der Kategorie. Aber jede Make-or-Buy-Rechnung muss diese Unsicherheit als Aufschlag auf die Eigenentwicklungs-Seite einpreisen, sonst sieht "selbst bauen" zu attraktiv aus.

Die Wartungslast-Asymmetrie

Klassische Software-Wartung ist planbar: Bugs werden behoben, Features werden ergänzt, Abhängigkeiten werden aktualisiert. Die Software ändert ihr Verhalten nicht, ohne dass jemand Code anfasst.

KI-Systeme erfordern laufende Wartung, für die es im klassischen Software-Bestand kein Äquivalent gibt:

Modell-Drift. Foundation-Modelle werden vom Anbieter aktualisiert. Updates, die Benchmarks verbessern, verschlechtern manchmal das Verhalten auf konkreten Unternehmensaufgaben. Jedes Modell-Update verlangt Re-Evaluation und potenziell Prompt-Re-Engineering.
Daten-Drift. Die Welt ändert sich; Agent-Performance fällt, wenn die reale Eingabe-Verteilung von der Kalibrierungs-Verteilung abweicht. Monitoring und Re-Kalibrierung sind Dauerlast.
Edge-Case-Akkumulation. Im Skalenbetrieb trifft der Agent auf Eingaben, die in der Erstkonzeption nicht vorgesehen waren. Jeder Edge-Case verlangt Instruction-Update oder explizite Ausnahme-Logik.
Regulatorische Updates. Governance-Anforderungen, Datenverarbeitungs-Regeln, Compliance-Pflichten ändern sich. Eigenentwicklungen brauchen Inhouse-Expertise, um nachzuziehen.

Eine realistische Wartungs-Größenordnung für eine eigenentwickelte KI-Agent-Lösung liegt bei 30-40 Prozent der initialen Entwicklungskosten — pro Jahr. Diese Position fehlt in den meisten internen Make-or-Buy-Vorlagen, die wir in deutschen Mittelständlern sehen, vollständig.

Die ehrliche Drei-Jahres-Rechnung

Konkretes Beispiel: ein Mittelständler mit 500 Mitarbeitern will einen KI-SDR-Agenten betreiben — den klassischen Einstieg.

Eigenentwicklungs-Pfad — interne Schätzung (typisch)

Prompt-Engineering und Agent-Architektur: 200 Stunden × 150 EUR = 30.000 EUR
Integrations-Entwicklung (CRM, E-Mail, LinkedIn-API): 160 Stunden × 150 EUR = 24.000 EUR
Evaluations-Framework: 80 Stunden × 150 EUR = 12.000 EUR
Test und QA: 120 Stunden × 150 EUR = 18.000 EUR
Deployment und Monitoring-Setup: 40 Stunden × 150 EUR = 6.000 EUR
Geschätzt gesamt: 90.000 EUR

Eigenentwicklungs-Pfad — typische Ist-Kosten

Prompt-Engineering (mit drei Iterations-Runden): 400 Stunden = 60.000 EUR
Integrations-Entwicklung (Auth-Probleme, Rate-Limiting, Datenformate): 280 Stunden = 42.000 EUR
Evaluations-Framework (inkl. Aufbau Ground-Truth-Datensatz): 200 Stunden = 30.000 EUR
Test und QA (inkl. adversarial testing, Edge-Cases): 240 Stunden = 36.000 EUR
Deployment, Monitoring, Governance-Infrastruktur: 120 Stunden = 18.000 EUR
Tatsächlich gesamt: 186.000 EUR

Wartung über drei Jahre

Bei 30-40 Prozent jährlicher Wartung des Initial-Aufwands: 56.000 EUR + 56.000 EUR + 56.000 EUR = 168.000 EUR.

Modell-Inferenz-Kosten

KI-Agenten erzeugen pro Bearbeitung Foundation-Model-API-Kosten. Bei einem KI-SDR-Workload mit 50.000 bearbeiteten Leads pro Jahr und einem Mix aus Reasoning- und Embedding-Calls liegen die jährlichen Inferenz-Kosten typisch bei 30.000-60.000 EUR. Drei Jahre: 90.000-180.000 EUR.

Drei-Jahres-Eigenentwicklungs-Total

186.000 + 168.000 + 135.000 (Mittelwert Inferenz) = 489.000 EUR über drei Jahre.

Plattform-Pfad

Eine kommerzielle KI-Workforce-Plattform für denselben KI-SDR-Workload kostet im DACH-Mittelstand 2026 typisch 25.000-50.000 EUR pro Jahr inklusive Inferenz, Governance, Audit-Trail und Wartung. Drei Jahre: 75.000-150.000 EUR.

Differenz

Selbst in der konservativsten Plattform-Schätzung liegt die Eigenentwicklung 3-6× über dem Plattform-Pfad — vorausgesetzt, die Eigenentwicklung erreicht dieselbe Qualität, was selten der Fall ist.

Die versteckten Kostenpositionen, die Vorlagen oft auslassen

Wir haben in fünf 2025-2026er Mittelstands-Vorlagen die folgenden Positionen vermisst — sie gehören in jede ehrliche Rechnung:

Recruiting-Aufwand für KI-Engineering. Senior ML/Prompt-Engineers sind 2026 in DACH knapp und teuer. Recruiting-Zeit + Onboarding kostet typisch 20-40 Prozent eines Jahresgehalts.
Compliance-Aufbau. Eine eigenentwickelte KI-Lösung muss eigene AI-Act-Konformitätsbewertung, eigene technische Dokumentation, eigene Audit-Trail-Architektur, eigenes Governance-Modell mitbringen. Plattformen liefern diese Bausteine als Teil des Produkts.
Modell-Wahlfreiheit-Verlust. Wer einen Agenten gegen ein konkretes Foundation-Modell baut, hat hohe Wechselkosten. Plattformen routen zwischen Modellen, ohne dass der Kunde umbaut.
Sicherheits-Aufwand. Prompt-Injection, Daten-Exfiltration über Tool-Calls, Halluzinations-Risiko in regulierten Workflows — die Sicherheits-Schicht ist eigenständige Disziplin.
Opportunitätskosten. Während das interne Team neun Monate KI-Agent baut, baut ein Wettbewerber denselben Agenten in vier Wochen über eine Plattform und hat den Markt vor Ihnen.

Wann Eigenentwicklung wirklich Sinn macht

Die Eigenentwicklung ist nicht falsch. Sie ist die richtige Antwort in vier Konstellationen:

Strategischer Differenzierungs-Workload. Wenn der KI-Agent das Kern-Differenzierungsmerkmal des Geschäftsmodells ist — nicht ein Effizienz-Hebel, sondern das Produkt selbst.
Hochregulierte oder einzigartige Domäne. Wenn keine Plattform die spezifischen Anforderungen abdeckt (z.B. Defense, sehr enge regulierte Branchen-Workflows).
Strategische Kontroll-Anforderung. Wenn die Geschäftsleitung aus strategischen Gründen Modell- und Daten-Kontrolle bei sich behalten will (selten, aber legitim).
Vorhandene KI-Engineering-Tiefe. Wenn das Unternehmen bereits ein 10+ Mann starkes KI-Team mit nachweislichen Production-Erfolgen hat.

In allen vier Konstellationen sind die Aufschläge auf Kosten- und Wartungs-Schätzungen begründet zu rechtfertigen — und die Eigenentwicklung kann der wirtschaftlich richtige Pfad sein.

Wann Kaufen die Standard-Antwort ist

Spiegelbildlich vier Konstellationen, in denen Kaufen klar gewinnt:

Effizienz-Workloads in nicht-differenzierenden Funktionen. KI-SDR, KI-Bewerber-Triage, KI-Marketing-Operator, KI-Compliance-Reporting — Funktionen, in denen der Wettbewerb nicht über die KI-Implementierung entschieden wird, sondern über die Geschäftsentscheidungen, die sie ermöglicht.
Mittelstand ohne tiefes Inhouse-KI-Engineering. Realistisch: 95 Prozent der DACH-Mittelständler.
Schnelle Time-to-Value-Anforderung. Wenn der Wertbeitrag in 4-12 Wochen entstehen muss, nicht in 9-18 Monaten.
Hochrisiko-Workload nach Annex III des AI Act. Plattformen mit ausgereiftem Governance-Layer reduzieren die Compliance-Last spürbar.

EU AI Act und ISO 42001 — Pflichtsektion

Der EU AI Act (Verordnung 2024/1689) ist seit 1. August 2024 in Kraft. Hochrisiko-Pflichten ab August 2026. Federführende deutsche Marktüberwachungsbehörde: Bundesnetzagentur (BNetzA). Technische Konformität: BSI. Datenschutz: Landesdatenschutzbeauftragte.

Für die Make-or-Buy-Diskussion ist das ein doppelter Faktor:

Eigenentwicklung trägt die volle Konformitätslast selbst. Konformitätsbewertung nach Art. 43, technische Dokumentation nach Annex IV, Risikomanagement-System nach Art. 9, Daten-Governance nach Art. 10, Transparenz nach Art. 13, menschliche Aufsicht nach Art. 14, Genauigkeit/Robustheit nach Art. 15, Registrierung in der EU-Datenbank — alles im eigenen Haus zu erfüllen und zu pflegen.
Eine Plattform liefert Bausteine, aber nicht Befreiung. Der Kunde bleibt Betreiber im Sinne von Art. 26 und trägt die Pflichten Zweckbindung, Aufrechterhaltung der menschlichen Aufsicht, Protokollierung, Information der Betroffenen. Aber die Last der Anbieter-Pflichten (Art. 16ff.) liegt beim Plattform-Anbieter.

Eine seriöse europäische KI-Workforce-Plattform sollte 2026 zwei Bausteine mitbringen, die Eigenentwicklungen nur mit großem Aufwand erreichen:

ISO/IEC 42001-Vorbereitung oder Zertifizierung als Managementsystem-Norm für KI-Governance.
Per-Workload-Konformitätsbewertungen, die der Kunde als Betreiber direkt in seine technische Dokumentation übernehmen kann.

Knowlee positioniert sich auf genau dieser Linie. Wer eigenentwickelt, muss diese Bausteine selbst aufbauen — und das ist keine 50-Stunden-Aufgabe.

Die Hybrid-Variante als Realität

In der Praxis ist die ehrliche Antwort für die meisten deutschen Mittelständler 2026 nicht "alles bauen" oder "alles kaufen", sondern eine Plattform für 80 Prozent der Workloads + selektive Eigenentwicklung dort, wo strategische Differenzierung entsteht. Die Plattform liefert KI-SDR, KI-Recruiter, KI-Marketing-Operator, KI-Compliance-Agent — Standard-Workloads mit hoher Plattform-Reife. Die Eigenentwicklung konzentriert sich auf den einen, zwei, drei Workloads, die wirklich Wettbewerbsvorteil schaffen.

Diese Hybrid-Variante hat einen wirtschaftlichen Nebeneffekt: das interne KI-Team bleibt klein und fokussiert. Es baut nicht die hundertste Variante eines KI-Agenten, der überall verfügbar ist, sondern den einen Workload, der das Unternehmen einzigartig macht.

Entscheidungsrahmen für die Geschäftsleitung

Ist der KI-Workload strategisch differenzierend oder operativ standardisierend? Differenzierend — Eigenentwicklung erwägen. Standardisierend — Plattform.
Haben wir das Inhouse-KI-Engineering-Team mit Production-Track-Record? Nein — Plattform, ohne Diskussion.
In welcher Time-to-Value-Anforderung stehen wir? Unter 6 Monaten — Plattform.
Welche AI-Act-Klassifikation hat der Workload? Annex III — Plattform mit per-Workload-Governance bevorzugen.
Wer trägt das Modell-Drift-Risiko über drei Jahre? Eigenentwicklung — wir. Plattform — der Anbieter.

Schlussbemerkung

Die Make-or-Buy-Diskussion in der KI-Welt ist 2026 keine Glaubensfrage. Sie ist eine Disziplin, die mit den richtigen Kostenpositionen, der richtigen Zeitachse und der richtigen Compliance-Last gerechnet werden muss. Der deutsche Mittelstand fährt mit der Hybrid-Variante am sichersten: eine europäische, souveräne KI-Workforce-Plattform für die Standard-Workloads, gezielte Eigenentwicklung dort, wo der Wettbewerb wirklich entschieden wird. Wer sich diese Disziplin auferlegt, holt 80 Prozent des Werts in 20 Prozent der Zeit — und behält die strategische Souveränität dort, wo sie wirklich zählt.

— Matteo Mirabelli, Founder, Knowlee