NEU

Zylon in a Box: Plug & Play Private KI. Holen Sie sich einen vorkonfigurierten On-Premise-Server, der lokal einsatzbereit ist, ohne Cloud-Abhängigkeit.

Zylon in a Box: Plug & Play Private KI. Holen Sie sich einen vorkonfigurierten On-Premise-Server, der lokal einsatzbereit ist, ohne Cloud-Abhängigkeit.

Zylon in a Box: Plug & Play Private KI. Holen Sie sich einen vorkonfigurierten On-Premise-Server, der lokal einsatzbereit ist, ohne Cloud-Abhängigkeit.

Veröffentlicht am

·

6 Minuten

Der SLM-Kipppunkt: Warum sich Qwen 3.5 endlich wie ein Agentenmodell anfühlt (und nicht nur wie ein kleines Chatmodell)

Alfonso Lozana

Kurze Zusammenfassung

SLMs waren schon seit einiger Zeit „fast so weit“ – gut genug für Chat und einfache Retrieval-Aufgaben, aber brüchig, sobald man Long-Context-Reasoning, striktes Befolgen von Anweisungen und zuverlässige Tool-Nutzung verlangt. Qwen 3.5 fühlt sich wie die Veröffentlichung an, die SLMs endlich über diese Schwelle hebt: nativer Long Context, der standhält, agentenähnliches Verhalten und ein Durchsatz, der echte Produkte möglich macht. In diesem Beitrag vergleichen wir es mit Qwen 3-14B/32B, Ministral 14B, GPT-OSS, Nemotron Nano v3 und GLM 4.7 Flash – und erklären dann, warum das für regulierte Unternehmen so wichtig ist und warum Qwen 3.5 für unsere Agenten-Roadmap bei Zylon ein Wendepunkt war.

Seit Jahren tragen „kleine Sprachmodelle“ (SLMs) ein Versprechen: LLM-ähnliche Fähigkeiten ohne LLM-ähnliches Betriebsrisiko. In regulierten Umgebungen – in denen Datenresidenz, Auditierbarkeit und Netzwerkgrenzen nicht verhandelbar sind – ist genau dieses Versprechen das Entscheidende.

Aber wenn Sie versucht haben, auf SLMs einen echten Reasoning-Agenten zu bauen (Tool-Nutzung, mehrstufige Planung, Umgang mit Evidenz im langen Kontext, striktes Befolgen von Anweisungen), kennen Sie die unbequeme Wahrheit bereits:

Die meisten SLMs scheitern nicht in den ersten 30 Sekunden.

Sie scheitern nach dem dritten Tool-Aufruf, wenn das Gespräch zu lang wird und wegen Kontextgrenzen komprimiert werden muss (wodurch wichtige Informationen verloren gehen), oder wenn die Antwort eine mehrstufige Ausführung oder das Zusammenfügen von Belegen aus mehreren Dokumenten erfordert.

Qwen 3.5 ist die erste Veröffentlichung, die dieses Muster auf spürbare Weise verändert – weil sie vier Dinge vereint, die selten gemeinsam auftreten:

  • Echter, nativer Langkontext (262.144 Tokens), der nicht nur ein bloßes Model-Card-Geprahle ist (Hugging Face)

  • Agentenartiges Verhalten (Tool-Calling, strukturierte Ausgaben, stärkere Planung und Reasoning-Fähigkeiten, konsistentere Aufgabenerfüllung – besonders bei Einsatz moderner Agenten-Tooling) (Qwen)

  • Hoher Durchsatz (praktisch relevante Geschwindigkeiten bei der Token-Generierung) (Artificial Analysis)

  • Stärkere Befolgung von Anweisungen bei langen Prompts (wo viele Modelle still nachlassen)

  • Weiß, wann genug genug ist – und vermeidet außer Kontrolle geratene oder endlose Schleifen

Das ist nicht „SLMs haben zu den Frontier-LLMs aufgeschlossen.“ Es ist für Enterprise-Builder etwas Wichtigeres:

SLMs überschreiten jetzt die Schwelle, ab der sie echte Agenten innerhalb Ihrer Grenze ausführen können.

Der Vergleich (wenige Worte, viel Aussagekraft)

Im Folgenden sehen Sie, wie sich Qwen 3.5 im Vergleich zu dem schlägt, was viele Teams zuletzt evaluiert haben: Qwen 3-14B/32B, Ministral 3-14B, GPT-OSS, Nemotron Nano v3 und GLM 4.7 Flash.


Modelle der vorherigen Generation (typisch offene On-Prem-Modelle)

Aktuelle Modelle (Qwen 3.5 Dense + MoE-Paradigma)

Inferenzgeschwindigkeit (UX)

Hohe Latenz in mehrstufigen Abläufen; jeder Schritt fügt Verzögerung hinzu und beeinträchtigt die UX

Deutlich reaktivere Inferenz; MoE ermöglicht günstigere Tokens und ein flüssigeres Verketten von Schritten

Parallelität (Serving)

Niedrig – die Kosten pro Token begrenzen die Zahl gleichzeitiger Nutzer

Höher – insbesondere mit MoE (weniger Berechnung pro Token)

Echter „operativer“ Kontext

Praktisch begrenzt; der Agent kann Zustand + Evidenz + Tools nicht ohne Qualitätsverlust aufrechterhalten

Stabile 128k-Token-Fenster als echtes Arbeitsbudget für den Agenten

Mehrstufige agentische Fähigkeit

Unvollständig – entweder werden Informationen abgerufen und dann gestoppt, oder Planung/Iteration/Verifikation scheitern

Vollständig – plant → nutzt Tools → validiert → entscheidet über den Abschluss der Aufgabe

Stabilität (Schleifen / Abschluss)

Häufige Schleifen und die Unfähigkeit, bei komplexen Aufgaben zu „wissen, dass es erledigt ist“

Deutlich besser – konsistentere Aufgabenabschlüsse, weniger Schleifen

Halluzinationen / Zuverlässigkeit

Variabel; bei einigen Modellen war das ein Produktionshindernis

Niedrigere Rate und bessere Kontrolle in verifizierten, tool-gestützten Szenarien

Kompromiss zwischen Qualität und Geschwindigkeit

Qualität zu erhalten bedeutete hohe Latenz zu bezahlen; Geschwindigkeit zu erhalten bedeutete, an Reasoning-Tiefe zu verlieren

Zwei nützliche Profile: dense (robuster / höhere Qualität) vs. MoE (schneller / reaktiver) je nach Bedarf

Praktische Auswirkung

„Echte Agenten“ waren nicht praktikabel – sie blieben bei einfachen RAG-Setups hängen

„Echte Agenten“ werden praktikabel – komplexe Workflows, ohne die UX zu beeinträchtigen




Warum SLMs LLMs näher kommen (und warum das für regulierte Teams wichtig ist)

Die Marktverschiebung besteht nicht darin, dass SLMs plötzlich „so klug wie“ die besten gehosteten Frontier-Modelle geworden wären.

Die Verschiebung besteht darin, dass SLMs bei den spezifischen Verhaltensweisen, die Agenten brauchen, jetzt gut genug sind:

  • Umgang mit Evidenz über lange Zeiträume (nicht vergessen, nicht abschweifen, nicht in oberflächliche Zusammenfassungen verfallen)

  • Instruktionsgenauigkeit (innerhalb von Schemata bleiben, Tool-Verträge einhalten, Systemvorgaben beachten)

  • Planungskontinuität (Aufgaben abschließen statt in Schleifen, Stillstand oder vagen Andeutungen zu enden)

  • Wirtschaftlichkeit, die nicht kollabiert wenn Sie Parallelität und echte Nutzer hinzunehmen

Der native 262K-Kontext von Qwen 3.5 ist ein gutes Beispiel für diese Richtung: Die Model Card dokumentiert ausdrücklich native Unterstützung bis zu 262.144 Tokens und beschreibt, wie sich dieser Bereich bei Bedarf erweitern lässt (Hugging Face). Aber es geht nicht nur darum, ein größeres Fenster zu haben – sondern um ein Modell, das diesen erweiterten Kontext tatsächlich effektiv nutzen kann und über lange Reasoning-Abläufe hinweg Bewusstsein, Kontinuität und Kohärenz aufrechterhält. Das ist der Unterschied zwischen:

  • einem Agenten, der aggressiv kürzen, komprimieren und raten muss, und

  • einem Agenten, der die Evidenz wirklich im Arbeitsgedächtnis halten und sie Schritt für Schritt durchdenken kann.

Das ist der leise Trend: SLMs werden zu zuverlässigen Systemkomponenten – kontextbewusst, in sich konsistent und fähig, bedeutungsvolle mehrstufige Workflows aufrechtzuerhalten, nicht nur „kleinere Chatbots“.

Warum SLMs der praktische Weg zu On-Prem und privater KI sind

Für CISOs, CTOs und KI-Verantwortliche in regulierten Branchen ist die „Modellwahl“ eine Governance-Entscheidung.

Private Bereitstellungen erfordern typischerweise:

  • Datenresidenz und kontrollierte Aufbewahrung

  • Auditierbarkeit und reproduzierbares Verhalten

  • Netzwerkisolation (oft strikte Egress-Kontrollen)

  • vorhersehbare Kosten und Kapazitätsplanung

In der Praxis sind die Modelle, die in diese Grenzen passen, meist Open-Weight oder selbst hostbar – und viele der leistungsstärksten Frontier-Modelle werden weiterhin hauptsächlich über gehostete APIs genutzt.

Deshalb sind SLMs wichtig: Sie sind die Modelle, die Sie realistisch dort betreiben können, wo Ihre sensiblen Daten bereits liegen – in Ihrer VPC, Ihrer Private Cloud oder Ihrem On-Prem-Stack – ohne rund um die Inferenz ein komplettes Rechenzentrum aufzubauen.

Sogar OpenAIs eigene GPT-OSS-Positionierung macht das ausdrücklich: Die Modelle werden als Open Weights unter Apache 2.0 verteilt und sind dafür ausgelegt, „überall – lokal, auf dem Gerät oder über Drittanbieter für Inferenz“ zu laufen. (OpenAI)

Mistral beschreibt Ministral 3 14B ausdrücklich als „für lokale Bereitstellung optimiert“. (Mistral KI)

Und NVIDIAs Messaging zu Nemotron 3 Nano verknüpft Effizienz und langen Kontext direkt mit realen Workflows und niedrigen Inferenzkosten. (NVIDIA Investor Relations)

Deshalb kommen regulierte Unternehmen immer wieder auf SLMs zurück: weil sie die Randbedingungen erfüllen.

Warum Qwen 3.5 für uns bei Zylon ein großes Release ist

Vor einer Woche haben wir das getan, was viele ernsthafte Teams gerade tun:

Wir haben Modelle wie Qwen 3-14B/32B, Ministral 14B, GPT-OSS sowie neuere Kandidaten wie Nemotron Nano v3 und GLM 4.7 Flash betrieben – mit dem Ziel, einen echten Agenten zu integrieren, der sinnvoll mit der Wissensdatenbank der Anwendung interagieren kann.

Bis dahin konnte der Agent kaum mehr als grundlegende Informationssuche. Eine große Klasse von Fragen ließ sich einfach nicht lösen – nicht, weil das Retrieval fehlgeschlagen wäre, sondern weil das Modell nicht zuverlässig über die abgerufenen Informationen hinweg schlussfolgern konnte.

Wir wollten neue Tools anbinden und Zylon in einen echten Reasoning-Agenten verwandeln. Das Problem?

Unsere Modelle waren an den entscheidenden Stellen nicht zu echtem Reasoning fähig: mehrstufige Aufgaben, langer Kontext und striktes Befolgen von Anweisungen.

Bei der Validierung von Alternativen stießen wir jeweils auf eine andere Mauer:

  • GPT-OSS halluzinierte mehr als Qwen-3 (für uns ein hartes K.-o.-Kriterium).

  • Nemotron konnte komplexe Probleme nicht lösen und geriet ständig in Schleifen.

  • GLM war quälend langsam.

Dann kam Qwen 3.5 ins Spiel.

Und die Erfahrung war sofort anders:

  • Niedrigere Halluzinationenrate

  • Fast doppelte Generierungsgeschwindigkeit

  • Doppelte Parallelität

  • 8× das Kontextfenster

    — auf derselben GPU.*

  • Läuft auf NVIDIA L40S 48GB

Das bedeutet „Wendepunkt“ für einen Enterprise-Agentenentwickler:

Kein Benchmark-Sieg. Kein Screenshot von einem Leaderboard.

Ein Wandel von „der Agent kann abrufen“ zu „der Agent kann tatsächlich lösen“.

Wenn langer Kontext real ist und der Durchsatz stabil bleibt, müssen Sie Evidenz nicht mehr übermäßig komprimieren. Wenn das Befolgen von Anweisungen auch tief in einer Sitzung stabil bleibt, müssen Sie nicht mehr gegen Schema-Drift ankämpfen. Und wenn das Modell Planungskontinuität aufrechterhalten kann, verhält sich Ihr Agent nicht mehr wie eine schicke Suchbox.

Genau das hat Qwen 3.5 für uns freigeschaltet: ein Modell, klein genug für den privaten Betrieb, aber leistungsfähig genug, um sich wie ein Agent zu verhalten.

Das Fazit

Regulierte Unternehmen brauchen nicht das größte Modell. Sie brauchen das am besten einsetzbare Modell, das sich dennoch wie ein Reasoning-System verhält.

Qwen 3.5 ist eine der ersten Veröffentlichungen, bei denen wir ohne Ausflüchte sagen können, dass das SLM-Ökosystem in dieses Terrain vorstößt:

Für CISOs und CTOs ist das wichtig, weil es bedeutet, dass private KI kein „Kompromiss“ mehr ist. Sie wird zunehmend zum Standardweg, auf dem ernsthafte Teams agentische Systeme bereitstellen – innerhalb der Grenze, unter Governance und auf Infrastruktur, die sie kontrollieren.

Autor: Alfonso Lozana Cueto, KI-Ingenieur bei Zylon

Veröffentlicht: März 2026

Alfonso entwickelt private, On-Premise-KI für regulierte Organisationen mit Fokus auf sichere Bereitstellungen, bei denen die Daten vollständig innerhalb der Infrastruktur des Kunden bleiben. Er arbeitet an der Produktionsreife von KI-Systemen auf Enterprise-Niveau – von Modellintegration und Optimierung bis hin zu Deployment und Betrieb –, sodass Teams leistungsstarke KI-Fähigkeiten nutzen können, ohne Souveränität, Privatsphäre oder Kontrolle zu opfern.

Veröffentlicht am

Geschrieben von

Alfonso Lozana