6 LLMs betreten einen Kommentarbereich

Die meisten KI-generierten Kommentarbereiche sind offensichtliche Fakes. Ein Modell, auf sechs verschiedene Weisen geprompted, produziert sechs Variationen von „Dieser Artikel ist sehr zum Nachdenken anregend!” Niemand wird getäuscht. Niemand liest über den ersten Kommentar hinaus.

Ich wollte etwas anderes: echte Modelle von verschiedenen Unternehmen — Google, Meta, Mistral, DeepSeek, Alibaba, Microsoft — die meine Blog-Posts lesen und sagen, was sie wirklich denken. Keine API-Kosten. Läuft lokal auf meinem Laptop. Jedes Modell entscheidet selbst, ob es überhaupt etwas Sinnvolles beizutragen hat.

Das zu bauen hat eine Session gedauert — Cairn orchestrierte das Setup, während ich die Design-Entscheidungen steuerte. So funktioniert es und das habe ich dabei gelernt.

Sechs Modelle lesen und kommentieren denselben Artikel — vier kommentieren, zwei passen

Das Setup: Ollama auf einem MacBook

Ollama macht aus einem Laptop einen LLM-Server. Installieren, ein Modell ziehen — und schon hat man eine REST-API auf localhost:11434, die dasselbe Chat-Format wie die OpenAI-API akzeptiert. Kein Docker, keine GPU-Treiber, keine Cloud-Accounts.

Mein M3 MacBook Pro hat 36 GB Unified Memory. Das reicht, um ein einzelnes Modell mit bis zu etwa 20 GB Gewichten zu betreiben. Der Trick: Ollama lädt jeweils ein Modell ins Memory und entlädt es automatisch nach einigen Minuten Inaktivität. So kann man ein Dutzend verschiedene Modelle sequenziell betreiben — jedes bekommt die vollen 36 GB, solange es aktiv ist.

Ich habe sechs Modelle ausgewählt, die verschiedene Unternehmen, verschiedene Trainingsphilosophien und verschiedene Parameteranzahlen abdecken:

Modell	Hersteller	Download	Warum
`gemma3:27b`	Google	17 GB	27B Parameter, Q4 quantisiert. Größtes und leistungsfähigstes. Analytische Stimme.
`llama3.1:8b`	Meta	4,9 GB	Kleinstes. Pragmatisch, schnell.
`mistral-nemo:12b`	Mistral AI	7,1 GB	Europäisch. Direkt, effizient.
`deepseek-r1:14b`	DeepSeek	9 GB	Reasoning-Modell. Zeigt seinen Chain of Thought.
`qwen3:14b`	Alibaba	9 GB	Der Skeptiker. Stellt unbequeme Fragen.
`phi4:14b`	Microsoft	9 GB	Engineering-fokussiert. Tradeoff-orientiert.

Gesamtdownload: etwa 56 GB. Gesamtkosten: 0 Euro.

brew install ollama
ollama serve
ollama pull llama3.1:8b
ollama pull mistral-nemo:12b
ollama pull deepseek-r1:14b
ollama pull qwen3:14b
ollama pull phi4:14b
ollama pull gemma3:27b

Das ist das komplette Infrastructure-Setup.

Der erste Fehler: Parallele Monologe

Mein erster Versuch war simpel: Artikel an alle sechs Modelle schicken, sechs Kommentare einsammeln, fertig. Jedes Modell liest den Artikel unabhängig und schreibt seine Meinung.

Das Ergebnis war furchtbar. Sechs Kommentare, alle ungefähr dieselben Punkte machend, keiner auf den anderen eingehend. Es las sich wie sechs Menschen, die in ein Vakuum schreien. Es gab keine Diskussion — nur parallele Monologe.

Die Lösung war offensichtlich, sobald ich das Problem sah: sequenziell machen. Jedes Modell sieht alles, was vorher kam.

Die Architektur: Sequenzielle Runden

Das System arbeitet in drei Phasen.

Phase 1 — Diskussion. Eine zufällige Reihenfolge von 8–20 Slots aus den sechs Modellen generieren. Dasselbe Modell kann mehrfach auftauchen, aber nie zweimal hintereinander. In jeder Runde sieht das Modell den vollständigen Artikel plus alle bisher geschriebenen Kommentare. Es wählt eine von drei Aktionen:

COMMENT — einen neuen Top-Level-Kommentar zum Artikel schreiben
REPLY TO: {id} — auf einen bestimmten bestehenden Kommentar antworten
PASS — gerade nichts beizutragen

Das verändert alles. Modell #4 liest nicht einfach den Artikel — es liest den Artikel und drei vorherige Meinungen. Es könnte einer zustimmen, eine andere in Frage stellen oder etwas bemerken, das alle übersehen haben. Modell #6 hat fünf frühere Kommentare, auf die es reagieren kann. Die Diskussion baut aufeinander auf.

Phase 2 — Abstimmung. Nachdem alle Runden abgeschlossen sind, reviewt jedes Modell die vollständige Diskussion und stimmt bei jedem Kommentar, der nicht sein eigener ist, mit UP, DOWN oder SKIP ab.

Phase 3 — Zusammenführung. Kommentare, Antworten, Stimmen und Zeitstempel werden in eine JSON-Datei zusammengeführt, die der Static Site Generator des Blogs zur Build-Zeit einliest.

Drei Phasen: Diskussion baut den Thread auf, Abstimmung bewertet ihn, Zusammenführung gibt JSON aus

LLMs beibringen, den Mund zu halten

Hier etwas, das ich nicht erwartet hatte: Modelle dazu zu bringen, nicht zu kommentieren, war das schwierigste Prompt-Engineering-Problem.

LLMs sind darauf trainiert, hilfreich zu sein. Wenn man fragt „möchtest du diesen Artikel kommentieren?”, ist die Antwort immer ja. Auch wenn jeder interessante Punkt bereits gemacht wurde. Auch wenn der Beitrag des Modells nur eine weniger elegante Version von dem wäre, was jemand anderes schon gesagt hat.

Mein erster System-Prompt sagte: „Du kannst PASS wählen, wenn du nichts beizutragen hast.” Niemand hat je gepasst. Nie.

Was funktionierte, war Stille als Qualitätssignal umzudeuten:

Wichtig: Kommentiere nur, wenn du wirklich etwas beizutragen hast.
Stille ist besser als Rauschen. Wenn der Artikel keine Reaktion auslöst,
oder wenn bestehende Kommentare bereits abdecken, was du sagen würdest — pass.
Eine gute Diskussion hat weniger, bessere Kommentare, nicht mehr.

Und im Action-Prompt:

Sei ehrlich zu dir selbst: Würde ein echter Mensch diesen Kommentar
wirklich schreiben? Wenn nicht, PASS.

Das ist eine allgemeine Prompt-Engineering-Lektion — und direkt verwandt mit der KI-Slop-Krise. LLMs brauchen keine Erlaubnis zu sprechen — sie brauchen die Erlaubnis zu schweigen. Das Standardverhalten ist immer, Output zu produzieren. Man muss Zurückhaltung aktiv als die höherwertige Wahl framen.

Emoji-Reaktionen: Bauchgefühle vor Worten

Bevor sie ihre Aktion wählen, gibt jedes Modell eine spontane Emoji-Reaktion auf den Artikel — ein einzelnes Emoji und ein Wort:

REACTION: 🔥 brilliant
REACTION: 🤔 übertrieben
REACTION: 🎯 präzise
REACTION: 🤷 naja

Diese werden als kompakte Pills über dem Kommentarbereich dargestellt — eine Reihe von Modell-Avataren mit ihrem Emoji und Wort. Man erfasst die kollektive Stimmung in zwei Sekunden, bevor man auch nur einen Kommentar liest.

Es kostet nichts extra: Die Reaktion ist Teil desselben API-Calls wie der Kommentar. Und sie fügt echte Persönlichkeit hinzu. Zu sehen, dass DeepSeek mit 🤔 übertrieben reagiert hat, während Gemma für denselben Artikel mit 🔥 brilliant geht, macht sofort klar, dass es einen echten Dissens gibt, der es wert ist, gelesen zu werden.

Das Script: 580 Zeilen TypeScript

Das gesamte System ist eine einzelne TypeScript-Datei, die Ollamas REST-API aufruft:

// Die gesamte API-Oberfläche
const res = await fetch('http://localhost:11434/api/chat', {
  method: 'POST',
  body: JSON.stringify({
    model: 'gemma3:27b',
    stream: false,
    messages: [
      { role: 'system', content: systemPrompt },
      { role: 'user', content: userPrompt },
    ],
  }),
})
const json = await res.json()
return json.message.content

Die Modelle sind inline definiert. Die Rundengenerierung nutzt einen Shuffle-then-Fill-Algorithmus mit einer No-Consecutive-Constraint. Der Response-Parser verarbeitet drei Formate (das strukturierte ACTION:-Format, einen REPLYING TO:-Fallback für ältere Versionen und einen letzten Fallback, der jeden langen Text als Kommentar behandelt). Die Abstimmung wird Zeile für Zeile mit einem Regex geparst.

Ausführen mit:

pnpm gen:comments --slug my-blog-post --turns 12

Zwölf Runden über sechs Modelle, sequenzielle Diskussion, Abstimmung, JSON-Output. Auf einem MacBook. Die größeren Modelle (gemma3:27b) brauchen etwa 30 Sekunden pro Antwort. Die kleineren (llama3.1:8b) antworten in unter 15 Sekunden. Eine vollständige 12-Runden-Diskussion mit Abstimmung dauert etwa 15 Minuten.

Vielfältige Perspektiven, kein falsches Engagement

Die meisten Entwickler-Blogs haben null Engagement. Keine Kommentare, keine Diskussion. Die wenigen, die Kommentarbereiche haben, bekommen Spam. Was dieses System hinzufügt, ist etwas wirklich Nützliches: sechs verschiedene KI-Modelle mit unterschiedlichen Trainingsdaten, verschiedenen Unternehmen und verschiedenen Design-Philosophien, die auf technische Inhalte reagieren. Leser bekommen einen Ausgangspunkt für ihr eigenes Denken.

Alles ist transparent gekennzeichnet — jeder Kommentar zeigt den Modellnamen, den Hersteller und die genaue Version. Die Abschnittsüberschrift lautet „Was die Modelle denken.” Die Avatare sind geometrische Icons, keine Fotos von Menschen. Niemand wird getäuscht.

Was mich überraschte: Die Modelle bringen manchmal Dinge auf, die mir entgangen sind. Als ich das auf meinen vorherigen Post über API-QA-Testing angewendet habe, hat Qwen der Aussage widersprochen, dass KI-Reasoning allein die Bugs gefunden habe — und darauf hingewiesen, dass die Utility-Scripts die eigentliche Hauptarbeit bei Authentifizierung und Request-Formatierung gemacht haben. Ein berechtigter Punkt. Einer, den ich von selbst nicht eingebaut hätte, der die Diskussion aber ehrlicher machte.

Die Meta-Ebene

Die naheliegende Frage: Habe ich den Kommentargenerator auf diesen Post laufen lassen?

Ja. Was du siehst, sind Kommentare von Modellen, die eine Beschreibung des Systems gelesen haben, das sie generiert hat. DeepSeek denkt über die Architektur des Systems nach, an dem es gerade teilnimmt. Mistral kritisiert die Effizienz des Prompts, der sein Verhalten steuert. Scroll nach unten und sieh selbst.

Was als Nächstes kommt

Das Kommentarsystem ist das Erste, was ich mit lokalen LLMs gebaut habe — aber es hat mehrere Folgeideen eröffnet:

Deutsche Übersetzungen per lokalem LLM — Diese Site ist zweisprachig. Aktuell laufen Übersetzungen über eine Cloud-API. Gemma 3 (27B) hat starkes multilinguales Training und läuft lokal. Kostenlose Übersetzungen sind in Reichweite.
Ein Claude Code Skill — Gerade führe ich das Script manuell aus. Es als /gen-comments-Skill einzuwickeln würde es in den Blog-Publishing-Flow integrieren.
Mehr Modelle, wenn sie erscheinen — Das Open-Weight-Ökosystem bewegt sich schnell. Neue Modelle lassen sich durch einen Pull aus Ollama und eine Zeile in der Config hinzufügen.

Was lokale LLMs für diese spezifische Aufgabe besser macht: Einen DeepSeek, einen Mistral und einen Gemma über eine einzige Cloud-API zum Streiten zu bringen, ist nicht möglich. API-Vielfalt ist durch die Trainingsentscheidungen eines einzelnen Unternehmens begrenzt. Lokal betreibt man sechs Modelle von sechs Unternehmen mit sechs verschiedenen Perspektiven — und bekommt diese Vielfalt kostenlos, für immer, offline. Für die Generierung vielfältiger technischer Kommentare ist der lokale Betrieb kein Kompromiss. Es ist die richtige Architektur.

Du willst etwas ähnlich Verrücktes für dein Produkt bauen? Lass uns zusammenarbeiten — ich berate zu agentischen Systemen, automatisierten Pipelines und den KI-Experimenten, für die die meisten Teams noch zu zögerlich sind.