Bilder per Textbefehl generieren, eigene Stile trainieren, ganze Produktions-Pipelines automatisieren – und das alles lokal auf dem eigenen Rechner? Stable Diffusion hat genau das möglich gemacht. Seit dem ersten Release 2022 hat sich das Ökosystem allerdings grundlegend verändert: Neue Architekturen, neue Anbieter und ein ganzer Zoo an Modellen machen den Überblick schwieriger denn je.

Dieser Artikel ist dein zentraler Anlaufpunkt. Du erfährst, wie die Technik funktioniert, welche Modelle es im Januar 2026 gibt, welche Hardware du brauchst – und worauf du bei Lizenzen achten musst.

Steckbrief: Stable Diffusion

Merkmal	Details
Entwickler	Stability AI (SD-Serie), Black Forest Labs (FLUX-Serie), Tencent (Hunyuan)
Aktuelle Versionen	Stable Diffusion 3.5, FLUX.2, Hunyuan Image 3.0
Architektur	Diffusion Transformer (DiT) / Flow Matching (löst U-Net ab)
Lizenz	Modellabhängig: Apache 2.0, Community License oder Non-Commercial
Preis	Basismodelle kostenlos (Open Weights), API-Nutzung ab ~$0,025/Megapixel
Plattformen	Windows, macOS, Linux, iOS, Android, Cloud-APIs
Zielgruppe	Kreative, Entwickler, Studios, Agenturen, Hobbyisten

Für wen ist Stable Diffusion geeignet?

Stable Diffusion und seine Nachfolger richten sich an sehr unterschiedliche Nutzergruppen:

Hobbyisten und Kreative, die ohne Abo-Gebühren mit Bildgenerierung experimentieren wollen. Du brauchst nur eine halbwegs aktuelle Nvidia-GPU – oder nutzt kostenlose Web-Plattformen.

Illustratoren und Concept Artists, die KI als Werkzeug in ihren bestehenden Workflow einbinden. Über das Krita AI Diffusion Plugin lässt sich Stable Diffusion direkt auf der digitalen Leinwand nutzen.

App-Entwickler und Startups, die Bildgenerierung in eigene Produkte integrieren möchten. Modelle wie FLUX.2 klein 4B stehen unter Apache 2.0 – vollständig kommerziell nutzbar, ohne Lizenzgebühren.

Agenturen und Studios, die Produktfotografie, Texturierung oder Asset-Pipelines automatisieren wollen. Hier kommen die großen Modelle mit ControlNet und Multi-Reference-Funktionen zum Einsatz.

Forschende, die an der Weiterentwicklung generativer Modelle arbeiten. Offene Gewichte und veröffentlichte Architekturen machen Experimente möglich, die bei proprietären Diensten ausgeschlossen sind.

Preise & Versionen

Kostenlose Open-Source-Modelle

Die Basismodelle sind kostenlos herunterladbar. Du zahlst nur für Strom und Hardware. Modelle wie FLUX.2 klein 4B (Apache 2.0), SD 3.5 Medium und SDXL lassen sich lokal betreiben, ohne dass laufende Gebühren anfallen.

API-Dienste und Cloud-Nutzung

Wer keine leistungsstarke GPU besitzt, nutzt Cloud-Dienste:

Dienst	Modell	Kosten (ca.)
Fal.ai / Replicate	FLUX.2 Dev	~$0,025 pro Megapixel
RunPod	RTX 4090 (Cloud-GPU)	~$0,34 pro Stunde
Civitai / Tensor.art	Diverse Modelle	Teils kostenlos (mit Limits)

Die Preise sind 2026 deutlich gefallen. Für gelegentliche Nutzung kostet ein Bild oft nur Bruchteile eines Cents.

API-Nutzung wird schnell teuer, wenn du viele Bilder generierst. Unser Leitfaden zu den besten KI-APIs nach Preis-Leistung hilft dir, Megapixel-Preise, Serverless-Optionen und Skalierungsmodelle nüchtern zu vergleichen – ideal für Startups und Agenturen.

Enterprise-Lizenzen

Für Unternehmen mit mehr als 1 Mio. USD Jahresumsatz bieten Stability AI und Black Forest Labs kostenpflichtige Enterprise-Lizenzen an. Die genauen Konditionen werden individuell verhandelt.

Was ist Stable Diffusion? So funktioniert die Technik dahinter

Der Begriff „Stable Diffusion“ wird heute oft als Sammelbegriff für offene Bildgenerierungsmodelle verwendet. Technisch bezeichnet er eine bestimmte Klasse von Modellen: Latent Diffusion Models (LDMs).

Latent Diffusion Models (LDMs) kurz erklärt

Ältere Ansätze arbeiteten direkt auf der Pixelebene – rechenintensiv und bei hohen Auflösungen kaum praktikabel. Stable Diffusion löst das, indem es in einem komprimierten „Latenten Raum“ arbeitet. Der Prozess hat drei Hauptkomponenten:

Variational Autoencoder (VAE): Komprimiert Bilder in eine kleinere Darstellung und übersetzt das Ergebnis am Ende wieder zurück in sichtbare Pixel.

Diffusionsprozess: Das Herzstück. Das Modell lernt, schrittweise Rauschen aus einem Bild zu entfernen – gesteuert durch deinen Textprompt. In frühen Versionen (SD 1.5, SDXL) übernahm ein U-Net diese Aufgabe.

Text-Konditionierung (CLIP / T5): Dein Textprompt wird durch Encoder wie CLIP oder T5 in Zahlenvektoren umgewandelt. Diese Vektoren sagen dem Modell, was es generieren soll.

Von U-Net zu Transformer: Der Paradigmenwechsel 2025/2026

Bis 2024 basierten alle Stable-Diffusion-Versionen auf der U-Net-Architektur. Diese stieß bei der Skalierung an Grenzen: Größere Modelle brachten keine proportionalen Qualitätssteigerungen mehr.

2025 vollzog die Branche einen radikalen Wechsel zu Diffusion Transformern (DiT). Inspiriert durch den Erfolg großer Sprachmodelle ersetzen aktuelle Modelle wie SD 3.5, FLUX.2 und Hunyuan das U-Net durch eine Transformer-Architektur. Transformer skalieren deutlich besser mit mehr Daten und Parametern – ein 32-Milliarden-Parameter-Modell wie FLUX.2 Dev versteht Nuancen in Prompts, die einem U-Net verborgen blieben.

Der eigentliche Paradigmenwechsel 2025/2026 liegt in der Transformer-Architektur, und genau hier schafft unser Beitrag zur Transformer-Architektur verständlich erklärt Klarheit.

Flow Matching: Schnellere Ergebnisse mit weniger Rechenschritten

Black Forest Labs hat mit FLUX eine weitere Innovation eingeführt: Rectified Flow (Flow Matching). Klassische Diffusion simuliert einen gekrümmten, komplexen Pfad vom Rauschen zum fertigen Bild. Flow Matching „begradigt“ diesen Pfad. Das Ergebnis: schärfere Bilder bei weniger Rechenschritten – und damit schnellere Generierung.

Die wichtigsten Modelle im Überblick

Im Januar 2026 gibt es nicht mehr „das eine“ Modell. Stattdessen existieren spezialisierte Werkzeuge für unterschiedliche Hardware- und Lizenzanforderungen.

FLUX.2 von Black Forest Labs

Am 15. Januar 2026 veröffentlichte Black Forest Labs die FLUX.2-Familie. BFL wurde von Robin Rombach und dem Kernteam gegründet, das ursprünglich Stable Diffusion entwickelte. Mit einer Series-B-Finanzierung über 300 Millionen US-Dollar und einer Bewertung von 3,25 Milliarden US-Dollar ist BFL finanziell stark aufgestellt.

Modell	Parameter	Lizenz	Einsatzzweck
FLUX.2 [max]	Proprietär	API Only	Enterprise, maximale Konsistenz
FLUX.2 [pro]	Proprietär	API Only	High-End-Produktion
FLUX.2 [dev]	32 Mrd.	Non-Commercial	Forschung, Fine-Tuning, Referenzqualität
FLUX.2 [klein] 9B	9 Mrd.	Non-Commercial	Prosumer, Sub-Sekunden-Geschwindigkeit
FLUX.2 [klein] 4B	4 Mrd.	Apache 2.0	Lokale & kommerzielle Nutzung auf Consumer-Hardware

Die technischen Highlights: FLUX.2 integriert Inpainting und Image-to-Image direkt in die Architektur. Multi-Reference-Control ermöglicht es, bis zu vier Referenzbilder zu kombinieren. Und mit JSON-Prompting lassen sich Szenen über strukturierte Daten statt natürlicher Sprache definieren – ein großer Vorteil für die professionelle Produktion.

Stable Diffusion 3.5 von Stability AI

Stability AI bietet mit SD 3.5 eine solide Alternative. Die Architektur basiert auf einem Multimodal Diffusion Transformer (MMDiT), bei dem Text- und Bildinformationen durch separate Gewichtungsstränge verarbeitet werden.

SD 3.5 Large (8B): Das Flaggschiff mit exzellenter Prompt-Adhärenz. Die Community License erlaubt kommerzielle Nutzung bis 1 Mio. USD Umsatz – ein entscheidender Vorteil gegenüber dem nicht-kommerziellen FLUX.2 Dev.

SD 3.5 Medium (2.5B): Strategisch wichtig für Nutzer mit Standard-Hardware. Das Modell läuft auf GPUs mit 10–12 GB VRAM ohne aufwendige Quantisierung.

Hunyuan Image 3.0 von Tencent

Tencent hat mit Hunyuan Image 3.0 das größte Open-Source-Bildgenerierungsmodell veröffentlicht: 80 Milliarden Parameter, basierend auf einer Mixture-of-Experts-Architektur.

Die Qualität bei komplexen Szenen mit vielen Objekten ist beeindruckend. Im Januar 2026 erschienen spezialisierte Versionen: Instruct für bildbasierte Bearbeitung und Distil für schnellere Inferenz.

Der Haken: Ohne Multi-GPU-Setup oder extremes Disk-Offloading ist das Modell lokal kaum nutzbar. Für Hobbyisten bleibt es vorerst außer Reichweite.

SDXL und Pony Diffusion: Warum Legacy-Modelle noch relevant sind

Trotz der neuen Transformer-Modelle hat SDXL (U-Net-basiert) nach wie vor seine Berechtigung. Insbesondere das Derivat Pony Diffusion V6 XL dominiert in Nischen-Communities für Anime und stilisierte Kunst. Der Grund: ein riesiges Ökosystem an existierenden LoRAs und deutlich geringere Hardwareanforderungen.

Stable Diffusion nutzen: Einstieg und Workflows

Die Nutzung hat sich von einfachen Text-Prompts zu komplexen, modularen Workflows entwickelt.

Lokal vs. Cloud – was passt zu dir?

Lokale Nutzung bietet maximale Privatsphäre, keine laufenden Kosten und volle Kontrolle. Du brauchst allerdings eine Nvidia-GPU mit ausreichend VRAM. Tools wie ComfyUI, Forge oder SwarmUI machen die Einrichtung einfacher als noch vor zwei Jahren.

Cloud-Dienste sind ideal, wenn du keine leistungsstarke GPU besitzt oder flexibel skalieren willst. Fal.ai, Replicate und RunPod bieten APIs an, um FLUX.2 oder SD 3.5 per Abruf zu nutzen.

ComfyUI: Der Standard für Power-User

ComfyUI ist 2026 das De-facto-Standard-Interface für Enthusiasten und Profis. Das node-basierte System (ähnlich wie Blender Nodes) erlaubt es, Module zu verketten: Checkpoint laden → Text encodieren → Sampling → VAE Decode.

Der größte Vorteil: Neue Modelle wie FLUX.2 oder Hunyuan werden oft innerhalb von Stunden nach Release durch die Community integriert. Für das 80B-Modell von Hunyuan nutzt ComfyUI spezielle Disk-Offloading-Techniken, um Gewichte dynamisch zwischen RAM, SSD und VRAM zu verschieben.

Sobald du verstehen willst, warum Diffusion Transformer klassische U-Nets ablösen, hilft dir die technische Einordnung in unserem Grundlagenartikel zu Diffusion Models – die Technik hinter Midjourney und DALL·E.

WebUI Forge: Die einfache Alternative

Forge ist der Nachfolger von Automatic1111 und die Empfehlung für alle, die „einfach nur Bilder generieren“ wollen, ohne Nodes zu verkabeln. Es nutzt die vertraute A1111-Oberfläche, aber ein optimiertes Backend – bis zu 75 % schneller als A1111 bei FLUX-Inferenz.

SwarmUI und weitere Tools

SwarmUI (entwickelt von Stability AI) verbindet die Power von ComfyUI mit einer zugänglicheren Oberfläche und unterstützt Cluster-Generierung über mehrere GPUs im Netzwerk.

Krita mit AI Diffusion Plugin: Für Künstler

Für Illustratoren ist die Integration in Malprogramme entscheidend. Das Krita AI Diffusion Plugin erlaubt es, FLUX oder SDXL direkt auf der digitalen Leinwand zu nutzen – Inpainting, Live-Sketch-to-Image, nahtlos im Workflow.

Mobile Nutzung (iOS & Android)

Dank Apple Silicon und Snapdragon NPUs funktioniert lokale Bildgenerierung inzwischen auch auf Mobilgeräten:

Draw Things (iOS/macOS): Die führende App im Apple-Ökosystem. Sie unterstützt FLUX.2 (quantisiert auf 4-bit oder 8-bit) und nutzt die Metal-Schnittstelle effizient.

Local Diffusion (Android): Nutzt stable-diffusion.cpp für die Ausführung auf Android. Die Performance hängt stark vom NPU-Support des Chipsatzes ab.

Hardware-Anforderungen

2026 sind die Anforderungen zweigeteilt: Einsteigermodelle werden effizienter, Spitzenmodelle verlangen mehr denn je.

Wie viel VRAM brauchst du wirklich?

VRAM ist der limitierende Faktor. Hier eine Übersicht:

Modell-Klasse	Beispiel	Min. VRAM (quantisiert)	Empfohlen (nativ)	GPU-Beispiele
High-End	FLUX.2 Dev (32B)	24 GB (FP8/NF4)	> 64 GB	RTX 4090/5090, A6000
Enterprise	Hunyuan 3.0 (80B)	24–48 GB (Offload)	> 160 GB	Multi-GPU, H100 Cluster
Performance	FLUX.2 klein 9B	8–12 GB (GGUF)	20 GB	RTX 4070 Ti, RTX 4080
Mainstream	SD 3.5 Medium / FLUX 4B	6–8 GB	12 GB	RTX 3060 (12 GB), RTX 4060 Ti
Legacy	SDXL / Pony	4–6 GB	8 GB	RTX 3050, GTX 1070

Quantisierung: Große Modelle auf kleinen GPUs

Ohne Quantisierung wären Modelle wie FLUX.2 Dev für die meisten Nutzer unerreichbar.

FP8 (8-bit): Der Standard 2026. Reduziert den Speicherbedarf um rund 50 % bei minimalem Qualitätsverlust. Wird nativ von RTX 40er und 50er Serien unterstützt.

NF4 / GGUF (4-bit): Ursprünglich für Sprachmodelle entwickelt, erlauben diese Formate das Ausführen von 32B-Modellen auf 16-GB- oder sogar 12-GB-Karten. Die Qualität sinkt sichtbar, reicht aber für Hobby-Anwendungen.

NVFP4: Eine neue Kooperation zwischen Nvidia und BFL. Speziell auf Blackwell-GPUs (RTX 50er Serie) bis zu 2,7x schneller.

Cloud-GPUs als Alternative

Wer keine 24-GB-Karte besitzt, fährt mit Cloud-Computing oft günstiger. Eine RTX 4090 bei RunPod kostet rund $0,34 pro Stunde – ideal für längere Sessions oder Training. Serverless-Dienste wie Fal.ai sind besser für sporadische Nutzung oder API-Integration geeignet.

Wichtige Features und Techniken

ControlNet Union Pro 2.0

Das klassische ControlNet brauchte ein separates Modell pro Aufgabe (Canny, Depth, Pose). Im Januar 2026 dominiert ControlNet Union Pro 2.0: ein einziges Modell beherrscht alle Kontrollarten. Trainiert auf 20 Millionen Bildern, liefert es präzise Kontrolle über die Bildkomposition – unverzichtbar für Agenturen, die exakte Layouts einhalten müssen.

Inpainting: Native Funktionen in FLUX.2

Während SDXL noch auf separate Inpainting-Modelle angewiesen war, integriert FLUX.2 Dev Inpainting direkt in das Basismodell. Spezialisierte Flux-Fill-Modelle liefern State-of-the-Art-Ergebnisse beim Entfernen oder Hinzufügen von Objekten – selbst bei komplexen Hintergründen.

LoRA-Training: Eigene Stile und Charaktere erstellen

Eigene Stil- oder Charakter-Modelle trainieren ist 2026 einfacher denn je:

Ostris AI Toolkit ermöglicht FLUX-Training auf GPUs mit 16 GB VRAM. Kohya_ss unterstützt „On-the-fly FP8 Scaling“ und senkt den Speicherbedarf beim Training massiv.

Ein Trend 2026 sind Slider-LoRAs: Statt einen Stil nur an- oder auszuschalten, regelst du Attribute wie Alter, Gewicht oder Chaos stufenlos per Slider.

Dank der starken Basismodelle reichen oft schon 10–15 Bilder, um einen Charakter fotorealistisch zu trainieren. Der Schlüssel ist die Qualität der Beschreibungen – Tools wie JoyCaption nutzen Vision-LLMs, um Trainingsbilder extrem detailliert zu beschreiben.

Stable Diffusion vs. Midjourney, FLUX und Co.

Wie schlagen sich die Modelle im direkten Vergleich?

Kriterium	FLUX.2 Dev	SD 3.5 Large	Hunyuan 3.0	Midjourney v7
Bildqualität	Fotorealismus-Referenz, unübertroffene Hauttexturen	Sehr gut, teils „plastischer“ Look	Exzellent bei komplexen Szenen	Ästhetisch gefällig, weniger kontrollierbar
Prompt-Adhärenz	Extrem hoch, versteht räumliche Anweisungen	Gut, unter FLUX-Niveau	Hervorragend dank 80B Parametern	Gut, ignoriert teils Details
Text-Rendering	Perfekt, JSON-Prompting für exaktes Layout	Sehr gut	Exzellent, auch chinesische Schrift	Gut
Anatomie (Hände)	Sehr zuverlässig (95 %+)	Gut, gelegentliche Fehler	Sehr gut	Gut
Lizenz	Non-Commercial (Dev)	Community License (frei < $1M)	Community License	Proprietär (Abo)

Kurzfassung: FLUX.2 Dev liefert die höchste Qualität, ist aber nicht kommerziell nutzbar. SD 3.5 Large ist der sichere Hafen für kommerzielle Startups. Hunyuan beeindruckt technisch, stellt aber extreme Hardwareanforderungen. Midjourney bleibt der einfachste Einstieg – allerdings ohne lokale Kontrolle.

Eine datenbasierte Entscheidung zwischen den großen Bildtools fällt leichter mit unserem Vergleich der KI-Bildgeneratoren Midjourney vs. OpenAI vs. Leonardo AI.

Kommerzielle Nutzung und Lizenzen

Die Lizenzierung ist 2026 der kritischste Aspekt für professionelle Anwender. Hier musst du genau hinschauen.

Apache 2.0: FLUX.2 klein 4B

FLUX.2 klein 4B steht unter der Apache-2.0-Lizenz. Das bedeutet: uneingeschränkt kommerziell nutzbar, modifizierbar, integrierbar – ohne Lizenzgebühren. Für App-Entwickler und Spiele-Studios ist das der Favorit.

Stability AI Community License

Für SD 3.5 Large gilt: kostenlos für Forschung und nicht-kommerzielle Nutzung. Kommerzielle Nutzung ist frei für Einzelpersonen und Firmen mit weniger als 1 Mio. USD Jahresumsatz. Darüber hinaus brauchst du eine Enterprise-Lizenz.

FLUX Non-Commercial License

FLUX.2 Dev (32B) ist strikt nicht-kommerziell. Keine Bilder für Kunden, keine Nutzung in monetarisierten Apps. Für kommerzielle Zwecke muss eine Lizenz bei BFL erworben werden. Cloud-Anbieter wie Fal.ai führen diese Gebühren oft im Hintergrund ab – prüfe aber immer die AGB deines Anbieters.

Rein strategisch betrachtet ist Stable Diffusion Teil eines größeren Open-Source-Trends. Wenn du abwägen willst, wann offene Gewichte sinnvoller sind als geschlossene APIs, hilft dir die Einordnung in Open Source vs. Closed Source KI.

Was bedeutet das Getty-Images-Urteil für die Branche?

Im Dezember 2025 erhielt Getty Images die Erlaubnis, gegen ein früheres Urteil Berufung einzulegen, das Stability AI in Teilen entlastet hatte. Die Kernfrage: Stellt das Training von KI-Modellen mit urheberrechtlich geschütztem Material ohne Lizenz eine Urheberrechtsverletzung dar?

Sollte Getty 2026 gewinnen, könnte das Geschäftsmodell von Stability AI und anderen Anbietern im UK und potenziell in der EU massiv gefährdet werden. Die Divergenz zur US-Rechtsprechung (Fair Use) würde den Markt fragmentieren. Für Nutzer bedeutet das: Die rechtliche Lage bleibt im Fluss – wer auf Nummer sicher gehen will, setzt auf Modelle mit klarer Lizenz und dokumentiertem Training.

Anwendungsfälle in der Praxis

Game Development: Asset-Pipelines

Spielestudios nutzen FLUX.2 und SD 3.5 längst nicht mehr nur für Konzeptkunst. Ein typischer Workflow: Ein Concept Artist skizziert ein Asset, FLUX.2 generiert per Image-to-Image Variationen, Hunyuan 3D erstellt daraus ein Mesh, Blender-Skripte bereinigen die Topologie. Auch PBR-Materialien (Physically Based Rendering) werden zunehmend generativ erstellt.

Marketing und Produktfotografie

Agenturen ersetzen physische Fotoshootings durch KI-gestützte Workflows. Mit FLUX.2 Multi-Reference lässt sich ein Produktfoto in einen neuen Stil übertragen, ohne dass das Produkt verzerrt wird. Die starke Text-Rendering-Fähigkeit von FLUX ermöglicht zudem Hyper-Personalisierung – etwa dynamisch generierte Bilder mit dem Namen des Betrachters.

Alternativen zu Stable Diffusion

Midjourney – der ästhetischste Weg zur Bildgenerierung, aber proprietär und nur per Abo.
DALL-E – Bildgenerierung von OpenAI, integriert in ChatGPT. Einfach, aber weniger kontrollierbar.
Adobe Firefly – auf lizenzierte Trainingsdaten fokussiert. Sicher für kommerzielle Nutzung, aber eingeschränkt bei Fotorealismus.

Aktuelle Updates und Trends

Konvergenz von Bild und Video

Die Grenze zwischen Bild- und Videogenerierung verschwimmt. Modelle wie LTX-Video (Lightricks) und Hunyuan Video bauen direkt auf den Bildgeneratoren auf. Ein typischer Workflow: ein perfektes FLUX-Bild als Start-Frame für ein 5-Sekunden-Video.

Agentic AI: KI-Agenten steuern Workflows

Statt Nodes in ComfyUI manuell zu verbinden, sagt der Nutzer einem LLM-Agenten: „Baue mir einen Workflow für Inpainting mit ControlNet.“ Der Agent konfiguriert die Software automatisch. Das senkt die Einstiegshürde massiv.

3D-Generierung mit Hunyuan 3D

Mit Hunyuan 3D 3.0 ist die Generierung von 3D-Meshes aus Bildern so gut geworden, dass sie als Basis für Game-Assets taugt. Der Schritt vom „Blob“ zum strukturierten Mesh mit sauberen Texturen ist 2026 weitgehend vollzogen.

FAQ

Ist Stable Diffusion kostenlos? Ja – die Basismodelle (SD 3.5, FLUX.2 klein 4B, SDXL) sind kostenlos herunterladbar. Du zahlst nur für Hardware oder Cloud-Dienste.

Brauche ich eine Nvidia-GPU? Für die lokale Nutzung ist eine Nvidia-GPU mit mindestens 6–8 GB VRAM empfehlenswert. Auf Apple-Geräten funktioniert Draw Things. Alternativ nutzt du Cloud-Dienste ganz ohne eigene GPU.

Welches Modell soll ich als Anfänger nehmen? FLUX.2 klein 4B (GGUF oder NF4) über WebUI Forge. Es läuft auf den meisten aktuellen GPUs und ist kommerziell nutzbar.

Darf ich die generierten Bilder kommerziell nutzen? Kommt auf das Modell an. FLUX.2 klein 4B (Apache 2.0) und SD 3.5 Large (unter 1 Mio. USD Umsatz) erlauben kommerzielle Nutzung. FLUX.2 Dev ist strikt nicht-kommerziell.

Wie lange dauert die Generierung eines Bildes? Mit FLUX.2 klein auf einer RTX 4070: wenige Sekunden. FLUX.2 Dev (32B) auf einer RTX 4090: 10–30 Sekunden je nach Auflösung und Steps. Cloud-APIs liefern oft in unter 5 Sekunden.

Was ist besser – Stable Diffusion oder Midjourney? Midjourney ist einfacher zu bedienen und liefert ästhetisch konsistente Ergebnisse. Stable Diffusion und FLUX bieten dafür volle Kontrolle, lokale Nutzung und Anpassbarkeit. Für Profis, die eigene Modelle trainieren oder Workflows automatisieren wollen, führt kein Weg an Open Source vorbei.

Fazit + Nächste Schritte

Das Open-Source-Ökosystem für Bildgenerierung ist im Januar 2026 vielfältiger und leistungsfähiger als je zuvor. FLUX.2 hat die technologische Führung übernommen, SD 3.5 bleibt eine solide kommerzielle Option, und Hunyuan zeigt, was mit extremer Skalierung möglich ist.

Für deinen Einstieg:

Schnell testen: Nutze Draw Things (iOS) oder Web-Plattformen wie Civitai, um FLUX kostenlos auszuprobieren.

Mit eigener GPU starten: Installiere WebUI Forge und lade das FLUX.2 klein 4B Modell herunter.

Professionell arbeiten: Installiere ComfyUI, besorge dir einen API-Key bei Fal.ai für FLUX.2 Pro – oder investiere in eine RTX 4090/5090 für die lokale Nutzung von FLUX.2 Dev.

Die Technik entwickelt sich rasant weiter. Bleib dran – wir halten diesen Artikel aktuell.