Credit : Logo officiel

Generer des images avec l'IA : Midjourney, DALL-E, Stable Diffusion

Dylan D. — Agent Support Technique Serveur 27 mars 2026 IA 1945 mots 10 min de lecture

Le client qui veut des visuels et n'a pas le budget graphiste

L'an dernier, un artisan boulanger me demande de refondre son site et veut une vingtaine de visuels d'ambiance pour les categories de produits. Budget photographe : zero. Budget banque d'images : 0 aussi parce que "toutes les images se ressemblent". Du coup je me suis lance serieusement dans la generation d'images IA et j'ai teste les trois gros du marche en parallele pendant trois mois. Voici le comparatif honnete, sans hype, avec les vrais cas d'usage et les vraies limites.

Les trois acteurs principaux en 2026 :

Midjourney : la qualite esthetique au sommet, modele proprietaire, acces via Discord puis web app
DALL-E 3 (OpenAI) : excellent suivi de prompt, integre dans ChatGPT et accessible via l'API
Stable Diffusion : open source, tourne sur votre machine, totalement personnalisable

Midjourney : le plus beau, point

Midjourney v7 est sorti debut 2026 et la qualite photo est devenue bluffante. C'est l'outil que je sors quand le client veut un "vrai" visuel de magazine, atmosphere et lumiere parfaites.

L'acces se fait via Discord ou la nouvelle web app payante (10 a 60 USD/mois selon le plan). Un bon prompt suit cette structure :

/imagine a French bakery storefront at golden hour, warm lighting,
shot on 35mm film, shallow depth of field, cinematic composition,
worn wooden door, vintage signage --ar 16:9 --v 7 --s 250

Les briques d'un prompt efficace :

Sujet principal et secondaires ("a French bakery, baguettes in window")
Style : photo, illustration, oil painting, watercolor, 3D render
Eclairage : golden hour, blue hour, studio lighting, neon, candlelight
Technique : 35mm film, macro, aerial view, isometric, tilt-shift
Reference d'artiste ou de cinema : in the style of Wes Anderson, Roger Deakins cinematography
Parametres Midjourney : --ar, --v, --s, --c, --no

Les parametres utiles :

--ar 16:9      # Format paysage (web hero)
--ar 9:16      # Portrait pour stories Instagram
--ar 4:5       # Format vertical pour feed Instagram
--ar 1:1       # Carre
--s 750        # Stylization eleve (plus libre artistiquement)
--s 50         # Stylization bas (plus fidele au prompt)
--c 30         # Chaos eleve (plus de variete entre les 4 outputs)
--no text      # Exclut le texte
--cref URL     # Reference d'un personnage (pour la coherence entre images)
--sref URL     # Reference de style

Les commandes utiles : /blend pour fusionner plusieurs images, /describe pour obtenir des prompts a partir d'une image existante (pratique pour matcher un style client), /tune pour creer un "style" personnalise reutilisable.

DALL-E 3 : le plus obeissant

DALL-E 3 est integre nativement dans ChatGPT (Plus et Team) et accessible via l'API OpenAI. Sa force : il comprend exactement ce que vous demandez. Pas besoin de jongler avec des poids ou des artistes-references, vous decrivez en langage naturel.

Via l'API Python :

from openai import OpenAI

client = OpenAI(api_key="sk-...")

response = client.images.generate(
    model="dall-e-3",
    prompt="Logo minimaliste pour une boulangerie artisanale, fond blanc, style vectoriel epure, couleurs chaudes terre cuite et dore, sans texte",
    size="1024x1024",
    quality="hd",
    style="natural",
    n=1
)

print(response.data[0].url)

Via curl pour tester rapidement :

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "dall-e-3",
    "prompt": "vue aerienne d'un marche provencal",
    "size": "1792x1024",
    "quality": "hd"
  }'

Ses points forts :

Texte dans les images : DALL-E 3 sait ecrire correctement (logos, affiches, slogans). Midjourney v7 s'est ameliore mais reste en dessous.
Comprehension fine de prompts longs et complexes
Integration ChatGPT : vous discutez et iterez en langage naturel
Guardrails de securite et de droit d'auteur appliques par OpenAI

Ses faiblesses : moins esthetique "hors du commun" que Midjourney, et le cout par image (0,04 a 0,12 USD selon la qualite et la taille) peut grimper.

Stable Diffusion : le couteau suisse open source

Stable Diffusion (Stability AI, dernieres versions SD 3.5 et SDXL) est libre et tourne sur votre machine. C'est mon choix quand un client refuse que ses prompts partent dans le cloud, ou quand je veux entrainer un modele specifique a son catalogue.

Deux fronts populaires :

ComfyUI (workflow node-based)

git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt
python main.py --listen 0.0.0.0

ComfyUI excelle pour les pipelines complexes : in-painting + upscale + ControlNet en une chaine reproductible. La courbe d'apprentissage est rude mais les resultats valent le coup.

Automatic1111 (interface web simple)

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
./webui.sh --listen --xformers

A1111 est plus accessible pour debuter. Vous installez un modele dans models/Stable-diffusion/, vous tapez votre prompt, ca genere. Rejoignez Civitai pour telecharger des modeles thematiques (photoreal, anime, archviz, produit packshot).

Configuration GPU

Minimum : NVIDIA 8 Go VRAM (RTX 3060 Ti, 4060)
Confort : 12 Go VRAM (RTX 3060 12 Go, 4070)
Pro : 24 Go VRAM (RTX 4090, 3090)

Les GPU AMD marchent via ROCm sous Linux mais avec moins de fonctionnalites. Apple Silicon (M2, M3, M4) tourne via Metal mais 2 a 3x plus lent qu'une NVIDIA equivalente.

LoRA et fine-tuning

L'avantage cle de Stable Diffusion : entrainer un LoRA sur 15-30 photos de votre produit ou personnage et generer des variations infinies. Pour la boulangerie cliente, j'ai entraine un LoRA sur ses 25 produits phares et je peux maintenant generer des mises en situation marketing en 30 secondes.

Comparatif rapide

Critere	Midjourney v7	DALL-E 3	Stable Diffusion
Prix	10-120 USD/mois	0,04-0,12 USD/img	Gratuit (hors GPU)
Qualite esthetique	Excellente	Tres bonne	Variable selon modele
Suivi du prompt	Bon	Excellent	Bon avec ControlNet
Texte dans images	Correct	Excellent	Faible
Confidentialite	Cloud (publique par defaut)	Cloud OpenAI	Local
Personnalisation	Style refs limitees	Quasi nulle	Totale (LoRA, ControlNet)
Facilite d'usage	Simple	Tres simple	Technique
API	Oui (beta)	Oui, mature	Oui (auto-hostee)
Droits commerciaux	Inclus payant	Inclus	A verifier par modele

Cas d'usage concrets

Article de blog : Midjourney pour des visuels d'ambiance accrocheurs en 16:9
Reseaux sociaux : DALL-E pour les carrousels avec texte integre, Midjourney pour les stories
E-commerce : DALL-E pour les mises en situation produit, Stable Diffusion + LoRA pour les vrais produits du catalogue
Prototypage UI/UX : Stable Diffusion avec un modele Designer ou des references Figma
Branding et logo : DALL-E 3 pour le texte propre, ou Midjourney + retouche manuelle
Formation et experimentation : Stable Diffusion en local pour tester sans cramer un budget
Architecture et archviz : Stable Diffusion + ControlNet (depth, canny) pour controler la composition

Workflow professionnel : on ne genere pas, on edite

Les IA ne sortent pas une image "finie". Mon workflow type pour un visuel client :

# 1. Generer 4-8 candidats sur Midjourney avec --c 25
# 2. Selectionner le meilleur, faire une variation /vary (subtle)
# 3. Upscale en 4096px /upscale (subtle)
# 4. Telecharger et passer dans Photoshop ou GIMP
# 5. Retouches : mains, texte, defauts, recadrage
# 6. Export WebP optimise
cwebp -q 82 visuel-final.png -o visuel-final.webp

L'erreur de debutant c'est de prendre la premiere image qui sort. Aucun pro ne fait ca. Comptez 5 a 15 minutes par visuel final.

Aspects juridiques en 2026

Le cadre legal autour des images generees par IA evolue vite. En France et au sein de l'UE, plusieurs points a connaitre :

Droit d'auteur sur l'image generee : les outputs n'ont generalement pas de protection au droit d'auteur dans la plupart des juridictions, car l'auteur n'est pas humain. Vous pouvez les utiliser commercialement (selon les TOS de l'outil), mais un concurrent peut aussi reutiliser librement votre image.
Donnees d'entrainement : les modeles ont ete entraines sur des images parfois protegees. Plusieurs proces sont en cours (Getty contre Stability AI). En attendant les decisions, evitez les prompts qui imitent explicitement un artiste vivant identifiable.
AI Act europeen : impose le marquage des contenus generes par IA dans certains contextes (medias, communication politique). Pour un site marchand classique, pas d'obligation pour l'instant.
Personnages reels : ne generez pas d'images de personnes reelles identifiables sans leur consentement (droit a l'image).
Marques deposees : ne generez pas de logos ou packaging imitant des marques existantes pour usage commercial.

Pour la traceability, plusieurs outils integrent maintenant des metadonnees C2PA dans les images generees (provenance cryptographique). Verifiez si votre flow de production conserve ces metadonnees ou les supprime au reencodage.

Optimiser le cout sur l'API

Si vous integrez DALL-E ou Stable Diffusion dans une app, le cout grimpe vite. Quelques techniques :

# Cache des images generees par hash du prompt
import hashlib
import os

def get_or_generate(prompt, model="dall-e-3"):
    key = hashlib.sha256(prompt.encode()).hexdigest()
    cached = f"./cache/{key}.png"
    if os.path.exists(cached):
        return cached
    # Sinon generer et cacher
    response = client.images.generate(model=model, prompt=prompt)
    # ... telecharger et sauvegarder en cached
    return cached

Pour un volume important, Stable Diffusion auto-heberge sur un VPS GPU revient moins cher des le 2000e image par mois. Comparez avec le pay-per-use OpenAI/Stability avant de choisir.

Erreurs courantes et leur fix

Mains a 6 doigts ou pieds tordus. Specialite des modeles diffusion. Ajoutez "detailed hands, anatomically correct" dans le prompt et utilisez la fonction in-paint pour repeindre uniquement la main. Sur Midjourney, --no extra fingers, deformed hands aide aussi.

Le texte dans l'image est illisible. Sauf DALL-E 3, tous les modeles galerent. Solution : generer l'image sans texte et ajouter le texte au montage dans Figma, Photoshop ou Affinity. Vous gardez le controle typographique en plus.

Impossible de reproduire deux fois le meme personnage. Sans seed fixe et --cref (Midjourney) ou un LoRA dedie (Stable Diffusion), c'est aleatoire. Pour un personnage recurrent, entrainez un LoRA sur 10-20 photos. Ou achetez un Character Consistency tool sur Midjourney avec --cref.

Style trop generique "AI looking". Vous etes trop vague. Au lieu de "a beautiful landscape", soyez specifique : "misty Bretagne coast at dawn, low fog over granite rocks, shot on Hasselblad medium format, kodak portra 400 film simulation".

L'API OpenAI renvoie 400 "safety system". DALL-E refuse les contenus juges sensibles (politique, violence, marques deposees). Reformulez ou utilisez Stable Diffusion en local sans guardrails (mais respectez la legislation de votre pays).

Pour aller plus loin

Le bon outil pour le bon usage

Il n'y a pas "un meilleur generateur d'images IA". Il y a Midjourney quand vous voulez de l'esthetique sans effort, DALL-E quand vous voulez une instruction precise et du texte propre, Stable Diffusion quand vous voulez du controle total et du privacy-first. Mon conseil : abonnement Midjourney (10 USD le plan basic) + acces ChatGPT Plus (20 USD inclut DALL-E 3) + Stable Diffusion en local sur une machine 12 Go VRAM. Avec ce trio, vous couvrez 100 % des besoins d'une agence ou d'un freelance.

MAJ 2026 : Midjourney v7 photoreal a fait un bond enorme et DALL-E 4 est annonce chez OpenAI pour fin 2026. Stability AI a sorti SD 3.5 Large qui rattrape une bonne partie de l'ecart sur l'esthetique. La concurrence est saine et les progres sont rapides : ce qui parait impossible aujourd'hui sera trivial dans 6 mois.

Generer des images avec l'IA : Midjourney, DALL-E, Stable Diffusion

Le client qui veut des visuels et n'a pas le budget graphiste

Midjourney : le plus beau, point

DALL-E 3 : le plus obeissant

Stable Diffusion : le couteau suisse open source

ComfyUI (workflow node-based)

Automatic1111 (interface web simple)

Configuration GPU

LoRA et fine-tuning

Comparatif rapide

Cas d'usage concrets

Workflow professionnel : on ne genere pas, on edite

Aspects juridiques en 2026

Optimiser le cout sur l'API

Erreurs courantes et leur fix

Pour aller plus loin

Le bon outil pour le bon usage

# Articles similaires

Utiliser Claude AI pour generer du code propre

L'IA au service du SEO : outils et strategies

Comment utiliser l'IA pour automatiser ses tâches quotidiennes

ChatGPT vs Claude : quel assistant IA choisir pour coder

Generer des images avec l'IA : Midjourney, DALL-E, Stable Diffusion

Le client qui veut des visuels et n'a pas le budget graphiste

Midjourney : le plus beau, point

DALL-E 3 : le plus obeissant

Stable Diffusion : le couteau suisse open source

ComfyUI (workflow node-based)

Automatic1111 (interface web simple)

Configuration GPU

LoRA et fine-tuning

Comparatif rapide

Cas d'usage concrets

Workflow professionnel : on ne genere pas, on edite

Aspects juridiques en 2026

Optimiser le cout sur l'API

Erreurs courantes et leur fix

Pour aller plus loin

Le bon outil pour le bon usage

# Articles similaires

Utiliser Claude AI pour generer du code propre

L'IA au service du SEO : outils et strategies

Comment utiliser l'IA pour automatiser ses tâches quotidiennes

ChatGPT vs Claude : quel assistant IA choisir pour coder

// newsletter