Credit : Logo officiel
Generer des images avec l'IA : Midjourney, DALL-E, Stable Diffusion
Le client qui veut des visuels et n'a pas le budget graphiste
L'an dernier, un artisan boulanger me demande de refondre son site et veut une vingtaine de visuels d'ambiance pour les categories de produits. Budget photographe : zero. Budget banque d'images : 0 aussi parce que "toutes les images se ressemblent". Du coup je me suis lance serieusement dans la generation d'images IA et j'ai teste les trois gros du marche en parallele pendant trois mois. Voici le comparatif honnete, sans hype, avec les vrais cas d'usage et les vraies limites.
Les trois acteurs principaux en 2026 :
- Midjourney : la qualite esthetique au sommet, modele proprietaire, acces via Discord puis web app
- DALL-E 3 (OpenAI) : excellent suivi de prompt, integre dans ChatGPT et accessible via l'API
- Stable Diffusion : open source, tourne sur votre machine, totalement personnalisable
Midjourney : le plus beau, point
Midjourney v7 est sorti debut 2026 et la qualite photo est devenue bluffante. C'est l'outil que je sors quand le client veut un "vrai" visuel de magazine, atmosphere et lumiere parfaites.
L'acces se fait via Discord ou la nouvelle web app payante (10 a 60 USD/mois selon le plan). Un bon prompt suit cette structure :
/imagine a French bakery storefront at golden hour, warm lighting,
shot on 35mm film, shallow depth of field, cinematic composition,
worn wooden door, vintage signage --ar 16:9 --v 7 --s 250
Les briques d'un prompt efficace :
- Sujet principal et secondaires ("a French bakery, baguettes in window")
- Style : photo, illustration, oil painting, watercolor, 3D render
- Eclairage : golden hour, blue hour, studio lighting, neon, candlelight
- Technique : 35mm film, macro, aerial view, isometric, tilt-shift
- Reference d'artiste ou de cinema : in the style of Wes Anderson, Roger Deakins cinematography
- Parametres Midjourney :
--ar,--v,--s,--c,--no
Les parametres utiles :
--ar 16:9 # Format paysage (web hero)
--ar 9:16 # Portrait pour stories Instagram
--ar 4:5 # Format vertical pour feed Instagram
--ar 1:1 # Carre
--s 750 # Stylization eleve (plus libre artistiquement)
--s 50 # Stylization bas (plus fidele au prompt)
--c 30 # Chaos eleve (plus de variete entre les 4 outputs)
--no text # Exclut le texte
--cref URL # Reference d'un personnage (pour la coherence entre images)
--sref URL # Reference de style
Les commandes utiles : /blend pour fusionner plusieurs images, /describe pour obtenir des prompts a partir d'une image existante (pratique pour matcher un style client), /tune pour creer un "style" personnalise reutilisable.
DALL-E 3 : le plus obeissant
DALL-E 3 est integre nativement dans ChatGPT (Plus et Team) et accessible via l'API OpenAI. Sa force : il comprend exactement ce que vous demandez. Pas besoin de jongler avec des poids ou des artistes-references, vous decrivez en langage naturel.
Via l'API Python :
from openai import OpenAI
client = OpenAI(api_key="sk-...")
response = client.images.generate(
model="dall-e-3",
prompt="Logo minimaliste pour une boulangerie artisanale, fond blanc, style vectoriel epure, couleurs chaudes terre cuite et dore, sans texte",
size="1024x1024",
quality="hd",
style="natural",
n=1
)
print(response.data[0].url)
Via curl pour tester rapidement :
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "dall-e-3",
"prompt": "vue aerienne d'un marche provencal",
"size": "1792x1024",
"quality": "hd"
}'
Ses points forts :
- Texte dans les images : DALL-E 3 sait ecrire correctement (logos, affiches, slogans). Midjourney v7 s'est ameliore mais reste en dessous.
- Comprehension fine de prompts longs et complexes
- Integration ChatGPT : vous discutez et iterez en langage naturel
- Guardrails de securite et de droit d'auteur appliques par OpenAI
Ses faiblesses : moins esthetique "hors du commun" que Midjourney, et le cout par image (0,04 a 0,12 USD selon la qualite et la taille) peut grimper.
Stable Diffusion : le couteau suisse open source
Stable Diffusion (Stability AI, dernieres versions SD 3.5 et SDXL) est libre et tourne sur votre machine. C'est mon choix quand un client refuse que ses prompts partent dans le cloud, ou quand je veux entrainer un modele specifique a son catalogue.
Deux fronts populaires :
ComfyUI (workflow node-based)
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt
python main.py --listen 0.0.0.0
ComfyUI excelle pour les pipelines complexes : in-painting + upscale + ControlNet en une chaine reproductible. La courbe d'apprentissage est rude mais les resultats valent le coup.
Automatic1111 (interface web simple)
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
./webui.sh --listen --xformers
A1111 est plus accessible pour debuter. Vous installez un modele dans models/Stable-diffusion/, vous tapez votre prompt, ca genere. Rejoignez Civitai pour telecharger des modeles thematiques (photoreal, anime, archviz, produit packshot).
Configuration GPU
- Minimum : NVIDIA 8 Go VRAM (RTX 3060 Ti, 4060)
- Confort : 12 Go VRAM (RTX 3060 12 Go, 4070)
- Pro : 24 Go VRAM (RTX 4090, 3090)
Les GPU AMD marchent via ROCm sous Linux mais avec moins de fonctionnalites. Apple Silicon (M2, M3, M4) tourne via Metal mais 2 a 3x plus lent qu'une NVIDIA equivalente.
LoRA et fine-tuning
L'avantage cle de Stable Diffusion : entrainer un LoRA sur 15-30 photos de votre produit ou personnage et generer des variations infinies. Pour la boulangerie cliente, j'ai entraine un LoRA sur ses 25 produits phares et je peux maintenant generer des mises en situation marketing en 30 secondes.
Comparatif rapide
| Critere | Midjourney v7 | DALL-E 3 | Stable Diffusion |
|---|---|---|---|
| Prix | 10-120 USD/mois | 0,04-0,12 USD/img | Gratuit (hors GPU) |
| Qualite esthetique | Excellente | Tres bonne | Variable selon modele |
| Suivi du prompt | Bon | Excellent | Bon avec ControlNet |
| Texte dans images | Correct | Excellent | Faible |
| Confidentialite | Cloud (publique par defaut) | Cloud OpenAI | Local |
| Personnalisation | Style refs limitees | Quasi nulle | Totale (LoRA, ControlNet) |
| Facilite d'usage | Simple | Tres simple | Technique |
| API | Oui (beta) | Oui, mature | Oui (auto-hostee) |
| Droits commerciaux | Inclus payant | Inclus | A verifier par modele |
Cas d'usage concrets
- Article de blog : Midjourney pour des visuels d'ambiance accrocheurs en 16:9
- Reseaux sociaux : DALL-E pour les carrousels avec texte integre, Midjourney pour les stories
- E-commerce : DALL-E pour les mises en situation produit, Stable Diffusion + LoRA pour les vrais produits du catalogue
- Prototypage UI/UX : Stable Diffusion avec un modele Designer ou des references Figma
- Branding et logo : DALL-E 3 pour le texte propre, ou Midjourney + retouche manuelle
- Formation et experimentation : Stable Diffusion en local pour tester sans cramer un budget
- Architecture et archviz : Stable Diffusion + ControlNet (depth, canny) pour controler la composition
Workflow professionnel : on ne genere pas, on edite
Les IA ne sortent pas une image "finie". Mon workflow type pour un visuel client :
# 1. Generer 4-8 candidats sur Midjourney avec --c 25
# 2. Selectionner le meilleur, faire une variation /vary (subtle)
# 3. Upscale en 4096px /upscale (subtle)
# 4. Telecharger et passer dans Photoshop ou GIMP
# 5. Retouches : mains, texte, defauts, recadrage
# 6. Export WebP optimise
cwebp -q 82 visuel-final.png -o visuel-final.webp
L'erreur de debutant c'est de prendre la premiere image qui sort. Aucun pro ne fait ca. Comptez 5 a 15 minutes par visuel final.
Aspects juridiques en 2026
Le cadre legal autour des images generees par IA evolue vite. En France et au sein de l'UE, plusieurs points a connaitre :
- Droit d'auteur sur l'image generee : les outputs n'ont generalement pas de protection au droit d'auteur dans la plupart des juridictions, car l'auteur n'est pas humain. Vous pouvez les utiliser commercialement (selon les TOS de l'outil), mais un concurrent peut aussi reutiliser librement votre image.
- Donnees d'entrainement : les modeles ont ete entraines sur des images parfois protegees. Plusieurs proces sont en cours (Getty contre Stability AI). En attendant les decisions, evitez les prompts qui imitent explicitement un artiste vivant identifiable.
- AI Act europeen : impose le marquage des contenus generes par IA dans certains contextes (medias, communication politique). Pour un site marchand classique, pas d'obligation pour l'instant.
- Personnages reels : ne generez pas d'images de personnes reelles identifiables sans leur consentement (droit a l'image).
- Marques deposees : ne generez pas de logos ou packaging imitant des marques existantes pour usage commercial.
Pour la traceability, plusieurs outils integrent maintenant des metadonnees C2PA dans les images generees (provenance cryptographique). Verifiez si votre flow de production conserve ces metadonnees ou les supprime au reencodage.
Optimiser le cout sur l'API
Si vous integrez DALL-E ou Stable Diffusion dans une app, le cout grimpe vite. Quelques techniques :
# Cache des images generees par hash du prompt
import hashlib
import os
def get_or_generate(prompt, model="dall-e-3"):
key = hashlib.sha256(prompt.encode()).hexdigest()
cached = f"./cache/{key}.png"
if os.path.exists(cached):
return cached
# Sinon generer et cacher
response = client.images.generate(model=model, prompt=prompt)
# ... telecharger et sauvegarder en cached
return cached
Pour un volume important, Stable Diffusion auto-heberge sur un VPS GPU revient moins cher des le 2000e image par mois. Comparez avec le pay-per-use OpenAI/Stability avant de choisir.
Erreurs courantes et leur fix
Mains a 6 doigts ou pieds tordus. Specialite des modeles diffusion. Ajoutez "detailed hands, anatomically correct" dans le prompt et utilisez la fonction in-paint pour repeindre uniquement la main. Sur Midjourney, --no extra fingers, deformed hands aide aussi.
Le texte dans l'image est illisible. Sauf DALL-E 3, tous les modeles galerent. Solution : generer l'image sans texte et ajouter le texte au montage dans Figma, Photoshop ou Affinity. Vous gardez le controle typographique en plus.
Impossible de reproduire deux fois le meme personnage. Sans seed fixe et --cref (Midjourney) ou un LoRA dedie (Stable Diffusion), c'est aleatoire. Pour un personnage recurrent, entrainez un LoRA sur 10-20 photos. Ou achetez un Character Consistency tool sur Midjourney avec --cref.
Style trop generique "AI looking". Vous etes trop vague. Au lieu de "a beautiful landscape", soyez specifique : "misty Bretagne coast at dawn, low fog over granite rocks, shot on Hasselblad medium format, kodak portra 400 film simulation".
L'API OpenAI renvoie 400 "safety system". DALL-E refuse les contenus juges sensibles (politique, violence, marques deposees). Reformulez ou utilisez Stable Diffusion en local sans guardrails (mais respectez la legislation de votre pays).
Pour aller plus loin
- ChatGPT vs Claude : quel assistant IA pour coder ?
- Utiliser Claude AI pour generer du code propre
- IA et SEO : outils et strategies
- Automatiser ses workflows avec l'IA
- L'IA pour automatiser les taches quotidiennes
Le bon outil pour le bon usage
Il n'y a pas "un meilleur generateur d'images IA". Il y a Midjourney quand vous voulez de l'esthetique sans effort, DALL-E quand vous voulez une instruction precise et du texte propre, Stable Diffusion quand vous voulez du controle total et du privacy-first. Mon conseil : abonnement Midjourney (10 USD le plan basic) + acces ChatGPT Plus (20 USD inclut DALL-E 3) + Stable Diffusion en local sur une machine 12 Go VRAM. Avec ce trio, vous couvrez 100 % des besoins d'une agence ou d'un freelance.
MAJ 2026 : Midjourney v7 photoreal a fait un bond enorme et DALL-E 4 est annonce chez OpenAI pour fin 2026. Stability AI a sorti SD 3.5 Large qui rattrape une bonne partie de l'ecart sur l'esthetique. La concurrence est saine et les progres sont rapides : ce qui parait impossible aujourd'hui sera trivial dans 6 mois.