Generer des images avec l'IA : Midjourney, DALL-E, Stable Diffusion

Credit : Logo officiel

Generer des images avec l'IA : Midjourney, DALL-E, Stable Diffusion

Dylan D. — Agent Support Technique Serveur IA 1945 mots 10 min de lecture

Le client qui veut des visuels et n'a pas le budget graphiste

L'an dernier, un artisan boulanger me demande de refondre son site et veut une vingtaine de visuels d'ambiance pour les categories de produits. Budget photographe : zero. Budget banque d'images : 0 aussi parce que "toutes les images se ressemblent". Du coup je me suis lance serieusement dans la generation d'images IA et j'ai teste les trois gros du marche en parallele pendant trois mois. Voici le comparatif honnete, sans hype, avec les vrais cas d'usage et les vraies limites.

Les trois acteurs principaux en 2026 :

Midjourney : le plus beau, point

Midjourney v7 est sorti debut 2026 et la qualite photo est devenue bluffante. C'est l'outil que je sors quand le client veut un "vrai" visuel de magazine, atmosphere et lumiere parfaites.

L'acces se fait via Discord ou la nouvelle web app payante (10 a 60 USD/mois selon le plan). Un bon prompt suit cette structure :

/imagine a French bakery storefront at golden hour, warm lighting,
shot on 35mm film, shallow depth of field, cinematic composition,
worn wooden door, vintage signage --ar 16:9 --v 7 --s 250

Les briques d'un prompt efficace :

  1. Sujet principal et secondaires ("a French bakery, baguettes in window")
  2. Style : photo, illustration, oil painting, watercolor, 3D render
  3. Eclairage : golden hour, blue hour, studio lighting, neon, candlelight
  4. Technique : 35mm film, macro, aerial view, isometric, tilt-shift
  5. Reference d'artiste ou de cinema : in the style of Wes Anderson, Roger Deakins cinematography
  6. Parametres Midjourney : --ar, --v, --s, --c, --no

Les parametres utiles :

--ar 16:9      # Format paysage (web hero)
--ar 9:16      # Portrait pour stories Instagram
--ar 4:5       # Format vertical pour feed Instagram
--ar 1:1       # Carre
--s 750        # Stylization eleve (plus libre artistiquement)
--s 50         # Stylization bas (plus fidele au prompt)
--c 30         # Chaos eleve (plus de variete entre les 4 outputs)
--no text      # Exclut le texte
--cref URL     # Reference d'un personnage (pour la coherence entre images)
--sref URL     # Reference de style

Les commandes utiles : /blend pour fusionner plusieurs images, /describe pour obtenir des prompts a partir d'une image existante (pratique pour matcher un style client), /tune pour creer un "style" personnalise reutilisable.

DALL-E 3 : le plus obeissant

DALL-E 3 est integre nativement dans ChatGPT (Plus et Team) et accessible via l'API OpenAI. Sa force : il comprend exactement ce que vous demandez. Pas besoin de jongler avec des poids ou des artistes-references, vous decrivez en langage naturel.

Via l'API Python :

from openai import OpenAI

client = OpenAI(api_key="sk-...")

response = client.images.generate(
    model="dall-e-3",
    prompt="Logo minimaliste pour une boulangerie artisanale, fond blanc, style vectoriel epure, couleurs chaudes terre cuite et dore, sans texte",
    size="1024x1024",
    quality="hd",
    style="natural",
    n=1
)

print(response.data[0].url)

Via curl pour tester rapidement :

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "dall-e-3",
    "prompt": "vue aerienne d'un marche provencal",
    "size": "1792x1024",
    "quality": "hd"
  }'

Ses points forts :

Ses faiblesses : moins esthetique "hors du commun" que Midjourney, et le cout par image (0,04 a 0,12 USD selon la qualite et la taille) peut grimper.

Stable Diffusion : le couteau suisse open source

Stable Diffusion (Stability AI, dernieres versions SD 3.5 et SDXL) est libre et tourne sur votre machine. C'est mon choix quand un client refuse que ses prompts partent dans le cloud, ou quand je veux entrainer un modele specifique a son catalogue.

Deux fronts populaires :

ComfyUI (workflow node-based)

git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt
python main.py --listen 0.0.0.0

ComfyUI excelle pour les pipelines complexes : in-painting + upscale + ControlNet en une chaine reproductible. La courbe d'apprentissage est rude mais les resultats valent le coup.

Automatic1111 (interface web simple)

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
./webui.sh --listen --xformers

A1111 est plus accessible pour debuter. Vous installez un modele dans models/Stable-diffusion/, vous tapez votre prompt, ca genere. Rejoignez Civitai pour telecharger des modeles thematiques (photoreal, anime, archviz, produit packshot).

Configuration GPU

Les GPU AMD marchent via ROCm sous Linux mais avec moins de fonctionnalites. Apple Silicon (M2, M3, M4) tourne via Metal mais 2 a 3x plus lent qu'une NVIDIA equivalente.

LoRA et fine-tuning

L'avantage cle de Stable Diffusion : entrainer un LoRA sur 15-30 photos de votre produit ou personnage et generer des variations infinies. Pour la boulangerie cliente, j'ai entraine un LoRA sur ses 25 produits phares et je peux maintenant generer des mises en situation marketing en 30 secondes.

Comparatif rapide

Critere Midjourney v7 DALL-E 3 Stable Diffusion
Prix 10-120 USD/mois 0,04-0,12 USD/img Gratuit (hors GPU)
Qualite esthetique Excellente Tres bonne Variable selon modele
Suivi du prompt Bon Excellent Bon avec ControlNet
Texte dans images Correct Excellent Faible
Confidentialite Cloud (publique par defaut) Cloud OpenAI Local
Personnalisation Style refs limitees Quasi nulle Totale (LoRA, ControlNet)
Facilite d'usage Simple Tres simple Technique
API Oui (beta) Oui, mature Oui (auto-hostee)
Droits commerciaux Inclus payant Inclus A verifier par modele

Cas d'usage concrets

Workflow professionnel : on ne genere pas, on edite

Les IA ne sortent pas une image "finie". Mon workflow type pour un visuel client :

# 1. Generer 4-8 candidats sur Midjourney avec --c 25
# 2. Selectionner le meilleur, faire une variation /vary (subtle)
# 3. Upscale en 4096px /upscale (subtle)
# 4. Telecharger et passer dans Photoshop ou GIMP
# 5. Retouches : mains, texte, defauts, recadrage
# 6. Export WebP optimise
cwebp -q 82 visuel-final.png -o visuel-final.webp

L'erreur de debutant c'est de prendre la premiere image qui sort. Aucun pro ne fait ca. Comptez 5 a 15 minutes par visuel final.

Aspects juridiques en 2026

Le cadre legal autour des images generees par IA evolue vite. En France et au sein de l'UE, plusieurs points a connaitre :

Pour la traceability, plusieurs outils integrent maintenant des metadonnees C2PA dans les images generees (provenance cryptographique). Verifiez si votre flow de production conserve ces metadonnees ou les supprime au reencodage.

Optimiser le cout sur l'API

Si vous integrez DALL-E ou Stable Diffusion dans une app, le cout grimpe vite. Quelques techniques :

# Cache des images generees par hash du prompt
import hashlib
import os

def get_or_generate(prompt, model="dall-e-3"):
    key = hashlib.sha256(prompt.encode()).hexdigest()
    cached = f"./cache/{key}.png"
    if os.path.exists(cached):
        return cached
    # Sinon generer et cacher
    response = client.images.generate(model=model, prompt=prompt)
    # ... telecharger et sauvegarder en cached
    return cached

Pour un volume important, Stable Diffusion auto-heberge sur un VPS GPU revient moins cher des le 2000e image par mois. Comparez avec le pay-per-use OpenAI/Stability avant de choisir.

Erreurs courantes et leur fix

Mains a 6 doigts ou pieds tordus. Specialite des modeles diffusion. Ajoutez "detailed hands, anatomically correct" dans le prompt et utilisez la fonction in-paint pour repeindre uniquement la main. Sur Midjourney, --no extra fingers, deformed hands aide aussi.

Le texte dans l'image est illisible. Sauf DALL-E 3, tous les modeles galerent. Solution : generer l'image sans texte et ajouter le texte au montage dans Figma, Photoshop ou Affinity. Vous gardez le controle typographique en plus.

Impossible de reproduire deux fois le meme personnage. Sans seed fixe et --cref (Midjourney) ou un LoRA dedie (Stable Diffusion), c'est aleatoire. Pour un personnage recurrent, entrainez un LoRA sur 10-20 photos. Ou achetez un Character Consistency tool sur Midjourney avec --cref.

Style trop generique "AI looking". Vous etes trop vague. Au lieu de "a beautiful landscape", soyez specifique : "misty Bretagne coast at dawn, low fog over granite rocks, shot on Hasselblad medium format, kodak portra 400 film simulation".

L'API OpenAI renvoie 400 "safety system". DALL-E refuse les contenus juges sensibles (politique, violence, marques deposees). Reformulez ou utilisez Stable Diffusion en local sans guardrails (mais respectez la legislation de votre pays).

Pour aller plus loin

Le bon outil pour le bon usage

Il n'y a pas "un meilleur generateur d'images IA". Il y a Midjourney quand vous voulez de l'esthetique sans effort, DALL-E quand vous voulez une instruction precise et du texte propre, Stable Diffusion quand vous voulez du controle total et du privacy-first. Mon conseil : abonnement Midjourney (10 USD le plan basic) + acces ChatGPT Plus (20 USD inclut DALL-E 3) + Stable Diffusion en local sur une machine 12 Go VRAM. Avec ce trio, vous couvrez 100 % des besoins d'une agence ou d'un freelance.

MAJ 2026 : Midjourney v7 photoreal a fait un bond enorme et DALL-E 4 est annonce chez OpenAI pour fin 2026. Stability AI a sorti SD 3.5 Large qui rattrape une bonne partie de l'ecart sur l'esthetique. La concurrence est saine et les progres sont rapides : ce qui parait impossible aujourd'hui sera trivial dans 6 mois.

# Articles similaires

Sur les memes sujets et plus loin