Image-to-image : la cascade de modèles derrière l'essayage virtuel

Faire « essayer » une robe ou une paire de boucles d'oreilles à une personne sur sa propre photo est un problème de vision générative redoutable. Un seul modèle ne suffit presque jamais. La réponse fiable, c'est la cascade.

Pourquoi pas un seul modèle ?

Chaque modèle image-to-image a ses forces et ses angles morts :

Certains gèrent superbement le cadrage vertical 9:16 mais hallucinent les détails fins.
D'autres rendent une texture de tissu impeccable mais recadrent la tête ou les pieds.
D'autres encore sont excellents… jusqu'à ce qu'ils renvoient une erreur ou saturent.

Compter sur un modèle unique, c'est accepter que 10 à 20 % des générations soient inutilisables. Inacceptable pour une app qu'on paie.

L'idée : enchaîner avec des fallbacks

Le principe est simple : on définit un ordre de préférence et on tombe au modèle suivant si le précédent échoue ou rend un résultat hors critères.

Un pipeline typique

Modèle principal — qualité maximale, cadrage natif 9:16.
Premier fallback — si timeout ou erreur, un modèle rapide et robuste.
Fallbacks suivants — flux-kontext, modèles « banana », puis génériques, jusqu'à obtenir un rendu valide.

La cascade transforme « ça marche 4 fois sur 5 » en « ça marche, point ». L'utilisateur ne voit jamais l'échec — juste le résultat.

Garder le cadrage : la règle du 9:16

Un essayage où l'on ne voit ni la tête ni les chaussures ne sert à rien. On impose le format vertical dans le prompt et la requête, et on rejette tout rendu qui recadre le sujet. Mieux vaut relancer un fallback que livrer une image tronquée.

Le coût, nerf de la guerre

Chaque modèle a un prix par image. La cascade doit donc être économe : on commence par le meilleur rapport qualité/prix, et on ne monte en gamme que si nécessaire. On met aussi en cache les références (l'image source de l'utilisateur) pour ne pas la re-télécharger à chaque essai.

La leçon

En génération d'images de production, la fiabilité prime sur la sophistication. Un système modeste mais résilient, avec de bons fallbacks et une contrainte de cadrage stricte, bat un modèle « state of the art » utilisé seul. C'est exactement l'architecture qui fait tourner L'Écrin Virtuel.

Écrit par l'équipe Inference Vision — studio d'applications IA. Une question, un projet ? Écrivez-nous.