Stability AI ha annunciato giovedì Stable Diffusion 3, un modello di sintesi di immagini di prossima generazione con pesi aperti. Segue i suoi predecessori creando immagini dettagliate e multisoggetto con qualità e precisione migliorate nella creazione del testo. Il breve annuncio non è stato accompagnato da una manifestazione pubblica, ma la stabilità sì Aperta lista d'attesa Oggi è per chi vuole provarlo.
Stable afferma che la sua famiglia di modelli Stable Diffusion 3 (che prende descrizioni di testo chiamate “prompt” e le trasforma in immagini corrispondenti) ha dimensioni comprese tra 800 milioni e 8 miliardi di parametri. La scala consente l'esecuzione locale di diverse versioni del modello su una varietà di dispositivi, dagli smartphone ai server. La dimensione del parametro corrisponde approssimativamente alla capacità del modello in termini di quantità di dettagli che può generare. I modelli più grandi richiedono anche più VRAM sugli acceleratori GPU per funzionare.
Dal 2022, abbiamo visto Stable lanciare la sua evoluzione dei modelli di generazione di immagini AI: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo e ora 3. Stability si è fatto un nome fornendo un'alternativa più aperta ai modelli di sintesi di immagini proprietari come DALL-E 3 di OpenAI, sebbene non sia esente da controversie a causa dell'uso di training protetti da copyright dati. Pregiudizi e potenziale di abuso. (Ciò ha portato a cause legali irrisolte.) I modelli di diffusione dello stato stazionario erano open-weighted e open source, il che significa che i modelli potevano essere eseguiti localmente e ottimizzati per modificare i loro risultati.
-
Stable Diffusion 3 Generation con Claim: opera d'arte epica di un mago in cima a una montagna di notte che lancia un incantesimo cosmico nel cielo scuro dicendo “Stable Diffusion 3” fatto di energia colorata.
-
Immagine generata dall'intelligenza artificiale di una nonna che indossa una felpa “Vai alla grande o vai a casa” creata da Stable Diffusion 3.
-
Diffusione stabile di terza generazione con prompt: tre bottiglie di vetro trasparente su un tavolo di legno. Quello a sinistra ha il liquido rosso e il numero 1. Quello al centro ha il liquido blu e il numero 2. Quello a destra ha il liquido verde e il numero 3.
-
Immagine generata dall'intelligenza artificiale con Stable Diffusion 3.
-
Diffusione stabile di terza generazione con suggerimento: un cavallo in equilibrio su una palla colorata in un campo con erba verde e una montagna sullo sfondo.
-
Propagazione di natura morta di terza generazione con prompt: natura morta lunatica di zucche assortite.
-
Diffusione stabile di terza generazione con suggerimento: un dipinto di un astronauta che cavalca un maiale che indossa un tutù e tiene un ombrello rosa, a terra accanto al maiale c'è un pettirosso che indossa un cappello a cilindro e nell'angolo ci sono le parole “Diffusione stabile”.
-
Diffusione stabile 3a generazione Con il reclamo: Sul tavolo della cucina c'è una tovaglia ricamata con la scritta “Buonanotte” e un cucciolo di tigre ricamato. Accanto al telo c'è una candela accesa. L'illuminazione è fioca e drammatica.
-
Diffusione stabile di terza generazione con prompt: immagine di un computer desktop degli anni '90 su una scrivania, con la scritta “Hello” sullo schermo del computer. Sul muro sullo sfondo vediamo dei bellissimi graffiti con la scritta “SD3” molto grande sul muro.
Per quanto riguarda i miglioramenti tecnici, ha affermato il CEO di Stability, Imad Mushtaq libri Sul
Come ha detto Mostaque, la famiglia Stable utilizza Diffusion 3 Struttura dei trasformatori di diffusioneun nuovo metodo per creare immagini utilizzando l'intelligenza artificiale che sostituisce i consueti elementi costitutivi delle immagini (ad es Architettura dell'UNET) per un sistema che funziona su piccole parti dell'immagine. Questo metodo è ispirato ai trasformatori, che sono bravi a gestire schemi e sequenze. Questo approccio non solo aumenta l'efficienza, ma si dice anche che produca immagini di qualità superiore.
Viene utilizzato anche Stable Diffusion 3”Corrispondenza del flusso“, una tecnica per creare modelli di intelligenza artificiale in grado di creare immagini imparando come passare dal rumore casuale a un'immagine strutturata in modo uniforme. Lo fa senza dover simulare ogni fase del processo, ma si concentra invece sulla direzione generale o sul flusso che dovrebbe seguire la creazione dell'immagine.
Non abbiamo accesso a Stable Diffusion 3 (SD3), ma dai campioni che abbiamo trovato pubblicati sul sito web Stable e sugli account di social media associati, le Generations sembrano più o meno paragonabili ad altri modelli di fotomontaggio moderni al momento. Compresi i già citati DALL-E 3, Adobe Firefly, Imagine con Meta AI, Midjourney e Google Imagen.
SD3 sembra gestire molto bene la generazione di testo negli esempi forniti da altri, che probabilmente sono scelti con cura. La generazione del testo è stata un punto debole nei precedenti montaggi di immagini, quindi migliorare questa capacità in forma libera è un grosso problema. Inoltre, la precisione della velocità (quanto segue da vicino le descrizioni nei prompt) sembra simile a DALL-E 3, ma non l'abbiamo ancora testata noi stessi.
Anche se Stable Diffusion 3 non è ampiamente disponibile, Stability afferma che una volta completati i test, i suoi pesi potranno essere scaricati ed eseguiti localmente gratuitamente. “Questa fase di anteprima, come per i modelli precedenti, è fondamentale per raccogliere idee per migliorarne le prestazioni e la sicurezza prima del rilascio aperto”, ha scritto Stability.
La stabilità è stata recentemente sperimentata con una varietà di architetture di montaggio di immagini. Oltre a SDXL e SDXL Turbo, l'azienda ha annunciato proprio la settimana scorsa Cascata stabileche utilizza un processo in tre fasi per sovrapporre il testo a un'immagine.
Immagine dell'elenco di Imad Mushtaq (AI per la stabilità)
“Freelance organizer. Music aficionado. Alcohol expert. Avid twitter evangelist. Infuriatingly humble explorer. Future teen idol. Food buff.”
More Stories
Mortal Kombat 1: annunciato Khaos Reigns: espansione della storia, nuovi combattenti e “grandi sorprese”
Non esiste una soluzione al problema del crash dei processori Intel di 13a e 14a generazione, ovvero danni permanenti
Si prevede che il cambiamento interno nei modelli iPhone 16 ridurrà l’aumento della temperatura