Stability AI ha annunciato giovedì Stable Diffusion 3, un modello di sintesi di immagini di prossima generazione con pesi aperti. Segue i suoi predecessori creando immagini dettagliate e multisoggetto con qualità e precisione migliorate nella creazione del testo. Il breve annuncio non è stato accompagnato da una manifestazione pubblica, ma la stabilità sì Aperta lista d'attesa Oggi è per chi vuole provarlo.
Stable afferma che la sua famiglia di modelli Stable Diffusion 3 (che prende descrizioni di testo chiamate “prompt” e le trasforma in immagini corrispondenti) ha dimensioni comprese tra 800 milioni e 8 miliardi di parametri. La scala consente l'esecuzione locale di diverse versioni del modello su una varietà di dispositivi, dagli smartphone ai server. La dimensione del parametro corrisponde approssimativamente alla capacità del modello in termini di quantità di dettagli che può generare. I modelli più grandi richiedono anche più VRAM sugli acceleratori GPU per funzionare.
Dal 2022, abbiamo visto Stable lanciare la sua evoluzione dei modelli di generazione di immagini AI: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo e ora 3. Stability si è fatto un nome fornendo un'alternativa più aperta ai modelli di sintesi di immagini proprietari come DALL-E 3 di OpenAI, sebbene non sia esente da controversie a causa dell'uso di training protetti da copyright dati. Pregiudizi e potenziale di abuso. (Ciò ha portato a cause legali irrisolte.) I modelli di diffusione dello stato stazionario erano open-weighted e open source, il che significa che i modelli potevano essere eseguiti localmente e ottimizzati per modificare i loro risultati.
Per quanto riguarda i miglioramenti tecnici, ha affermato il CEO di Stability, Imad Mushtaq libri Sul
Come ha detto Mostaque, la famiglia Stable utilizza Diffusion 3 Struttura dei trasformatori di diffusioneun nuovo metodo per creare immagini utilizzando l'intelligenza artificiale che sostituisce i consueti elementi costitutivi delle immagini (ad es Architettura dell'UNET) per un sistema che funziona su piccole parti dell'immagine. Questo metodo è ispirato ai trasformatori, che sono bravi a gestire schemi e sequenze. Questo approccio non solo aumenta l'efficienza, ma si dice anche che produca immagini di qualità superiore.
Viene utilizzato anche Stable Diffusion 3”Corrispondenza del flusso“, una tecnica per creare modelli di intelligenza artificiale in grado di creare immagini imparando come passare dal rumore casuale a un'immagine strutturata in modo uniforme. Lo fa senza dover simulare ogni fase del processo, ma si concentra invece sulla direzione generale o sul flusso che dovrebbe seguire la creazione dell'immagine.
Non abbiamo accesso a Stable Diffusion 3 (SD3), ma dai campioni che abbiamo trovato pubblicati sul sito web Stable e sugli account di social media associati, le Generations sembrano più o meno paragonabili ad altri modelli di fotomontaggio moderni al momento. Compresi i già citati DALL-E 3, Adobe Firefly, Imagine con Meta AI, Midjourney e Google Imagen.
SD3 sembra gestire molto bene la generazione di testo negli esempi forniti da altri, che probabilmente sono scelti con cura. La generazione del testo è stata un punto debole nei precedenti montaggi di immagini, quindi migliorare questa capacità in forma libera è un grosso problema. Inoltre, la precisione della velocità (quanto segue da vicino le descrizioni nei prompt) sembra simile a DALL-E 3, ma non l'abbiamo ancora testata noi stessi.
Anche se Stable Diffusion 3 non è ampiamente disponibile, Stability afferma che una volta completati i test, i suoi pesi potranno essere scaricati ed eseguiti localmente gratuitamente. “Questa fase di anteprima, come per i modelli precedenti, è fondamentale per raccogliere idee per migliorarne le prestazioni e la sicurezza prima del rilascio aperto”, ha scritto Stability.
La stabilità è stata recentemente sperimentata con una varietà di architetture di montaggio di immagini. Oltre a SDXL e SDXL Turbo, l'azienda ha annunciato proprio la settimana scorsa Cascata stabileche utilizza un processo in tre fasi per sovrapporre il testo a un'immagine.
Immagine dell'elenco di Imad Mushtaq (AI per la stabilità)
“Freelance organizer. Music aficionado. Alcohol expert. Avid twitter evangelist. Infuriatingly humble explorer. Future teen idol. Food buff.”
More Stories
Microsoft prevede di proteggere il DNS di Windows come mai prima d’ora. Ecco come.
Dopo 10 anni di attività, il vecchio emulatore di giochi Delta è ora il numero 1 nelle classifiche iOS
“Nintendo World Championships: NES Edition” per Switch è stato valutato dall’ESRB