Maggio 4, 2024

TeleAlessandria

Informazioni sull'Italia. Seleziona gli argomenti di cui vuoi saperne di più

Stability annuncia Stable Diffusion 3, un generatore di immagini AI di nuova generazione

Stability annuncia Stable Diffusion 3, un generatore di immagini AI di nuova generazione
Ingrandire / Diffusione stabile di terza generazione con Vector: ritratto in studio ravvicinato di un camaleonte su sfondo nero.

Stability AI ha annunciato giovedì Stable Diffusion 3, un modello di sintesi di immagini di prossima generazione con pesi aperti. Segue i suoi predecessori creando immagini dettagliate e multisoggetto con qualità e precisione migliorate nella creazione del testo. Il breve annuncio non è stato accompagnato da una manifestazione pubblica, ma la stabilità sì Aperta lista d'attesa Oggi è per chi vuole provarlo.

Stable afferma che la sua famiglia di modelli Stable Diffusion 3 (che prende descrizioni di testo chiamate “prompt” e le trasforma in immagini corrispondenti) ha dimensioni comprese tra 800 milioni e 8 miliardi di parametri. La scala consente l'esecuzione locale di diverse versioni del modello su una varietà di dispositivi, dagli smartphone ai server. La dimensione del parametro corrisponde approssimativamente alla capacità del modello in termini di quantità di dettagli che può generare. I modelli più grandi richiedono anche più VRAM sugli acceleratori GPU per funzionare.

Dal 2022, abbiamo visto Stable lanciare la sua evoluzione dei modelli di generazione di immagini AI: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo e ora 3. Stability si è fatto un nome fornendo un'alternativa più aperta ai modelli di sintesi di immagini proprietari come DALL-E 3 di OpenAI, sebbene non sia esente da controversie a causa dell'uso di training protetti da copyright dati. Pregiudizi e potenziale di abuso. (Ciò ha portato a cause legali irrisolte.) I modelli di diffusione dello stato stazionario erano open-weighted e open source, il che significa che i modelli potevano essere eseguiti localmente e ottimizzati per modificare i loro risultati.

Per quanto riguarda i miglioramenti tecnici, ha affermato il CEO di Stability, Imad Mushtaq libri Sul

READ  In che modo Google Maps fa sapere ai tuoi cari che sei sempre al sicuro

Come ha detto Mostaque, la famiglia Stable utilizza Diffusion 3 Struttura dei trasformatori di diffusioneun nuovo metodo per creare immagini utilizzando l'intelligenza artificiale che sostituisce i consueti elementi costitutivi delle immagini (ad es Architettura dell'UNET) per un sistema che funziona su piccole parti dell'immagine. Questo metodo è ispirato ai trasformatori, che sono bravi a gestire schemi e sequenze. Questo approccio non solo aumenta l'efficienza, ma si dice anche che produca immagini di qualità superiore.

Viene utilizzato anche Stable Diffusion 3”Corrispondenza del flusso“, una tecnica per creare modelli di intelligenza artificiale in grado di creare immagini imparando come passare dal rumore casuale a un'immagine strutturata in modo uniforme. Lo fa senza dover simulare ogni fase del processo, ma si concentra invece sulla direzione generale o sul flusso che dovrebbe seguire la creazione dell'immagine.

Confrontando l'output tra DALL-E 3 e Stable Diffusion 3 di OpenAI con il router, "Immagine notturna di un'auto sportiva con testo "SD3" Di lato, l'auto sta percorrendo una pista da corsa ad alta velocità, su cui è scritto un enorme cartello stradale
Ingrandire / Confronto dell'output tra DALL-E 3 di OpenAI e Stable Diffusion 3 con il reclamo “Immagine notturna di un'auto sportiva con il testo 'SD3' sul lato, auto su una pista da corsa ad alta velocità, enorme cartello stradale con il testo 'Più veloce' '.”

Non abbiamo accesso a Stable Diffusion 3 (SD3), ma dai campioni che abbiamo trovato pubblicati sul sito web Stable e sugli account di social media associati, le Generations sembrano più o meno paragonabili ad altri modelli di fotomontaggio moderni al momento. Compresi i già citati DALL-E 3, Adobe Firefly, Imagine con Meta AI, Midjourney e Google Imagen.

SD3 sembra gestire molto bene la generazione di testo negli esempi forniti da altri, che probabilmente sono scelti con cura. La generazione del testo è stata un punto debole nei precedenti montaggi di immagini, quindi migliorare questa capacità in forma libera è un grosso problema. Inoltre, la precisione della velocità (quanto segue da vicino le descrizioni nei prompt) sembra simile a DALL-E 3, ma non l'abbiamo ancora testata noi stessi.

READ  RGG Studio Boss spiega perché la serie Yakuza è stata ribattezzata Like a Dragon in the West

Anche se Stable Diffusion 3 non è ampiamente disponibile, Stability afferma che una volta completati i test, i suoi pesi potranno essere scaricati ed eseguiti localmente gratuitamente. “Questa fase di anteprima, come per i modelli precedenti, è fondamentale per raccogliere idee per migliorarne le prestazioni e la sicurezza prima del rilascio aperto”, ha scritto Stability.

La stabilità è stata recentemente sperimentata con una varietà di architetture di montaggio di immagini. Oltre a SDXL e SDXL Turbo, l'azienda ha annunciato proprio la settimana scorsa Cascata stabileche utilizza un processo in tre fasi per sovrapporre il testo a un'immagine.

Immagine dell'elenco di Imad Mushtaq (AI per la stabilità)