Creare immagini con Intelligenza Artificiale generativa text-to-image

L’intelligenza artificiale generativa (GenAI) continua a evolversi a una velocità incredibile. Questo post, scritto per la prima volta del novembre 2023 e aggiornato nel febbraio 2024, a distanza di soli 10 mesi ha richiesto una riscrittura completa. In questo breve periodo di tempo, infatti, molte sono le novità tecnico-funzionali nel campo delle immagini generate da testo (AI text-to-image). Alle piattaforme già presenti che hanno arricchito in modo straordinario le loro funzioni, se ne sono aggiunte di nuove. Il confine fra generazione, ri-elaborazione di immagini, creazione di video da immagini, … ormai non esiste più e le piattaforme ci offrono quelle che si possono definire nuove esperienze, quasi quotidianamente.

L’elencare le piattaforme di intelligenza artificiale per la creazione di immagini, le novità, gli aggiornamenti, è diventata una prassi molto diffusa. Anche se da una parte ci fornisce indicazioni e informazioni sui rilasci e le nuove funzionalità, contribuisce a creare un certo accumulo informativo che, a volte, genera rumore. Per questo, l’elenco seguente, di certo non esaustivo, si concentra sulle proposte più diffuse facendo un piccolo “punto nave” su modalità di utilizzo (gratuito o a pagamento) e macro caratteristiche. A seguire, un breve approfondimento sul ruolo del prompt, esempi concreti della evoluzione dei risultati ottenibili e alcune riflessioni sul tema copyright e etica.

Le piattaforme principali, oggi

Sono simili come utilizzo, alcune garantiscono un’ottima rispondenza ai prompt altre devono essere più guidate per raggiungere il nostro obiettivo. Per ciascuna è indicato se gratuita (almeno in parte) o a pagamento.

MidJourney

A pagamento (abbonamento mensile o annuale, con varie fasce di prezzo).
MidJourney è una delle piattaforme più conosciute per la generazione di immagini artistiche di alta qualità. Conosciuta per la sua capacità di creare immagini fotorealistiche o altamente stilizzate, è ideale per progetti professionali e creativi.

DALL-E3

Piattaforma di OpenAI, gratuita, in ChatGPT il cui uso combinato con DALL-E 3 consente di generare immagini direttamente all’interno della chat, partendo da un prompt testuale. Grazie alla potenza del modello GPT-4 e all’integrazione con DALL-E, è possibile ottenere immagini creative, descrivere scene complesse o modificare contenuti visivi, il tutto in un’unica interfaccia conversazionale. Disponibile, inoltre, gratuitamente per utenti con abbonamento Microsoft (ad esempio tramite Copilot) e a pagamento per utilizzi integrati in Microsoft 365 (Word, Power Point, …).
DALL-E 3 è nota per le sue avanzate funzionalità, è uno degli strumenti più precisi per generare immagini, con un alto livello di realismo e controllo.

Leonardo AI

Gratuito con limiti di utilizzo giornalieri; a pagamento per accesso illimitato o funzionalità premium.
Leonardo AI è una piattaforma potente che permette di generare immagini di alta qualità. Si distingue per la sua semplicità d’uso e per la capacità di personalizzare il contenuto generato. Design grafico, progetti commerciali, illustrazioni.

Canva

Gratuita con alcune limitazioni; funzionalità complete disponibili con abbonamento a Canva Pro.
Canva, già noto per le sue funzionalità di progettazione grafica, ha introdotto Contenuti Magici, per generare immagini da testo. Le ulteriori funzionalità avanzate, descritte in “Strumenti magici” sono disponibili solo per gli utenti con un piano a pagamento.

Freepik

Nata come piattaforma di immagini stock, Freepik offre un’ampia gamma di fotografie, illustrazioni e immagini vettoriali. Alla sua offerta tradizionale (freemium), ha da poco aggiunto le nuove funzionalità di GenAI di immagini. Grazie alla varietà di stili e alla possibilità di scaricare materiali pronti per l’uso o modificarli secondo le esigenze, si rivela strumento facile molto utile. Nella configurazione free è possibile la creazione di 20 immagini al giorno (si consiglia di fare attenzione ai parametri di generazione che sono preimpostati a 12 immagini a generazione). News: possibilità di creare anche video.

Stable Diffusion XL

Gratuito (open source); versioni avanzate disponibili su piattaforme a pagamento come RunPod o DreamStudio.
Stable Diffusion è uno strumento open-source che offre una grande libertà per la creazione di immagini. La versione XL è stata migliorata per garantire immagini più dettagliate e di qualità superiore. E’ adottata da sviluppatori con competenze tecniche.

Runway ML

E’ una piattaforma a pagamento (con prova gratuita limitata). Runway ML è un potente strumento di GenAI bene sintetizzato nel suo payoff “Tools for human imaginations”. Permette non solo di generare immagini, video, audio, ma anche di combinare immagini e video per progetti multimediali. È indicato per la creazione di contenuti audiovisivi professionali, con funzionalità avanzate per il video editing.

Quali piattaforme scegliere

Le piattaforme di intelligenza artificiale per la generazione di immagini, pur simili nel concetto, si differenziano per diversi aspetti: dalla qualità delle immagini generate, agli stili supportati, fino, ovviamente, ai costi. Per ottenere il massimo da queste tecnologie, è essenziale valutare la facilità d’uso e le opzioni di personalizzazione offerte. Inoltre, le esigenze specifiche del progetto: realismo, stile pittorico, illustrazione, etc. Non ultime le eventuali limitazioni legate ai diritti di utilizzo delle immagini generate.

Una riflessione sui prompt

Le piattaforme di GenAI elencate consentono di creare immagini personalizzate a partire da una descrizione testuale: il prompt. Un mezzo, il prompt, che sembra semplice nella sua essenza, ma che in realtà nasconde una complessità che unisce tecnica, intuizione e creatività. Una riflessione sui prompt, dunque, non può limitarsi a un’analisi funzionale, ma deve abbracciare gli aspetti concettuali e strategici legati al loro utilizzo.

L’importanza del prompt: precisione e creatività

Un prompt ben formulato è la chiave per ottenere immagini che rispecchino fedelmente le aspettative dell’utente. Ma cosa significa scrivere un buon prompt? Alcuni elementi fondamentali includono:

  • Chiarezza: usare un linguaggio preciso ed evitare ambiguità;
  • Dettaglio: descrivere accuratamente le caratteristiche desiderate (es. colori, stile, atmosfera);
  • Strutturazione logica: organizzare le informazioni in modo che la piattaforma possa interpretarle correttamente.

Questa abilità non è solo tecnica: implica anche una comprensione estetica e una capacità di immaginare l’immagine finale, anticipando come le descrizioni verbali saranno tradotte in rappresentazioni visive. In questo senso, l’arte di scrivere un prompt diventa uno spazio di sperimentazione creativa.

Evoluzione rapida

Come cambiano i risultati. Le due immagine seguenti sono state ottenute, la prima a febbraio 2024, la seconda oggi (dicembre 2024). Stesso prompt, stesso strumento: DALL-E3. Le differenze sono evidenti. Ad esempio si nota una maggiore cura dei particolati (da notare le luci nella seconda immagine), creatività, …

Intelligenza artificiale
Intelligenza artificiale

Ancora più evidente il cambiamento fra l’immagine generata nel novembre 2023 con le prime versioni di GenAI e che fino ad oggi è stata l’immagine di copertina di questo post (riportata qui sotto) e la nuova immagine di copertina, creata con Freepik. Stesso prompt, ovviamente.

Intelligenza artificiale

Aspetti legali ed etici

L’utilizzo di immagini generate dall’Intelligenza Artificiale solleva importanti questioni legali ed etiche. Il diritto d’autore sulle opere create dall’AI è ancora oggetto di dibattito, così come la responsabilità in caso di diffusione di contenuti falsi o deepfake. Inoltre, l’addestramento dei modelli di IA spesso avviene su vasti dataset che possono includere opere protette da copyright, ponendo interrogativi sulla liceità di tali pratiche.

È fondamentale tenersi informat* sulle normative vigenti per adottare comportamenti che rispettino i diritti d’autore e garantiscano la trasparenza sull’origine delle immagini generate. Non dimentichiamo MAI di specificare che un’immagine è generata dal modello XYZ . All’interno del post, di una caption IG o anche sopra l’immagine generata.

Un esempio della Biblioteca di Fisica e Astronomia dell’Università di Padova che ha correttamente riportato sull’immagine “Generata con ChatGPT”.

Intelligenza artificiale