Premessa
Vorrei precisare che questo post è scritto in collaborazione con Gemini di Google e con Copilot di Microsoft. Dopo i controlli del caso, il contenuto è risultato corretto. Il prompt usato ha richiesto un linguaggio naturale, di facile comprensione. I link aggiunti sono integrazioni “umane” e il testo in corsivo, blu, non ha interventi di AI.
GenAI focus su Copilot e Gemini
Sia Gemini che Copilot rientrano nella categoria della Generative AI, ovvero l’intelligenza artificiale generativa. Sono il risultato di un processo evolutivo partito da BingAI per Copilot e da Bard per Gemini. Entrambi sono strumenti basati su LLM avanzati (per approfondire, utile questa pagina di HPE) in grado di creare testi, codice, analizzati/elaborati dati e molto molto altro.
Da BingAI a Copilot
BingAI era il chatbot integrato nel motore di ricerca di Microsoft, basato su GPT-3 e lanciato nel luglio 2022. Microsoft ha successivamente rinnovato BingAI e lo ha integrato con il browser Edge, creando Copilot.
Copilot è stato lanciato con il supporto di GPT-3.5 e successivamente aggiornato a GPT-4 (per approfondire e avere le ultime news, qui). Si propone come un assistente virtuale che può aiutare gli utenti a scrivere codice, creare testi, cercare informazioni e molto altro. È in grado di apprendere dalle preferenze e dallo stile degli utenti, e di offrire suggerimenti personalizzati e pertinenti. (Cosa farai con Copilot ? Provalo subito …). Con la componente Designer, Copilot permette la creazione di immagini. Designer è basata su DELL-E, un modello avanzato di AI per la generazione TTI (text to image).
Ad esempio, l’immagine di copertina è creata con Designer di Copilot. (Sul tema TTI, qui un piccolo approfondimento).
Bard e Gemini
Bard era il nome del progetto sperimentale di Google che mirava a creare un’interfaccia di generazione di contenuti basata su un modello di linguaggio proprietario di Google, integrando dati da diverse fonti. Lanciato nel marzo 2023, Bard si era dimostrato un’alternativa interessante a ChatGPT, il chatbot di OpenAI basato su GPT-3. Tuttavia, nel febbraio 2024, Google ha annunciato che Bard sarebbe stato rinominato in Gemini, che utilizza un modello di linguaggio risultante dall’unione tra il modello di Google e quello di OpenAI. Gemini è disponibile in 40 lingue, compreso l’italiano, e ha una nuova app per Android e iOS.
Funzionalità di Gemini attuali (testo redatto da Gemini)
- Generazione di codice: Gemini può aiutarti a scrivere codice in diversi linguaggi di programmazione, come Python, Java e C++. Può anche generare codice da descrizioni testuali o da esempi di codice esistenti.
- Scrittura creativa: Gemini può aiutarti a scrivere diversi tipi di contenuti creativi, come poesie, storie, script e persino brani musicali. Può anche adattarsi a diversi stili e generi di scrittura.
- Ricerca avanzata: Gemini può aiutarti a trovare informazioni su qualsiasi argomento. Può accedere ed elaborare informazioni da diverse fonti.
- Risposta a domande complesse: Gemini può rispondere alle tue domande in modo completo e informativo, anche se sono aperte, impegnative o strane. Può anche fornire diverse prospettive e argomenti su un determinato argomento.
- Personalizzazione: Gemini può apprendere dalle tue preferenze e dal tuo stile di lavoro per offrirti un’esperienza personalizzata. Può anche adattarsi alle tue esigenze specifiche e fornirti suggerimenti e consigli pertinenti.
Fra gli annunci più interessanti dello scorso 14 maggio 24, in occasione del Google I/O 2024 la ripresa del Circle to search (già anticipata a febbraio 24 – vedi il video) e così descritta da Gemini:
Circle to search per Android
Ora puoi disegnare un cerchio attorno al testo o agli oggetti nelle immagini e Google cercherà informazioni correlate. È un modo fantastico per trovare informazioni su prodotti, luoghi o persino razze di animali!
Ma soprattutto, gli arricchimenti della ricerca di Google, già disponibili negli Usa, sembra in Europa entro il 2024 (sempre con le parole di Gemini):
- AI Overviews: Sono delle sintesi generate dall’intelligenza artificiale che vengono visualizzate direttamente nei risultati di ricerca. Forniscono una panoramica completa e concisa di un determinato argomento, includendo informazioni da diverse fonti.
- Ricerca multimodale: Questa funzione permette di utilizzare immagini, video e audio per effettuare ricerche. Ad esempio, puoi scattare una foto di un prodotto e poi trovare informazioni su di esso online.
- Ricerca per argomento: Questa funzione consente di esplorare un argomento in modo più approfondito, fornendo una varietà di risultati, tra cui articoli, video, immagini e podcast.
A tutto questo si aggiunge …
Project Astra
E’ un nuovo progetto di intelligenza artificiale multimodale sviluppato da Google. L’obiettivo di Project Astra è quello di creare un’intelligenza artificiale in grado di interagire con il mondo in modo più naturale e intuitivo, utilizzando le informazioni provenienti da diverse fonti, tra cui:
- Fotocamera dello smartphone: utilizzare la fotocamera dello smartphone per identificare oggetti, persone e luoghi, e per contestualizzare le domande e le richieste dell’utente.
- Voce: comprendere e rispondere al linguaggio naturale, permettendo agli utenti di interagire con esso in modo conversazionale.
- Testo: elaborare e comprendere il testo, consentendo agli utenti di fornire informazioni all’IA in modo più strutturato.
Grazie a questa capacità di integrare informazioni da diverse fonti, Project Astra si propone di offrire un’esperienza utente più ricca e versatile rispetto agli assistenti virtuali tradizionali. Project Astra è ancora in fase di sviluppo e non è ancora disponibile al pubblico. Tuttavia, un primo esempio è disponibile in questo video
Per avere un quadro completo di quanto presentato: qui, tutte le news Google.
Funzionalità di Copilot attuali (testo redatto da Copilot)
Le principali funzionalità di Microsoft Copilot oggi includono:
- Integrazione con Microsoft 365: Copilot è accessibile nelle app di Microsoft 365 come Word, Excel, PowerPoint, Outlook e Teams, permettendo agli utenti di sfruttare l’intelligenza artificiale per migliorare la produttività e la creatività.
- Personalizzazione con Microsoft Copilot Studio: Gli utenti possono personalizzare ed estendere il loro Copilot con l’anteprima di Microsoft Copilot Studio, adattando l’assistente alle proprie esigenze specifiche.
- Sicurezza e privacy: Copilot offre sicurezza, privacy e conformità di livello Enterprise, garantendo agli utenti un ambiente sicuro per lavorare con i dati sensibili.
- Copilot+ PCs: Una nuova categoria di PC Windows progettati per l’AI, i Copilot+ PC, che offrono prestazioni elevate e funzionalità avanzate come Recall per trovare e ricordare facilmente contenuti, Cocreator per generare e perfezionare immagini attraverso l’AI, e LiveCaptions per superare le barriere linguistiche traducendo l’audio di oltre 40 lingue. (L’annuncio il 21 maggio 2024)
Riflettendo …
L’elemento che accomuna queste GenAI (e qui non ho parlato di OpenAI e di ChatGPT che presentano dinamiche simili) è la velocità di evoluzione e la frequenza dei nuovi rilasci. Nel giro di pochi mesi ci sono cambiamenti e aggiornamenti significativi. La prima stesura di questo post è di febbraio 2024.
Dopo quasi 3 mesi il post è stato riscritto in buona parte perché obsoleto. Come detto da Sundar Pichai “Google è nel pieno dell’era di Gemini”. Ma non solo Google, tutti siamo nel pieno dell’era AI che sta “coinvolgendo” tutto quello con cui si trova a interagire. E riprendendo il tema di questa velocità evolutiva e trasformativa non possiamo trascurare alcuni elementi di riflessione. In particolare, il fatto che gli strumenti cambino così rapidamente che viene da chiedersi se abbiano il tempo di “assestarsi”. Questo dinamismo può portare ad un aumento della potenzialità di commettere errori o fornire informazioni errate o fuorvianti ? Forse no, ma in effetti è legittimo chiederselo. Sempre più importante è, quindi, la necessità della consapevolezza di cosa stiamo usando e della necessità di una verifica accurata dei risultati ottenuti.