Gli esperti Microsoft e NVIDIA parlano dell’infrastruttura AI

Poiché l’IA emerge come uno strumento cruciale in così tanti settori, è chiaro che la necessità di un’infrastruttura AI ottimizzata sta crescendo. Andando oltre i soli cluster basati su GPU, l’infrastruttura cloud che fornisce interconnessioni a bassa latenza, larghezza di banda elevata e storage ad alte prestazioni può aiutare le organizzazioni a gestire i carichi di lavoro AI in modo più efficiente e produrre risultati più rapidi.

HPCwire ha recentemente incontrato Microsoft Azure e gli specialisti dell’infrastruttura cloud e IA di NVIDIA e ha posto una serie di domande per scoprire approfondimenti, tendenze e consigli sull’infrastruttura IA basati sui loro impegni con i clienti in tutto il mondo.

In che modo i casi d’uso dell’IA più interessanti dipendono dall’infrastruttura?

Sheila Mueller, Senior GBB HPC+AI Specialist, Healthcare & Life Sciences, Microsoft: Alcuni dei casi d’uso dell’IA più interessanti sono l’assistenza sanitaria ospedaliera, sia clinica che di ricerca. La ricerca nel campo della scienza, dell’ingegneria e della salute sta apportando miglioramenti significativi nella cura dei pazienti, resi possibili dall’elaborazione ad alte prestazioni e dagli approfondimenti dell’intelligenza artificiale. I casi d’uso comuni includono modellazione molecolare, terapie, genomica e trattamenti sanitari. L’analisi predittiva e l’intelligenza artificiale, insieme all’infrastruttura cloud creata appositamente per l’intelligenza artificiale, sono la spina dorsale per miglioramenti e simulazioni in questi casi d’uso e possono portare a una prognosi più rapida e alla capacità di ricercare cure. Scopri come Elekta porta speranza a più pazienti in tutto il mondo con la promessa della radioterapia basata sull’intelligenza artificiale.

Gabrielle Davelaar, Senior GBB AI Specialist, Microsoft: Molte aziende manifatturiere devono addestrare modelli di inferenza su larga scala pur rispettando le rigide normative locali ed europee. L’intelligenza artificiale è al limite con il calcolo ad alte prestazioni. La piena tracciabilità con rigide regole di sicurezza sulla privacy e la sicurezza è fondamentale. Questo può essere un processo complicato poiché ogni passaggio deve essere registrato per la riproduzione, da cose semplici come le versioni del set di dati a cose più complesse come sapere quale ambiente è stato utilizzato con quali librerie ML con le sue versioni specifiche. Le operazioni di machine learning (MLOps) per la verificabilità di dati e modelli ora lo rendono possibile. Scopri come BMW utilizza robot supportati dal machine learning per fornire flessibilità nel controllo qualità per la produzione automobilistica.

Gabriel Sallah, Senior HPC Specialist, Automotive Lead, Microsoft: Abbiamo collaborato con i produttori di automobili per sviluppare piattaforme Advanced Driver Assistance Systems (ADAS) e Advanced Driving Systems (ADS) nel cloud utilizzando servizi integrati per creare una pipeline di deep learning altamente scalabile per la creazione di modelli AI/Machine Learning (ML). Le tecniche HPC sono state applicate per programmare, ridimensionare e fornire le risorse di calcolo, garantendo al tempo stesso monitoraggio, gestione dei costi e tracciabilità dei dati efficaci. Il risultato: tempi di simulazione/addestramento più rapidi grazie alla stretta integrazione di input di dati, simulazioni di calcolo/esecuzioni di addestramento e output di dati rispetto alle soluzioni esistenti.

Annamalai Chockalingam, Product Marketing Manager, Large Language Models & Deep Learning Products, NVIDIA: I progressi nell’IA hanno portato all’esplosione dell’IA generativa, in particolare con i progressi verso i Large Language Models (LLM) e le architetture dei trasformatori basate sulla diffusione. Questi modelli ora riconoscono, riassumono, traducono, prevedono e generano linguaggi, immagini, video, codice e persino sequenze proteiche, con poca o nessuna formazione o supervisione, sulla base di enormi set di dati. I primi casi d’uso includono esperienze cliente migliorate attraverso assistenti virtuali dinamici, generazione di contenuti assistita da intelligenza artificiale per blog, pubblicità, marketing e generazione di codice assistita da intelligenza artificiale. L’infrastruttura appositamente costruita per l’intelligenza artificiale in grado di gestire le esigenze di potenza e scalabilità del computer è fondamentale.

Quali sfide IA devono affrontare i clienti e in che modo la giusta infrastruttura aiuta?

John Lee, Azure AI Platforms & Infrastructure Principal Lead, Microsoft: Quando le aziende provano a ridimensionare i modelli di addestramento AI da un singolo nodo a decine e centinaia di nodi, si rendono presto conto che l’infrastruttura AI è importante. Non tutti gli acceleratori sono uguali. L’architettura ottimizzata a livello di nodo con scalabilità verticale è importante. Il modo in cui le CPU host si connettono ai gruppi di acceleratori è importante. Quando si scala oltre un singolo nodo, l’architettura di scalabilità orizzontale del cluster è importante. La selezione di un partner cloud che fornisce un’infrastruttura ottimizzata per l’intelligenza artificiale può fare la differenza tra il successo o il fallimento di un progetto di intelligenza artificiale. Leggi il blog: AI e la necessità di un’infrastruttura cloud appositamente costruita.

Annamalai Chockalingam: I modelli di intelligenza artificiale stanno diventando sempre più potenti grazie alla proliferazione di dati, ai continui progressi nell’infrastruttura di calcolo della GPU e ai miglioramenti delle tecniche sia nell’addestramento che nell’inferenza dei carichi di lavoro di intelligenza artificiale. Tuttavia, combinare la tripletta di dati, infrastruttura di calcolo e algoritmi su larga scala rimane una sfida. Gli sviluppatori e i ricercatori di intelligenza artificiale richiedono sistemi e framework in grado di scalare, orchestrare, elaborare montagne di dati e gestire MLOps per creare in modo ottimale modelli di deep learning. Gli strumenti end-to-end per i sistemi di produzione che incorporano la tolleranza ai guasti per la creazione e l’implementazione di modelli su larga scala per flussi di lavoro specifici sono scarsi.

Kent Altena, Principal GBB HPC+AI Specialist, Servizi finanziari, Microsoft: Cercando di decidere le migliori architetture tra la flessibilità aperta di un vero ambiente HPC, la robusta pipeline MLOps e le capacità di machine learning. Gli approcci HPC tradizionali, pianificati da uno scheduler legacy come HPC Pack o SLURM o da uno scheduler nativo del cloud come Azure Batch, sono ottimi per quando devono scalare a centinaia di GPU, ma in molti casi, gli ambienti AI richiedono l’approccio DevOps per La gestione del modello AI e il controllo di quali modelli sono autorizzati o, al contrario, necessitano di una gestione complessiva del flusso di lavoro.

Dott. Lukasz Miroslaw, Senior HPC Specialist, Microsoft: L’infrastruttura AI non è solo cluster basati su GPU, ma anche interconnessione a bassa latenza e larghezza di banda elevata tra i nodi e storage ad alte prestazioni. Il requisito di archiviazione è spesso il fattore limitante per la formazione distribuita su larga scala poiché la quantità di dati utilizzati per la formazione nei progetti di guida autonoma può raggiungere i petabyte. La sfida è progettare una piattaforma AI che soddisfi requisiti rigorosi in termini di throughput di archiviazione, capacità, supporto per più protocolli e scalabilità.

Quali sono le domande più frequenti sull’infrastruttura AI?

Giovanni Lee: “Quale piattaforma dovrei usare per il mio progetto/carico di lavoro AI?” Non esiste un singolo prodotto o piattaforma magica adatta a ogni progetto di intelligenza artificiale. I clienti di solito hanno una buona comprensione delle risposte che stanno cercando, ma non sono sicuri di quali prodotti o piattaforme di intelligenza artificiale otterranno loro che rispondono nel modo più veloce, economico e scalabile. Un partner cloud con un ampio portafoglio di prodotti, soluzioni e competenze di intelligenza artificiale può aiutarti a trovare la soluzione giusta per esigenze specifiche di intelligenza artificiale.

Uttara Kumar, Senior Product Marketing Manager, NVIDIA: “Come faccio a selezionare la GPU giusta per i nostri carichi di lavoro IA?” I clienti desiderano la flessibilità necessaria per fornire l’accelerazione GPU della giusta dimensione per diversi carichi di lavoro per ottimizzare i costi del cloud (GPU frazionaria, singola GPU, più GPU fino a più GPU su cluster multi-nodo). Molti chiedono anche: “Come sfruttare al meglio l’istanza GPU/macchine virtuali e sfruttarla all’interno di applicazioni/soluzioni?” Il software ottimizzato per le prestazioni è la chiave per farlo.

Sheila Meller:Come sfruttare il cloud per AI e HPC garantendo al tempo stesso la sicurezza e la governance dei dati.” I clienti desiderano automatizzare l’implementazione di queste soluzioni, spesso in più laboratori di ricerca con simulazioni specifiche. I clienti desiderano una piattaforma sicura e scalabile che fornisca il controllo sull’accesso ai dati per fornire informazioni. Anche la gestione dei costi è al centro di queste discussioni.

Kent Altena: “Come dovremmo implementare al meglio questa GPU per eseguire le nostre GPU?” Sappiamo di cosa abbiamo bisogno per correre e abbiamo costruito i modelli, ma dobbiamo anche capire l’ultimo miglio. La risposta non è sempre una risposta semplice e valida per tutti. Richiede la comprensione dei loro modelli, cosa stanno cercando di risolvere e come sono i loro input e output/flusso di lavoro.

Cosa hai imparato dai clienti sulle loro esigenze di infrastruttura AI?

Giovanni Lee: La maggior parte dei clienti vuole sfruttare la potenza dell’intelligenza artificiale, ma fatica a mettere in atto un piano attuabile per farlo. Si preoccupano di cosa stiano facendo i loro concorrenti e se stiano rimanendo indietro ma, allo stesso tempo, non sono sicuri di quali primi passi intraprendere nel loro viaggio per integrare l’IA nella loro attività.

Annamalai Chockalingam: I clienti sono alla ricerca di soluzioni AI per migliorare l’efficienza operativa e fornire soluzioni innovative ai propri clienti finali. Le soluzioni facili da usare, performanti, indipendenti dalla piattaforma e convenienti in tutto lo stack di elaborazione sono incredibilmente desiderabili per i clienti.

Gabriel Sallah: Tutti i clienti stanno cercando di ridurre il costo dell’addestramento di un modello ML. Grazie alla flessibilità delle risorse cloud, i clienti possono selezionare la GPU, l’I/O di storage e la configurazione della memoria corretti per il modello di training specificato.

Gabrielle Davelaar: I costi sono fondamentali. Con l’attuale incertezza economica, le aziende devono fare di più con meno e vogliono che la loro formazione sull’IA sia più efficiente ed efficace. Qualcosa che molte persone ancora non si rendono conto è che i costi di formazione e inferenza possono essere ottimizzati attraverso il livello software.

Che consiglio daresti alle aziende che desiderano implementare l’IA o accelerare l’innovazione?

Uttara Kumar: Investi in una piattaforma performante, versatile, scalabile e in grado di supportare il flusso di lavoro end-to-end, dall’inizio alla fine, dall’importazione e preparazione di set di dati per l’addestramento alla distribuzione di una rete addestrata come servizio basato sull’intelligenza artificiale utilizzando l’inferenza.

Giovanni Lee: Non tutte le soluzioni AI sono uguali. L’infrastruttura ottimizzata per l’intelligenza artificiale è importante, quindi assicurati di comprendere l’ampiezza di prodotti e soluzioni disponibili sul mercato. E, cosa altrettanto importante, assicurati di interagire con un partner che abbia l’esperienza per aiutarti a navigare nel complesso menu di possibili soluzioni che meglio si adattano a ciò di cui hai bisogno.

Sooyoung Moon, Microsoft, specialista senior HPC + AI: Nessun investimento può garantire il successo senza un’accurata pianificazione iniziale. Un’infrastruttura affidabile e scalabile per una crescita continua è fondamentale.

Kent Altena: Comprendi prima il tuo flusso di lavoro. Cosa vuoi risolvere? Si tratta principalmente di una soluzione basata su calcoli o basata su un carico di lavoro basato su grafici di dati? Avere questo in mente farà molto per determinare l’approccio migliore o ottimale per iniziare.

Gabriel Sallah: Quali sono le dipendenze tra i vari team responsabili della creazione e dell’utilizzo della piattaforma? Crea un’architettura a livello aziendale con set di strumenti e servizi comuni per evitare la duplicazione dei dati, il monitoraggio del calcolo e la gestione.

Sheila Meller: Coinvolgere le parti interessate dell’IT e delle linee di business per garantire che tutte le parti accettino i vantaggi aziendali, i vantaggi tecnici e le ipotesi formulate come parte del business case.

Scopri di più sull’infrastruttura cloud AI-first su Canale della soluzione Microsoft/NVIDIA.

Leave a Comment

Your email address will not be published. Required fields are marked *