Scopri “EDGE”: un modello di intelligenza artificiale basato sulla diffusione che genera sequenze di danza realistiche e di lunga durata condizionate dalla musica

Molte culture attribuiscono un valore elevato alla danza come mezzo di espressione, comunicazione e connessione sociale. Tuttavia, la produzione di nuove danze o animazioni di danza è impegnativa perché i movimenti di danza sono espressivi e a mano libera mentre sono organizzati con cura dalla musica. In realtà, ciò richiede un’animazione manuale dispendiosa in termini di tempo o tecniche di motion capture irrealizzabili. Tuttavia, l’onere del processo di creazione può essere ridotto utilizzando metodi computazionali per generare automaticamente le danze. Questo ha una vasta gamma di applicazioni, inclusa l’assistenza agli animatori nella creazione di nuovi balli e la fornitura di personaggi interattivi nei videogiochi o nella realtà virtuale con movimenti realistici e vari basati sulla musica fornita dall’utente. Inoltre, la creazione della danza può far luce su come la musica e il movimento interagiscono, un campo di studio obbligatorio in neurologia.

La ricerca precedente ha fatto passi da gigante nell’applicazione di tecniche basate sull’apprendimento automatico. Tuttavia, deve ancora avere molto successo nella produzione di danze dalla musica che aderiscano alle esigenze degli utenti. Inoltre, i lavori precedenti utilizzano spesso criteri quantitativi che si dimostrano inaffidabili e valutare le danze create è un processo difficile e soggettivo. Questo documento offre Editable Dance Generation (EDGE), una tecnica di generazione di danza all’avanguardia che genera movimenti di danza fisiologicamente ragionevoli e realistici dalla musica di input. Nel loro approccio, un potente estrattore di funzionalità musicali chiamato Jukebox viene utilizzato insieme a un modello di diffusione basato su trasformatore.

EDGE crea varie coreografie di danza fisicamente plausibili basate su composizioni musicali

Con la sua metodologia basata sulla diffusione, la danza può beneficiare di potenti funzionalità di editing come il condizionamento articolare. Viene suggerita una nuova metrica che cattura la correttezza fisica dei comportamenti di contatto con il suolo senza una modellazione fisica esplicita, oltre ai vantaggi che le decisioni di modellazione impartiscono istantaneamente. In conclusione, ecco cosa hanno contribuito:

1. Forniscono un metodo di generazione della danza basato sulla diffusione che può produrre sequenze di danza di lunghezza arbitraria combinando prestazioni all’avanguardia con potenti strumenti di editing.

2. Esaminano le misure in studi precedenti e dimostrano che sono rappresentazioni imprecise della qualità valutata dall’uomo, come rivelato da una significativa ricerca sugli utenti.

3. Introducono il Physical Foot Contact Score, una nuova e semplice metrica quantitativa basata sull’accelerazione per valutare la plausibilità fisica dei movimenti cinematici generati che non richiedono una modellazione fisica esplicita. Usando una nuova Contact Consistency Loss, propongono un nuovo metodo per rimuovere le implausibilità fisiche dovute allo scivolamento del piede nei segni indotti.

4. Utilizzando le rappresentazioni audio musicali di Jukebox, un modello generativo pre-addestrato per la musica che in precedenza ha mostrato prestazioni elevate su sfide di previsione specifiche per la musica, migliorano le precedenti metodologie di estrazione di funzionalità audio realizzate a mano.

Si può controllare il loro sito Web, che ha anche meravigliose dimostrazioni video. È qualcosa che non vedresti tutti i giorni.


Dai un’occhiata al Carta e Progetto. Tutto il merito di questa ricerca va ai ricercatori di questo progetto. Inoltre, non dimenticare di iscriverti la nostra pagina Reddit e canale discordiadove condividiamo le ultime notizie sulla ricerca sull’IA, fantastici progetti di intelligenza artificiale e altro ancora.


Aneesh Tickoo è una stagista di consulenza presso MarktechPost. Attualmente sta conseguendo la laurea in Data Science and Artificial Intelligence presso l’Indian Institute of Technology (IIT), Bhilai. Trascorre la maggior parte del suo tempo lavorando a progetti volti a sfruttare la potenza dell’apprendimento automatico. Il suo interesse di ricerca è l’elaborazione delle immagini ed è appassionato di costruire soluzioni attorno ad esso. Ama entrare in contatto con le persone e collaborare a progetti interessanti.



Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *