Dimentica l’oblio catastrofico: l’ipertrasformatore continuo di Google consente un apprendimento efficiente e continuo con poche riprese

Le tecniche di apprendimento continuo di pochi colpi consentono ai modelli di intelligenza artificiale di apprendere da un flusso continuo di attività descritte da un piccolo set di campioni senza dimenticare le informazioni apprese in precedenza. Questo paradigma di apprendimento è utile nelle applicazioni del mondo reale come la robotica industriale, in cui un agente distribuito deve apprendere in un ambiente dinamico con osservazioni limitate e nella tutela della privacy, in cui l’addestramento sequenziale condivide solo i pesi del modello senza esporre i dati.

Un team di ricerca di Google avanza in questa direzione di ricerca nel nuovo documento Apprendimento continuo a pochi colpi utilizzando HyperTransformersproponendo Continual HyperTransformer (CHT), un modello che modifica l’HyperTransformer recentemente pubblicato (HT, Zhmoginov et al., 2022) per aggiornare sequenzialmente i pesi di una rete neurale convoluzionale (CNN) in base alle informazioni in una nuova attività senza dimenticare il conoscenze apprese dai compiti precedenti.

Il documento delinea i principali vantaggi dell’approccio CHT proposto come segue:

  1. CHT è in grado di generare e aggiornare al volo i pesi della CNN senza necessità di formazione.
  2. I modelli appresi con CHT non soffriranno di dimenticanze catastrofiche. Vediamo persino casi di trasferimento all’indietro positivo per modelli più piccoli, in cui le prestazioni su un determinato compito migliorano effettivamente per i pesi generati successivamente.
  3. Mentre il CHT è addestrato per l’ottimizzazione per compiti T, il modello può essere fermato in qualsiasi punto t ≤ T durante l’inferenza con pesi θt adatti a tutti i compiti 0 ≤ τ ≤ t.
  4. Il modello CHT è progettato per essere indipendente da uno specifico passaggio e operare come un sistema ricorrente. Può essere utilizzato per apprendere un numero maggiore di compiti per i quali è stato originariamente addestrato.

Dato un insieme di pesi CNN generati da attività incontrate in precedenza e una descrizione di una nuova attività, il modello CHT proposto mira ad aggiornare i pesi in modo tale che siano adatti a tutte le attività precedenti e alla nuova attività.

I ricercatori estendono l’approccio HT per consentire a CHT di gestire un flusso continuo di attività utilizzando i pesi generati da attività già apprese come incorporamenti di pesi di input nel generatore di pesi per nuove attività. Cambiano anche la funzione di perdita di entropia incrociata dell’HT in una perdita prototipica più flessibile (Snell et al., 2017) che impiega prototipi come rappresentazione appresa di ciascuna classe da tutti i compiti.

Il loro approccio di apprendimento continuo “preventivo” consente al modello CHT di essere addestrato su compiti (T) ed eseguito su un numero qualsiasi di compiti (τ

L’architettura CHT proposta è ricorrente: poiché i parametri HT non dipendono dalle informazioni sull’attività ma prendono invece i pesi e il supporto impostati come input, il modello addestrato può imparare a generare pesi per qualsiasi attività aggiuntiva non vista. I ricercatori dimostrano anche che CHT non soffre del catastrofico problema dell’oblio che ha afflitto altri approcci di apprendimento sequenziale e può persino provocare trasferimenti all’indietro che migliorano le prestazioni su compiti appresi in precedenza.

Nel loro studio empirico, il team ha confrontato CHT con i modelli di base Constant ProtoNet (ConstPN) e Merged HyperTransformer (MergedHT) sia in scenari incrementali di attività che incrementali di classe. Nelle valutazioni, CHT ha costantemente superato ConstPN e ha superato MergedHT quando è stato addestrato su più attività.

Questo lavoro convalida il CHT proposto come un efficiente studente di pochi colpi libero dal catastrofico problema dell’oblio e adatto a vari scenari di utilizzo.

La carta Apprendimento continuo a pochi colpi utilizzando HyperTransformers è su arXiv.


Autore: Ecate Lui | Editore: Michael Sarazen


Sappiamo che non vuoi perderti nessuna notizia o scoperta della ricerca. Iscriviti alla nostra popolare newsletter Settimanale AI globale sincronizzato per ricevere aggiornamenti AI settimanali.

Leave a Comment

Your email address will not be published. Required fields are marked *