LiSA - Listen, See and Act: fusing audio-video cues to perceive visible and invisible events and develop perception-to-action solutions for autonomous vehicles

Dettagli

Settore ERC: PE6 - Computer Science and Informatics
Sottosettore ERC: PE6_11 - Machine learning, statistical data processing and applications using signal processing (e.g. speech, image, video)
Data avvio progetto: 30/11/2023
CUP: D53D23017510001
Sostegno finanziario ricevuto: €121.036,00

Descrizione e scopo

Nonostante gli impressionanti progressi nella tecnologia dei veicoli senza conducente, esistono ancora diverse limitazioni. La maggior parte di esse è legata alla capacità dei sistemi autonomi di percepire efficacemente gli oggetti e gli eventi nell'ambiente e di elaborare comandi di navigazione e reazione tempestivi. Il fulcro di questo progetto è lo studio di soluzioni multimodali di percezione-azione per affrontare tali questioni e sviluppare strutture in grado di vedere e interpretare anche oggetti ed eventi al di fuori del campo visivo.

Sito Web: https://isar.unipg.it/project/lisa-listen-see-and-act/

Finalità

Questo progetto mira a dotare i veicoli autonomi di nuove capacità di percezione-azione che si basano su fonti di dati multiple ed eterogenee. In particolare, sfruttiamo la combinazione di informazioni visive e audio per ottenere una rappresentazione più robusta, efficiente e descrittiva dell'ambiente circostante il veicolo. Il suono, infatti, è in grado di fornire una percezione omnidirezionale, superando i limiti imposti dalle occlusioni e migliorando così la consapevolezza del veicolo della scena.

Risultati attesi

Abbiamo lavorato per:

· Sviluppare metodi e modelli per rilevare e localizzare eventi acustici in scenari urbani;

· Generare una rappresentazione congiunta di eventi audio/video per consentire lo sviluppo di sistemi multimodali che modellino le relazioni spazio-temporali degli input audio/video.

· Sviluppare metodologie di percezione-azione per mappare i segnali audiovisivi ai comandi di controllo del veicolo e migliorare le capacità di navigazione autonoma.

Risultati raggiunti

Il progetto sta procedendo come previsto, raggiungendo gli obiettivi e le tappe fondamentali secondo il calendario previsto. Nello specifico, i nostri sforzi hanno portato allo sviluppo di una pipeline di percezione audio-video per il rilevamento e la localizzazione di eventi in scenari urbani. Inoltre, abbiamo creato un simulatore audiovisivo, completamente personalizzabile, per la raccolta dei dati e il collaudo dei nostri moduli di percezione-azione. Attualmente stiamo lavorando alla valutazione finale dei nostri sistemi nel mondo reale.

Responsabile scientifico