La rivoluzione del “vocabolario visivo”

Amiamo il “visual content”. Basta pensare a tutte le foto che condividiamo sui social network. Insieme ai video, le immagini sono diventate un mezzo importante per condividere informazioni tra le persone. Mentre il potere delle parole è limitato da barriere linguistiche e culturali, le foto e i video sono un mezzo di comunicazione universale che trascende tali differenze.

Milano, 19/09/2013 (informazione.it - comunicati stampa - telecomunicazioni) La vasta diffusione di contenuti visivi in rete non stupisce, infatti, se si considera l’attuale disponibilità di telecamere e cellulari con fotocamera a prezzi accessibili a chiunque. Ad oggi si calcola che Facebook contenga più di 100 miliardi di immagini, mentre decine di ore di video sono caricate ogni singolo minuto su YouTube. Eppure, se non facilmente accessibile, la ricchezza di mezzi di comunicazione e di informazione possiede poco valore in sé.

Navigando nel “profondo web”
L'approccio più naturale per la ricerca di contenuti su Internet è mediante l'emissione di query di testo su motori di ricerca come Google, Yahoo o Bing, considerando che la tastiera resta di certo il nostro metodo d’interazione preferito con un computer. Tale interazione funziona perfettamente quando si ha la necessità di ricercare un testo. Per esempio, si può recuperare facilmente un testo di una canzone da Internet, anche se si conoscono solo poche parole. Ma tra immagini e parole c’è un grande abisso, generalmente indicato come “gap semantico”, che fa sembrare quasi impossibile poter associare parole a immagini. Per questo motivo abbiamo iniziato a mettere tag alle nostre foto e ai video e a dare loro nomi descrittivi: ciò ci permette di ritrovarli facilmente utilizzando query di testo. Tuttavia, l’associazione manuale di tag a contenuti visivi è un processo lento e noioso, considerando inoltre che solo una piccola porzione di contenuto visivo presente sul web è fornito di tag. Tutto il resto, talvolta indicato come il “web profondo”, è inaccessibile.

E se potessimo dare al computer il "dono della vista"? Che cosa accadrebbe se potessimo insegnare ai pc a tradurre le nostre query di testo in "query visive" ed abbinare parole a contenuti visivi? Ma i computer vedono le immagini solo come una moltitudine di piccoli puntini colorati in piedi uno accanto all’altro, vale a dire come una matrice di pixel. Perché questi puntini colorati non possiedono alcun significato per una macchina? La complessa sfida che la ricerca in campo di computer vision sta cercando di affrontare è proprio quella di collegare le informazioni di basso livello, i pixel, con i concetti di alto livello,quali oggetti e scene.

Insegnare ai computer a “vedere”
Computer vision è il campo di ricerca che consiste nel progettare programmi per computer che aiutino le macchine a comprendere dati visivi, ad esempio programmi che nominino gli oggetti di una pagina o di un videoclip. In altre parole, i ricercatori insegnano ai computer a "vedere":essi mostrano le immagini di diversi oggetti a un computer spiegandogli cosa sono, in modo tale che la macchina possa essere addestrata a riconoscere questi oggetti ed associare loro dei nomi,come quando si mostrano delle immagini a un bambino piccolo.
Mentre il compito di interpretare una scena e i suoi oggetti è banale per gli esseri umani - anche per i bambini più piccoli – insegnare ai computer a vedere si è dimostrato essere un compito molto arduo. Per colmare il gap semantico tra i pixel di basso livello e i concetti di livello elevato è necessario introdurre delle rappresentazioni intermedie. Di conseguenza, i primi programmi di comprensione automatica dell'immagine hanno cercato di scomporre il problema del riconoscimento degli oggetti in uno relativo al riconoscimento di piccole parti di oggetti. I primi metodi proponevano di scomporre gli oggetti in elementi geometrici come cilindri, mattoni, cunei o cerchi. Ad esempio, un cono gelato è composto da una sfera posta sopra un cono. Anche se intuitivamente attraenti, tali metodi hanno ottenuto discreto successo, poiché riconoscere le parti di un oggetto è altrettanto difficile quanto riconoscere l'oggetto intero.

Le immagini sono quindi un mezzo di comunicazione universale più potente di un testo ma allo stesso tempo più complesso. Dato che un documento è una serie di parole e le parole sono entità ben definite, è possibile contare quante volte compare ogni parola in un documento e definire il documento come il numero di occorrenze di ogni parola. Questa semplice rappresentazione, nota come modello della “borsa di parole”, è molto potente ed è al centro di ogni moderno motore di ricerca testuale: esso consente di classificare i documenti utilizzando la presenza o assenza di certe parole, che rappresentano un forte indicatore dell’argomento di un documento. Per esempio, parole come "punteggio”, "palla" o "squadra" sono fortemente associabili ad un tema sportivo.

Xerox e il vocabolario visivo
E se potessimo definire entità composte da pixel come "parole visive", cosicché rappresentazioni simili tra loro possano essere utilizzate per descrivere le immagini? Questo è esattamente ciò che i ricercatori Xerox sono riusciti ad ottenere, e il loro successo ha rivoluzionato il campo della computer vision. Confrontando il contenuto visivo con il contenuto testuale, gli esperti Xerox hanno introdotto il concetto di "vocabolario visivo", da intendere come una rappresentazione intermedia che hanno utilizzato per riconoscere concetti semantici quali oggetti.
Considerando che, nel caso di un'immagine, non c'è un metodo ovvio per dividerla in un insieme di parole,questa è stata la soluzione proposta: le immagini dovrebbero essere prima divise in piccoli pezzi di immagine, in seguito a loro volta raggruppati, tramite algoritmi di apprendimento, in gruppi visivamente coerenti, dove ogni gruppo può essere riconosciuto come una “parola visiva”. Ogni pezzo di un'immagine può essere mappato con una di queste “parole visive”. Questo vocabolario visivo è molto semplice da imparare e offre un livello di astrazione più elevato rispetto alle immagini stesse. I ricercatori Xerox hanno poi "mostrato"al computer le rappresentazioni a “borsa di parole”, che corrispondono a diversi oggetti, per insegnar loro a saperli riconoscere.

Il documento che descrive l'idea ("Visual categorization with bags of key points"1) ha avuto un impatto enorme e ha provocato un cambiamento di paradigma nell’ambito della computer vision. Il modello della “borsa di parole” è ormai uno standard di fatto nella comunità di ricerca: quasi 10 anni dopo la pubblicazione, rimane uno degli articoli più citati in materia di computer vision. La stragrande maggioranza degli algoritmi proposti da allora si basano sulla stessa idea basilare del "vocabolario visivo".

Questa tecnologia è stata applicata in numerosi contesti di elevato valore pratico. In Xerox, è stata impiegata in diversi scenari applicativi, quali ad esempio l'avviamento dei documenti in flussi di lavoro di scansione, il riconoscimento dei veicoli nei video di sorveglianza, il riconoscimento dei prodotti all’interno degli esercizi commerciali o l’analisi estetica dell'immagine nel settore della comunicazione e del marketing.

Per avere un quadro migliore di ciò che i motori di ricerca visivi di Xerox siano in grado di fare oggi, è disponibile una demo su Open Xerox.

Informazioni sugli autori:
Diane Larlus è un ricercatore del gruppo di computer vision presso Xerox Research Centre Europe. I suoi interessi principali sono il riconoscimento di oggetti e la localizzazione e, più in generale, l'apprendimento automatico applicata alla computer vision.

Florent Perronnin è il principale scienziato e responsabile del team di computer vision presso Xerox Research Centre Europe. I suoi interessi principali sono l'applicazione dell’apprendimento automatico per funzioni di computer vision come la classificazione il recupero o la segmentazione delle immagini.

Per maggiori informazioni

Contatto

Chiara Laudicina
FleishmanHillard
via leto pomponio 3/5
20146 Milano Italia
[email protected]

Ufficio Stampa

Chiara Laudicina
FleishmanHillard (Leggi tutti i comunicati)
via Leto Pomponio 3/5
20146 Milano Italia
[email protected]

Allegati

Slide Show

Rappresentazione borsa di parole.jpg

Comunicato Precedente

Comunicato Successivo