Pubblichiamo un guest post scritto per il nostro blog da BlogMeter, esperti di monitoraggio e tracking dei social media nonché relatori del Master in Social Media Marketing & Web Communication di Scuola di Comunicazione IULM.
La sentiment analysis realizzata automaticamente, cioè l’attribuzione da parte di sistemi software di una valutazione positiva o negativa ad un’opinione, un frase, un messaggio espressi in linguaggio naturale, è una delle maggiori sfide ancora aperte per gli esperti di informatica, di linguistica e di intelligenza artificiale. Vari obiettivi sono ancora da raggiungere, come ha dimostrato anche il bot Prize recentemente svoltosi a Milano, che non ha raggiunto il successo sperato.
Attribuire valutazioni di gradimento in maniera automatica è complesso e proprio per questo gli strumenti che provano a farlo sono interessanti. Uno di questi è Tweetfeel: questo servizio ricerca i tweet relativi ad un “oggetto”: un film, un libro o un evento e mostra un flusso di tweet colorati di verde o rosso a seconda che si tratti di valutazioni positive e o negative e ne calcola la percentuale complessiva.
La realizzazione del sentiment analysis su un servizio di microblogging come Twitter si confronta con frasi dalla sintassi tendenzialmente poco complessa: la limitazione a 140 caratteri e la velocità della pubblicazione tipiche di Twitter spingono gli utenti ad usare abbreviazioni e un linguaggio ancora più immediato e colloquiale di quello utilizzato su blog e comunità online.
Come si legge nelle FAQ di Tweetfeel, non sempre lo strumento riesce ad assegnare un sentiment ai messaggi che citano la stringa cercata. Divertendosi con le ricerche su Tweetfeel, si nota subito che i tweet per cui funziona la lettura automatica del sentiment presentano strutture semplici e ricorrenti. In particolare, il sistema riesce a attribuire gradimento:
a) alle frasi che presentano struttura sintattica estremamente semplice, caratterizzate da verbi o aggettivi fortemente caratterizzati come positivi o negativi. Per esempio, Tweetfeel riconosce le frasi positive del tipo “X is Awesome”, “X rules”, “X is amazing”, “I’m a fan of X” , ” X Rules”, ” X Rocks “, ” I need X” e le frasi negative quali “I hate X”, “X sucks”.
b) grazie agli acronimi usati per esprimere una valutazione, come FTW (For the win) o WTF (What the fuck!):
-
CANT WAIT UNTIL WEDNESDAY!!! Google Wave FTW
-
Fuck Google Wave wtf is the point of it u can communicate on MSN too
-
screw Google Wave. I’ve been invited to Google WAR! it obliterates the calendars and IM conversations of others via drone missiles.
c) gli hashtags, in particolare quelli negativi. Per esempio, #fail risulta molto usato:
-
@OnnaVonSun lol I wudn’t no – lifetyme #fail lol – twilight #fail :-p lol
Tuttavia Tweetfeel registra anche alcuni tipici errori, ad esempio:
a) ambiguità lessicale: sebbene il tweet Jim rome sucks sia valutato correttamente in modo negativo, lo strumento non riconosce la differenza tra Rome (città) e Jim Rome (commentatore sportivo)
b) errore nell’identificazione del sintagma:
-
@bongkersz Nobody in twilight is good-looking XD Apart from some of the girls
questo tweet risulta valutato positivamente in quanto Tweetfeel riconosce come sintagma “twilight is good-looking” e non “Nobody […] is good-looking”;
c) errore nell’analisi della parola:
-
I need a loving and caring beautiful lady
Il termine “loving”, usato come aggettivo, viene riconosciuto e trattato come nome. Di conseguenza l’affermazione viene valutata positivamente, sebbene non contenga espressioni di gradimento.
d) mancato riconoscimento della punteggiatura:
-
@xavier69 did you talk to madonna???? wtf!!! 😀 are you serious?
Qui non compare nessuna espressione di gradimento, però Tweetfeel interpreta “madonna […] wtf” come negativo.
d) Incapacità di riconoscere le espressioni dal significato “non letterale”:
-
@haveboard <sarcasm>Google Wave is awesome</sarcasm> http://bit.ly/19TOQO
Questo tweet viene valutato positivamente, nonostante sia chiaramente indicato che il tono è sarcastico.
Possiamo concluderne che Tweetfeel si dimostra un sistema interessante anche perché soggetto a tipici errori causati dall’imprevedibilità delle combinazioni linguistiche dotate di significato. Giocando con la finta semplicità dei 140 caratteri, Tweetfeel svela le piccole soddisfazioni e le sfide sottili proprie di ogni sistema di analisi automatica del linguaggio.
Che le emozioni ed i sentimenti siamo merce preziosa, capaci di predisporci all’azione, i pubblicitari lo sanno molto bene. Ma pretendere di “riconoscerl” in brevi sequenze di parole, mi sembra molto ambizioso e forse anche un po’ ingenuo.
Basti guardare ai risultati dell’ IA. E poi qualcuno ricorda la lezione dei gruppi di corteggiamento? L’analisi computerizzata potrà dirci se compaiono certe espressioni di approvazione o disapprovazione rispetto al leader, ma posizioni più complesse sfuggiranno, e le persone sono “cose” complesse. O no? s.r.
Io credo che strumenti del genere, nell’era della digitalizzazione, siano inevitabili. L’errore fa parte del gioco (voglio dire, ci fidiamo ancora dei focus group…) ma non credo che il margine di errore sia così lontano rispetto alla misurazione che avviene sui media tradizionali.
Per rispondere a Sergio direi: Si, le persone sono “cose” complesse. Ma spesso in realtà ce ne dimentichiamo 😉
Mi piace il tuo ottimismo Antonio! D’altra parte è tutto così recente. Forse le tecnologie devono ancora maturare un poco ed anche il parlare in rete in qualche modo cambierà per rendersi più veloce ed espressivo anche se più codificato, allora il tutto potrebbe convergere. Si vede che mi piacciono le storie a lieto fine? 😉
Grazie per i vostri commenti.
L’idea da cui siamo partiti era proprio quella di far emergere le difficoltà che devono affrontare gli strumenti automatici che cercano di estrarre “sentimenti”. Come sappiamo bene, si tratta di opinioni e espressioni spesso estremamente sfumate, talvolta difficili da rilevare anche per un analista umano. In questo senso, gli strumenti automatici che si occupano di estrarre “sentimenti” sono sicuramente migliorabili.
Ciononostante, se qualcuno si esprime scrivendo “sono tanto felice”, salvo ironie e sarcasmo, vuol dire che si sente felice – o, almeno, dobbiamo tendenzialmente assumere che si senta felice.
L’analisi automatica del sentiment risente delle difficoltà tipiche con cui si confronta tutta l’analisi automatica del linguaggio: trovare il confine tra cio’ che si può fare e cosa non si può fare e capire se quello che si può fare è qualcosa su cui ha senso investire tempo e denaro.