Pubblichiamo un guest post scritto per il nostro blog da BlogMeter, esperti di monitoraggio e tracking dei social media nonché relatori del Master in Social Media Marketing & Web Communication di Scuola di Comunicazione IULM.

La sentiment analysis realizzata automaticamente, cioè l’attribuzione da parte di sistemi software di una valutazione positiva o negativa ad un’opinione, un frase, un messaggio espressi in linguaggio naturale, è una delle maggiori sfide ancora aperte per gli esperti di informatica, di linguistica e di intelligenza artificiale. Vari obiettivi sono ancora da raggiungere, come ha dimostrato anche il bot Prize recentemente svoltosi a Milano, che non ha raggiunto il successo sperato.

Attribuire valutazioni di gradimento in maniera automatica è complesso e proprio per questo gli strumenti che provano a farlo sono interessanti. Uno di questi è Tweetfeel: questo servizio ricerca i tweet relativi ad un “oggetto”: un film, un libro o un evento e mostra un flusso di tweet colorati di verde o rosso a seconda che si tratti di valutazioni positive e o negative e ne calcola la percentuale complessiva.tweetfeel

La realizzazione del sentiment analysis su un servizio di microblogging come Twitter si confronta con frasi dalla sintassi tendenzialmente poco complessa: la limitazione a 140 caratteri e la velocità della pubblicazione tipiche di Twitter spingono gli utenti ad usare abbreviazioni e un linguaggio ancora più immediato e colloquiale di quello utilizzato su blog e comunità online.

Come si legge nelle FAQ di Tweetfeel, non sempre lo strumento riesce ad assegnare un sentiment ai messaggi che citano la stringa cercata. Divertendosi con le ricerche su Tweetfeel, si nota subito che i tweet per cui funziona la lettura automatica del sentiment presentano strutture semplici e ricorrenti. In particolare, il sistema riesce a attribuire gradimento:

a) alle frasi che presentano struttura sintattica estremamente semplice, caratterizzate da verbi o aggettivi fortemente caratterizzati come positivi o negativi. Per esempio, Tweetfeel riconosce le frasi positive del tipo “X is Awesome”, “X rules”, “X is amazing”, “I’m a fan of X” , ” X Rules”, ” X Rocks “, ” I need X” e le frasi negative quali “I hate X”, “X sucks”.

b) grazie agli acronimi usati per esprimere una valutazione, come FTW (For the win) o WTF (What the fuck!):

  • CANT WAIT UNTIL WEDNESDAY!!! Google Wave FTW
  • Fuck Google Wave wtf is the point of it u can communicate on MSN too
  • screw Google Wave. I’ve been invited to Google WAR! it obliterates the calendars and IM conversations of others via drone missiles.

c) gli hashtags, in particolare quelli negativi. Per esempio, #fail risulta molto usato:

  • @OnnaVonSun lol I wudn’t no – lifetyme #fail lol – twilight #fail :-p lol

Tuttavia Tweetfeel registra anche alcuni tipici errori, ad esempio: 

a) ambiguità lessicale: sebbene il tweet Jim rome sucks sia valutato correttamente in modo negativo, lo strumento non riconosce la differenza tra Rome (città) e Jim Rome (commentatore sportivo)

b) errore nell’identificazione del sintagma:

  •  @bongkersz Nobody in twilight is good-looking XD Apart from some of the girls

questo tweet risulta valutato positivamente in quanto Tweetfeel riconosce come sintagma “twilight is good-looking” e non “Nobody […] is good-looking”;

c) errore nell’analisi della parola:

  • I need a loving and caring beautiful lady

Il termine “loving”, usato come aggettivo, viene riconosciuto e trattato come nome. Di conseguenza l’affermazione viene valutata positivamente, sebbene non contenga espressioni di gradimento.

d) mancato riconoscimento della punteggiatura:

  • @xavier69 did you talk to madonna???? wtf!!! 😀 are you serious?

Qui non compare nessuna espressione di gradimento, però Tweetfeel interpreta “madonna […] wtf” come negativo.

d) Incapacità di riconoscere le espressioni dal significato “non letterale”:

Questo tweet viene valutato positivamente, nonostante sia chiaramente indicato che il tono è sarcastico.

Possiamo concluderne che Tweetfeel si dimostra un sistema interessante anche perché soggetto a tipici errori causati dall’imprevedibilità delle combinazioni linguistiche dotate di significato. Giocando con la finta semplicità dei 140 caratteri, Tweetfeel svela le piccole soddisfazioni e le sfide sottili proprie di ogni sistema di analisi automatica del linguaggio.

 BlogMeter