Abstract | In the last decade we witnessed a rapid rise of the online social media services. Although they were created in the early 2000's, their rise began in earnest after 2010 when their presence started to fundamentally alter the traditional media landscape. Today, their influence on the way our society consumes, curates and disseminates information is indisputable. With their wider adoption came also the first criticism, as well as a need to solve emerging legislative, ethical and societal issues. One line of research is to explain and quantify the sources of influence in online social services and investigate to what extent are these new social landscapes vulnerable to manipulation by third parties. This manipulation is often performed by using user's digital traces - a record of their activities on the online social service. These digital footprints have a potential to characterize users in more detail than what they themselves would be willing to share otherwise. For example, user's personality traits can be inferred indirectly from the content with which they interact through online services, and even their writing style on the written content they published could be used to infer their demographic characteristics. This opens opportunities for micro-targeting of users for various dubious purposes, for example by increasing their propensity to spread misinformation. Research described in this thesis shows that much can be learned about user engagement by using very little data - in our case only friendship connections between users and a single activation cascade. A single activation cascade means we only have one registration event per user. This data alone is sufficient to estimate, under certain assumptions, whether activation for each user was predominantly influenced by its peers with which they are connected (endogenous influence), or the exogenous factors which are external to the friendship network itself. Both endogenous and exogenous factors, for example mass media, are known to have a significant impact on the activity of users of online social media. The methodology developed in this thesis requires postulating an explicit endogenous influence model which governs interactions between pairs of users, while exogenous influence is assumed to act equally towards all users in the network. Several suitable endogenous influence models are proposed for the use with this methodology. First one is Susceptible-Infected model, commonly used in epidemiological modeling. Second one features a decay factor for the endogenous influence, which is a realistic assumption for in social systems. Third one features a logistic threshold for activation. Exogenous influence is modelled as an independent probability of activation which is, at any given time, equal for all non-activated users, although it may change in time. An inference method is developed where maximum likelihood estimation is used to estimate relative magnitudes of endogenous and exogenous influence on users. These estimates can then be used to characterize influence of individual users. The computational scalability analysis is performed on simulated data to demonstrate that the inference method is able to scale to large social networks. Empirical data on over 20 thousand Facebook users is used for evaluation of the proposed inference method. Data is collected using three unique Facebook political survey applications which provided Facebook friendship relations between users and a single activation cascade - a single registration event per user. Referral links, which identify user's origin, are used as a proxy for user's activation type. Users whose referral links originated from Facebook are considered as endogenously activated while those whose referral links originated from an external website are considered as exogenously activated. Inference method is used to estimate the most probable source of influence for each user individually, as well as to asses the overall influence of different media channels (peer communication, Facebook advertisements, or external news media) on user's activations cascade. Ethical, methodological and technical issues regarding data collection in the context of online social media services is discussed. Guidelines on how to collect online social media data in an ethically principled way are provided, especially in the context of satisfying requirements for reproducible research. Estimating endogenous and exogenous influence in networks with a statistical methodology that is conceptually simple, yet powerful and efficient, is widely applicable to scientific domains where deciphering properties of spreading processes and external influences on complex networks is crucial for an explanation of new phenomena. |
Abstract (croatian) | Zadnjih deset godina svjedoci smo naglog uzleta popularsnosti online društvenih mreža. Iako postoje od ranih 2000-tih, njihov uspon je ozbiljno započeo tek nakon 2010. kada njihova prisutnost počinje fundamentalno mijenjati tradicionalne medije. Utjecaj online društvenih mreža na način na koji naše društvo konzumira, odabire i diseminira informacije je danas neporeciv. S njihovom širom upotrebom pojavile su se i prve kritike, kao i potreba za rješavanjem novonastalih legislativnih, etičkih i društvenih pitanja. Jedan smjer istraživanja pokušava objasniti i kvantificirati izvore utjecaja u online društvenim servisima i istražiti do koje mjere su oni podložni manipulaciji od treće strane. Ta manipulacija se često provodi korištenjem korisničkih digitalnih tragova - zapisa njihovih aktivnosti na online društvenim servisima. Navedeni digitalni otisci imaju potencijal za karakterizaciju korisnika s više detalja nego što su oni sami voljni otkriti. Primjerice, korisničke crte osobnosti i demografske karakteristike se mogu procjeniti indirektno preko sadržaja ili stila pisanja kojeg korisnici koriste na online servisu. Ovo otvara mogućnost za mikro-ciljanje (eng. micro-targeting) korisnika u svrhu različitih sumnjivih radnji ili propagande, primjerice povećavanjem njihove sklonosti da šire dezinformacije. Istraživanje opisano u ovoj disertaciji pokazuje da se mnogo toga može saznati o aktivnosti korisnika koristeći relativno malo podataka - u našem slučaju riječ je samo o podacima o prijateljskim vezama između korisnika i jednoj kaskadi širenja informacija, pri čemu informacija koja se širi odgovara činu registracije (aktivacije) korisnika na online društvenom servisu. Koristeći samo ove podatke moguće je, pod određenim pretpostavkama, zaključiti je li aktivacija svakog pojedinog korisnika pretežno uzrokovana zbog njegovih prijatelja s kojima su povezani (endogeni utjecaj) ili faktorima van društvene mreže (egzogeni utjecaj). Poznato je da i endogeni i egzogeni faktori, primjerice iz medija, imaju značajan utjecaj na aktivnost korisnika. U Poglavlju 1 opisana je motivacija i pregled područja istraživanja iz širenja informacija u online društvenim mrežama, kao i statističkih metoda koje se koriste prilikom modeliranja širenja informacija iz empirijskih podataka. Opisani su ciljevi doktorskog istraživanja koji se sastoje od definiranja modela endogenog i egzogenog širenja informacija u društvenim mrežama, razvoja metode za statističko zaključivanje parametara navedenih modela iz podataka, i evaluacije navedene metode na empirijskim podacima prikupljenih iz stvarnih online društvenih mreža. U Poglavlju 2 opisani su modeli širenja informacija koji se koriste u metodi statističkog zaključivanja razvijenoj u sklopu ovog doktorskog istraživanja. Metoda zahtjeva postuliranje izričitog modela endogenog utjecaja koji definira interakcije između parova korisnika. S druge strane, pretpostavka kod egzogenog utjecaja je da djeluje jednako prema svim korisnicima u društvenoj mreži. Predloženo je nekoliko primjerenih modela endogenog utjecaja koji se mogu koristiti u tu svrhu. Prvi je Susceptible-Infected model, često korišten u epidemiološkom modeliranju, gdje svaki trenutno aktivni korisnik ima nezavisnu priliku aktivirati bilo kojeg od svojih prijatelja u online društvenoj mreži, pri čemu se vjerojatnost aktivacije ne mijenja u vremenu. Drugi model pretpostavlja eksponencijalno opadajući utjecaj što znači da tijekom vremena korisnici imaju sve manju vjerojatnost aktivirati nekog od svojih prijatelja, što je realistična pretpostavka u društvenim interakcijama. U trećem modelu se vjerojatnost aktivacije mijenja s brojem prethodno aktiviranih prijatelja prema logističkoj funkciji, što znači da postoji prag broja prethodno aktiviranih prijatelja koji se mora dostići prije nego vjerojatnost aktivacije dostigne značajnu vrijednost. Egzogeni utjecaj je modeliran kao nezavisna vjerojatnost aktivacije koja je, u svakom danom trenutku, jednaka za sve još neaktivne korisnike, iako se može mijenjati u vremenu. Modeli endogenog i egzogenog utjecaja objedinjeni su unutar funkcije izglednosti (eng. likelihood) koja daje vjerojatnost svake kombinacije parametara modela, uvjetno s obzirom na promatrane podatke koji se u ovom slučaju sastoje od mreže prijateljstva između korisnika i vremena njihove aktivacije. U Poglavlju 3 opisana je razvijena metoda statističkog zaključivanja koja koristi maksimalnu izglednost (eng. maximum likelihood) za pronalaženje parametara endogenog i egzogenog utjecaja. Ti parameteri se potom koriste za procjenu relativne magnitude endogenog i egzogenog utjecaja na korisnika pomoću mjere egzogene odgovornosti (eng. exogenous responsibility) koja na skali od 0 do 1 kvantificira koliko je na korisnikovu aktivaciju utjecao egzogeni utjecaj, pri čemu veća vrijednost označava jači egzogeni utjecaj. Definiraju se i mjere individualnog i kolektivnog utjecaja (eng. individual and collective influence) koje kvantificiraju utjecaj pojedinog korisnika i grupe korisnika na aktivacije njihovih prijatelja u društvenoj mreži, pri čemu se uzima u obzir samo endogena komponenta utjecaja. Metoda statističkog zaključivanja koristi metodu maksimalne izglednosti za procjenu fiksnog skupa parametera endogenog utjecaja koji su isti za sve korisnike i ne mijenju se u vremenu. S druge strane, egzogeni utjecaj se procjenjuje u svakom vremenskom trenutku zasebno pa broj parametara ovisi o broju diskretnih vremenskih trenutaka. U realnim primjenama gdje se zahtjeva određena vremenska granulacija egzogenog utjecaja to uvijek rezultira prevelikim brojem parametara za izravnu procjenu metodom maksimalne izglednosti. Zbog toga je razvijena alternirajuća optimizacijska metoda gdje se parametri endgenog i egzogenog utjecaja naizmjence fiksiraju kako bi se smanjio broj parametara koji se optimiraju u svakoj iteraciji algoritma. Manji broj parametara omogućuje da se optimizacija provede nekom od standardnih metoda numeričke optimizacije. Iako ne postoji teorijska garancija konvergencije metode, praksa pokazuje da je za konvergenciju svih parametara potrebno svega nekoliko iteracija algoritma. Provedena je analiza računske skalabilnosti kako bi se pokazalo da predložena alternirajuća metoda statističkog zaključivanja skalira čak i na velike društvene mreže od preko 20 tisuća korisnika. Evaluacija je prvo provedena na simuliranim podacima pri čemu su aktivacijske kaskade korisnika simulirane prema jednom od tri predložena modela endogenog utjecaja. Egzogeni utjecaj dizajniran je tako da sadrži nekoliko distinktnih eksponencijalno-opadajućih šiljaka u vremenu. Ovo je obrazac koji se često opaža u empirijskim podacima, primjerice kad medijske objave uzrokuju porast interesa i pojačanu aktivaciju korisnika. Predložena metoda statističkog zaključivanja sposobna je precizno odrediti stvarne parametre endogenog i egzogenog utjecaja u simuliranom slučaju, kao i stvarni razlog aktivacije svakog pojedinog korisnika, koristeći samo podatke o mreži prijateljstava između korisnika i vrijeme aktivacije svakog pojedinog korisnika. Provedeni su opsežni eksperimenti na simuliranim podacima gdje je pokazano da metoda dobro radi i na proizvoljnim krivuljama egzogenog utjecaja. Također, rezultati su uspoređeni s onima dobivenima jednostavnom osnovnom (eng. baseline) metodom gdje su svi korisnici koji u trenutku aktivacije nisu imali drugih aktiviranih prijatelja proglašeni egzogeno aktiviranima. Ova jednostavna metoda podcjenjuje stvarni broj egzogeno aktiviranih korisnika, pogotovo pred kraj aktivacijske kaskade kada je većina korisnika u mreži već aktivirana. Zbog specifičnog načina prikupljanja podataka o korisnicima - korisnici koji čine mrežu prijateljstava su svi oni koji se u konačnici aktiviraju, mreža prijateljstava se pred kraj aktivacijske kaskade zasiti s aktiviranim korisnicima što ne odražava stvarno stanje u društvenoj mreži. Ovaj efekt nazivamo pristranost opažača (eng. observer bias) i on uzrokuje precjenjivanje egzogenog utjecaja kako se približavamo kraju aktivacijske kaskade. Kako bi se on izbjegao u funkciju izglednosti dodan je korekcijski faktor. U Poglavlju 2 opisana je metodologija prikupljanja podataka korištenih u empirijskoj evaluaciji. Za empirijsku evaluaciju su korišteni podaci o preko 20 tisuća korisnika društvene mreže Facebook. Podaci su prikupljeni pomoću tri online političke ankete koje koriste Facebook Graph programsko sučelje za registraciju korisnika. Ankete su provedene na hrvatskom jeziku i vezane su za tri različita politička događaja u Hrvatskoj - referendum o pitanju ustavne definicije braka iz 2013. i parlamentarne izbore 2015. i 2016. godine. Prikupljeni podaci sadrže informaciju o prijateljskim poveznicama između korisnika i samo jednu aktivacijsku kaskadu - vrijeme registracije svakog pojedinog korisnika. Referencijske poveznice (eng. referral links), koje identificiraju porijeklo korisnika, su korištene kao aproksimacija za korisnikov tip aktivacije. Korisnici čija je referencijska poveznica potekla s Facebooka su smatrani endogeno aktiviranima, dok su oni čija je referencijska poveznica potekla s vanjske web stranice smatrani egzogeno aktiviranima. Anketne aplikacije su bile aktivne otprilike tjedan dana prije samog dana glasanja i tijekom tog vremena su privukle medijsku pozornost online novinskih portala koji su u svojim objavama dijelili poveznicu na aplikacije. U trenucima takvih objava vidljiv je skok u registraciji korisnika na anketne aplikacije što ukazuje na egzogeni utjecaj jer se korisnici registriraju na aplikaciju potaknuti vanjskim izvorom. S druge strane, struktura mreže prijatelja ukazuje na efekt homofilije - korisnici se pretežno povezuju s drugim korisnicima koji dijele njihove političke stavove, ili su im slični po nekim drugim karakteristikama (primjerice starosti), što ukazuje na endogeni utjecaj. Eksploratorna analiza prikupljenih podataka pokazuje da su strukturalne karakteristike mreže prijateljstava i statističke karakteristike demografije korisnika reprezentativne za hrvatski Facebook prostor. Raspravlja se i o etičkim, metodološkim i tehničkim aspektima prikupljanja podataka u kontekstu online društvenih mreža. Predstavljene su i smjernice za prikupljanje podataka s online društvenih mreža na etički prihvatljiv način, tako da se istovremeno poštuju privatnost korisnika, uvjeti korištenja online društvenih servisa kao i zahtjevi za reproducibilnost provedenog istraživanja. Empirijska evaluacija predložene metode statističkog zaključivanja opisana je u Poglavlju 4. Pomoću prikupljenih empirijskih podataka procjenjuje se najvjerojatniji izvor utjecaja za svakog korisnika zasebno, kao i ukupni utjecaj svakog komunikacijskog kanala (komunikacija između korisnika, Facebook oglasi, vanjski medijski izvori) na korisničku aktivacijsku kaskadu. Kao metrika evaluacije koristi se površina ispod krivulje (eng. area under the curve - AUC) koja na empirijskim podacima postiže vrijednost od 0.7 do 0.8, što ukazuje na dobru diskriminacijsku moć predložene metode statističkog zaključivanja u kontekstu binarnog klasifikacijskog problema gdje se korisnici klasificiraju na endogeno i egzogeno aktivirane prema njihovim referencijskim poveznicama. Od komunikacijskih kanala kao najjutjecajnija se pokazala direktna komunikacija između korisnika, dok su se vanjski medijski izvori pokazali dominantni samo na jednom skupu podataka gdje udio egzogeno aktiviranih korisnici čine većinu (preko 90\% od ukupnog broja korisnika). Provedena je i usporedba predložene mjere individualnog utjecaja svakog pojedinog korisnika sa strukturalnim mjerama izračunatima iz mreže prijateljstava, pri čemu je najjača korelacija s Pagerank centralnošću. U sklopu ovog doktorskog istraživanja razvijena je metoda statističkog zaključivanja za procjenu endogenog i egzogenog širenja informacija u društvenim mrežama, no potencijalna primjena nadilazi primjenu u samo jednoj specifičnoj domeni. Identifikacija egzogenih utjecaja ima potencijalnu primjenu i u analizi financijskih sustava gdje vanjski utjecaji mogu imati ključnu ulogu u dinamici sustava. Također, paradigma identifikacije endogenog i egzogenog utjecaja potencijalno ima širu primjenu u modeliranju općenitih dinamičkih sustava gdje bi se pomoću takvih metoda identificirale ranjivosti sustava na vanjske šokove, kao i podložnost manipulaciji od trećih strana. Procjena endogenog i egzogenog utjecaja u mrežama sa statističkom metodologijom koja je konceptualno jednostavna, a opet snažna i učinkovita, široko je primjenjiva u znanstvenim područjima gdje je dešifriranje svojstava procesa širenja i vanjskog utjecaja na kompleksnim mrežama ključno za objašnjavanje novih pojava. |