Obrona przed wojenną dezinformacją – jak Big Data pomaga rozbić siatkę trolli? (Big Data At War)

Wojna dla większości z nas to czołgi, żołnierze z karabinami i naloty. Dla tych ciut “nowocześniejszych” to także drony i satelitarne rozpoznanie. Prawda jednak jest taka, że współczesna wojna zaczyna się znacznie, znacznie wcześniej – na długo przed pierwszym wystrzałem. To wojna informacyjna, która poprzedza konflikt gorący. Co ważne – wojna informacyjna nie kończy się w momencie pierwszego uderzenia rakiet. Co jeszcze ważniejsze – ona nie kończy się nawet wraz z ogłoszeniem rozejmu. To podstawowy front, dzięki któremu zdobywa się cele polityczne i kształtuje świadomość. I tutaj – niespodzianka! – Big Data odgrywa bardzo ważną rolę. Zrób sobie solidną kawę i zapraszam na trzeci odcinek z serii “Big Data na wojnie”!

Mgła wojny informacyjnej

Wchodzisz na Twittera i widzisz ciąg postów. Część dotyka kwestii ekonomicznych, w niektórych to politycy nawzajem przekrzykują się który z nich napsuł więcej. Klasyka. W końcu trafiasz na podrzuconą wiadomość jednego z użytkowników. Widzisz go pierwszy raz, ale sama wiadomość przyciąga wzrok – wszystko w kontekście agresji rosyjskiej i pomocy Polaków względem Ukraińców.

“Czas na przerwę. Poziom spierdolenia większości na fali romantycznego uniesienia w walce o interesy cwaniaków i idiotów przekroczył granice samodzielnie myślącego człowieka”.

Przekonuj Cię to? Może zbyt wulgarne? Więc może raczej to?

“Większość przybyszów z Ukrainy ucieka przed reżymem Żełeńskiego. Wojna to tylko okazja. To nie jest ich wina! Trzeba podejść ze zrozumieniem.”

Wydaje się wciąż zbyt mocne? A może jesteś patriotą/patriotką? W takim razie zaciekawi Cię biało-czerwona grafika i post zmuszający do przemyśleń.

“Biało czerwona – oto jedyna flaga jaką kocham i respektuję! I jedyna, którą znajdziecie w mojej klapie

Każdy z tych postów jest inny. Każdy ma inne wyważenie, każdy uderza w inny obszar potencjalnych wątpliwości. Prawdopodobnie część z nich Cię odrzuciła, być może tylko jednego nie odrzucisz. I to już coś.

Wojna dezinformacyjna nie jest prosta i siermiężna. Wywołuje wątpliwości na wielu poziomach. Adresowana jest do różnych osób. Każdy z nas ma inną wrażliwość i inne doświadczenia życiowe. W wojnie informacyjnej grunt, żeby wykorzystać odpowiednie narzędzia do odpowiednich osób.

Będąc “w środku” całego zamieszania, nie widzimy prawidłowego kształtu wojny informacyjnej.  Widzimy jedynie jeden post, drugi, trzeci. Do tego komentarz, grafikę i film. Każdy z tych bodźców odbieramy niejako osobno. Taką właśnie sytuację możemy nazwać nowoczesną odmianą Mgły Wojny – pojęcia, które klasyk wojskowości i geopolityki Carl von Clausewitz wprowadził w… 1832 roku.

Tak nawiasem – wpisy powyżej nie są prawdziwe. Ale każdy z nich pod podobną postacią faktycznie był opublikowany. Zmieniłem, aby nie wskazywać na konkretne osoby. Dociekliwi jednak znajdą ich prawdziwych autorów bez problemu;-).

Budowa mediów społecznościowych

Być może to zabrzmi spiskowo, ale to jakie treści widzisz na tablicy Twittera, to nie przypadek. Na szczęście to żaden spisek – to czysta matematyka. Aby to mniej więcej zrozumieć, pomyślmy o tym jak zbudowane są media społecznościowe i jak działają.

Mały “disclaimer”

W tym rozdziale stosuję bardzo dużo daleko idących uproszczeń:

  1. Będę często mówił “media społecznościowe” a potem opisywał budowę Twittera. Chociaż każde medium jest zbudowane inaczej, ogólna architektura jest dość podobna. Twitter natomiast jest najprostszy, a do tego w kwestiach polityczno-społecznych, wykorzystywany jest bardzo mocno.
  2. Będę opisywał media społecznościowe jako graf. Ich faktyczna budowa jest oczywiście znacznie bardziej skomplikowana.
  3. Opiszę algorytmy. Tak naprawdę nie przedstawię żadnego algorytmu wprost. Po pierwsze, byłoby to absolutnie niezjadliwe w takim artykule. Po drugie – algorytmy te nie są jawne i publiczne (nie znam ich). Musimy się domyślać, ale ogólne mechanizmy nie są wcale takie znowu bardzo niejasne.

Mam nadzieję, że to nie przeszkodzi w niczym.

Jeden wielki graf

Media społecznościowe <uproszczenie> to jeden wielki graf </uproszczenie>.  Ba – nasze społeczeństwo to jeden, naprawdę ogromny, graf. A tak naprawdę wiele bardzo różnych, ogromnych grafów.

Ale zaraz… czym w ogóle jest graf? Wyobraź sobie, że budujesz drzewo genealogiczne swojej rodziny. Dla uproszczenia – na papierze;-). Wypiszesz więc członków rodziny – najczęściej jako zdjęcia w kółkach, oraz pokrewieństwa – jako kreseczki między nimi. To właśnie jest dość specyficzny graf. Dokładnie to DAG, czyli graf skierowany, acykliczny, a jeszcze dokładniej – to drzewo. Nie jest to jednak istotne, natomiast aby poszerzyć swoje matematyczne pojęcie na ten temat, można zerknąć choćby do Wikipedii;-).

Typowy graf matematyczny (źródło: wikipedia)

Tak więc w grafie mamy dwie podstawowe rzeczy:

  1. Węzły/wierzchołki (nodes) – w przypadku naszego drzewa genealogicznego będą to ludzie.
  2. Połączenia/ścieżki/krawędzie (connections/links/edges) – połączenia między węzłami. Ma to byś skonstruowane w taki sposób, że krawędzie zawsze łączą się z dwoma wierzchołkami.

Jak media społecznościowe nas “ugrafiawiają”?

Bardzo podobną konstrukcję można zaobserwować w mediach społecznościowych. Weźmy najprostszą płaszczyznę na tapet:

  1. Konta użytkownikówwierzchołkami grafu
  2. Jeśli dane konto kogoś obserwuje – tworzymy połączenie (krawędź) od jednego do drugiego konta.

Grafów jednak może być więcej. Chociażby w kontekście komentowania postów czy kliknięć “serduszek”. W niczym jednak taka mnogość nie przeszkadza. Co więcej – grafy te można na siebie n nakładać, aby wychwytywać te najmocniejsze połączenia.

Słynne algorytmy mediów społecznościowych

Niejednokrotnie słyszeliśmy o kontrowersyjnych “algorytmach Facebooka”. Mają one premiować treści kontrowersyjne, wzbudzające podziały. O co w tym wszystkim chodzi? Otóż – na naszej tablicy nie pojawiają się jedynie wpisy osób które obserwujemy. Co więcej – nawet jeśli tych osób, to też jedynie wybrane. Jak to się dzieje? Tu wchodzimy w sferę domysłów. Natomiast – mediom społecznościowym zależy na utrzymaniu naszej uwagi jak najdłużej. W związku z tym musi wybrać te posty, które nam się wyświetlą i które utrzymają naszą uwagę możliwie długo. Jeśli się da – dobrze byłoby nas wciągnąć w jakąś dyskusję.

Frances Haugen (po prawej) to sygnalistka. Była pracownica Facebooka ujawniła ogromną ilość dokumentów wewnętrznych, które mają wskazywać, jakoby premiowane miały być treści kontrowersyjne, polaryzacyjne.

Właśnie dlatego wybierane są tweety, które… są popularne. To dość proste założenie. Jeśli coś nabiera sporą popularność- jest szansa, że spodoba się także innym użytkownikom. Liczą się więc wyświetlenia, ale przede wszystkim wszelkie reakcje – polubienia, podanie dalej, komentarz. Dodatkowo mechanizmy wiedzą ile czasu spędzamy nad danym postem/zdjęciem – to także zapewne ma znaczenie.

Co więcej – sama treść także może mieć znaczenie. Dzięki algorytmom Machine Learning, Facebook wie o tym czy dana treść będzie pozytywna czy negatywna. Wzbudzająca emocje, czy raczej “sucha”. Tu nie chodzi o samo proste badanie sentymentu – w założeniu są tu dużo, dużo większe możliwości.

Piszę tu nie bez powodu o Facebooku. W 2021 r. za sprawą byłej pracownicy Korporacji, Frances Haugen, świat poznał dziesiątki tysięcy wewnętrznych dokumentów tego medium“Facebook Papers” – jak zostały nazwane dokumenty – pokazują, że premiowane są najbardziej kontrowersyjne, polaryzacyjne treści.

Gniew i nienawiść jest najłatwiejszym sposobem na wzrost na Facebooku”

Frances Haugen

Walka z dezinformacją – Rozpoznanie niewidocznych wzorców

Wykorzystanie mechanizmów do szerzenia dezinformacji

Czas dobrnąć do brzegu, na którym zrozumiemy dlaczego to wszystko jest tak bardzo istotne. Choć oczywiście zaledwie liznęliśmy wątek budowy mediów społecznościowych – mamy już ogólne pojęcie w temacie. Jeśli widzimy strukturę oraz skomplikowane algorytmy, prosty wniosek jest taki, że możemy się… pod nie podczepić. Nie musimy Mieć gigantycznych zasięgów aby mieć wpływ. “Wystarczy” odpowiednio zbudowana siatka, która generuje specyficzne treści i w przemyślany sposób je dystrybuuje.

Tak zbudowana maszynka może podawać rozmaite rodzaje tweetów (jak pokazałem powyżej). Ponieważ jest to siatka, utworzenie w sztuczny sposób popularności nie musi być trudne. Stworzenie polaryzacyjnych treści też nie. Tak zredagowane wpisy automatycznie wykryje maszynka Twittera i pokaże innym, którzy mogą być zainteresowani. W ten sposób cała siatka powiększa się o osoby nie będące trollami, które często nieświadomie szerzą propagandę. Takie osoby nie mają oczywiście świadomości tego co robią, ponieważ widzą jedynie jednostkowy tweet, są owładnięte “mgłą wojny informacyjnej”.

Jan C z Data Hunters: “Rosyjskie trole w natarciu. Wygląda, że tak samo im blisko do propagowania niedlasegregacjisanitarnej jak i niewspieramukrainy #dezinformacja #osint #UkraineWar #Poland”

Działania kontr-dezinformacyjne. Rozpędzanie “mgły wojny”

Oczywiście za tym wszystkim stoją potężne mechanizmy operowania na ogromnych zbiorach danych. Osoby projektujące rozgrywki w ramach wojny informacyjnej wykorzystują je inteligentnie. Mają ogląd “z góry”, w przeciwieństwie do “ofiar”, które spowite są mgłą wojny.

Na szczęście jest nadzieja. Można – wykorzystując narzędzia Big Data – wyfrunąć do góry i z lotu ptaka spojrzeć na całość. Dzięki temu możemy odrobinę pominąć mgłę wojny i zacząć szukać wzorców i całych siatek, które daną dezinformację szerzą.

Jak za pomocą narzędzi Big Data wykryć siatki?

Chciałbym bardzo w tym miejscu podzielić się swoim własnym doświadczeniem. Miałem okazję i zaszczyt pracować z jednym z narzędzi, które obecnie jest testowane, w grupie kilku badaczy. TTM – robocza nazwa – pozwala na pobieranie z Twittera danych i poddawanie ich odpowiedniej analizie grafowej. Następnie, dzięki narzędziu Graphistry można zwizualizować sobie wynik odpowiedniej analizy. Więcej na ten temat można przeczytać na blogu Data Hunters.

W podlinkowanym artykule można przeczytać dokładnie zdarzenia od których wyszliśmy z naszą analizą. Tutaj chciałbym wyselekcjonować kilka kroków, które moim zdaniem wspaniale pozwalają wykorzystać automatyzację i możliwości przeczesywania setek tysięcy, czy nawet milionów kont Twitterowych. Co ważne: nie jest (i nie powinien być) to proces w pełni automatyczny. Aspekt ludzki zawsze będzie tutaj istotny. Odpowiednie mechanizmy mogą jednak umożliwić dotarcie do tego co istotne.

Oto potencjalny schemat, podobny do tego który my stosowaliśmy:

  1. Wyszukiwanie ogólnych wzorców – pierwszy krok to zlecenie wykonania analizy przez mechanizm. To  bardziej sztuka niż rzemiosło. Musimy zastanowić się które zachowania mogą nas odrobine naprowadzić na ludzi szerzących dezinformację. Możemy więc poszukiwać po ludziach którzy wykorzystują odpowiednie hashtagi, którzy wchodzili w interakcje z innymi kontami czy takimi, którzy udostępnili konkretne tweety. Nie należy ograniczać się w tym punkcie jedynie do naszej tematyki. Bardzo popularnym wzorcem była transformacja kont “anty-covidowych”. Można też sprawdzać najbardziej wulgarne hashtagi antyrządowe itd.
  2. Selekcja i statystyki powtarzających się dużych wierzchołków – po wielu przeprowadzonych analizach, część kont zaczyna się powtarzać w wielu kontekstach. Warto więc “odłożyć je na bok”  i sprawdzić także inne dane na ich temat. Mogą to być statystyki publikowanych tweetów, czas aktywności (konto które jest aktywne 20-24 h na dobę, jest podejrzane z natury) itd.
  3. Weryfikacja ręczna – na sam koniec najmniej przyjemna część. Po wielkiej obróbce z pierwszego punktu i częściowym obcięciu w drugim – czas po prostu przejrzeć te konta ręcznie. Może bowiem być tak, że wszelkie poszlaki wskazują na konta, których absolutnie nie można zaliczyć do trolli. Część natomiast można i warto:-).

Dokładniejszy opis tego jak działaliśmy znajduje się w podlinkowanym artykule. Natomiast powiem jedno: dzięki takiej analizie nie tylko znaleźliśmy konta, które były nieoczywiste. Także odkryliśmy zmianę taktyki, która polegała na zmniejszeniu liczby hashtagów. Co – dla mnie osobiście – najciekawsze, znaleźliśmy przygotowywaną od dawna siatkę, która stroniła od bycia ogromnymi ośrodkami. Utrzymywała się za to w trudnym do wykrycia obszarze średniej wielkości.

Podsumowanie

Wojna informacyjna jest współcześnie ogromną częścią rywalizacji międzynarodowej. Musimy zdawać sobie sprawę, że działania te są prowadzone tam, gdzie jesteśmy my. W tym artykule opisałem na czym polega mgła wojny informacyjnej. Jak w nią wpadamy i… jak wykorzystując narzędzia Big Data można z dezinformacją walczyć.

W kontekście osobistego przeciwdziałania i obrony – uważam, że najważniejsze to zachować zdrowy sceptycyzm do wszystkiego co wywołuje duże emocje. Jednocześnie z zachowaniem dużej dozy szacunku do każdego z kim rozmawiamy. Jeśli to osiągniemy – dezinformacja będzie przynosić znacznie mniejsze owoce.

Daj znać w komentarzu jak się podobało. Zapraszam też na profil RDF na LinkedIn oraz do newslettera. Pozostańmy w kontakcie!

UWAGA! Już niedługo ukaże się pierwszy polski ebook o Big Data. Całkowicie za darmo dla subskrybentów bloga RDF. Zapisując się na newsletter TERAZ – masz niepowtarzalną okazję dostawać kolejne wersje książki i zgłaszać swoje poprawki, a nawet stać się jednym z autorów. Więcej tutaj.

 

Loading

Leave a Reply

Your email address will not be published. Required fields are marked *