Jak wyglądają szkolenia Big Data w RDF? [Wideo]

Jak wyglądają szkolenia Big Data w RDF? [Wideo]

Jak wyglądają szkolenia Big Data? Jakie są rodzaje szkoleń Big Data? Co sprawia, że szkolenia w Riotech Data Factory są skuteczne? Na co stawiamy akcent?

O tym wszystkim w najnowszym wideo;-). Zachęcam nie tylko do obejrzenia, ale także subskrypcji kanały RDF na YouTube!

Szkolenia Big Data – jak to wygląda?

 

 

Przypominam jeszcze, jeśli nie jesteś członkiem newslettera, po zaciągnięciu się na nasz okręt dostajesz na wejściu prawie 140 stron ebooka o Big Data! Nie zwlekaj;-)

 

Loading

 

Jak przeżyć jesień z Big Data, żeby była fenomenalnym wsparciem zamiast depresantem? (Big Data Po Polsku) [Audio]

Jak przeżyć jesień z Big Data, żeby była fenomenalnym wsparciem zamiast depresantem? (Big Data Po Polsku) [Audio]

Być może jesień to dla Ciebie czas przygnębienia. W dzisiejszym odcinku “Big Data Po Polsku” staram się pokazać, że może być dokładnie na odwrót. Przeżyjmy jesień “na własnych zasadach” – roziwjajac się, ucząc i… czerpiąc z tego przyjemność. Odcinek(4) to także miejsce, które będzie punktem wyjścia do poznania kilku kluczowych technologii – a więc przegląd technologii Big Data! Nowy odcinek co drugą środę. Zostań na dłużej! Subskrybuj kanał tam gdzie słuchasz oraz zapisz się na newsletter.

Odcinek(4) – co robić w jesień, żeby nie była depresyjna?

Gdzie znajdziesz ten odcinek?

Podcast znajdziesz w kilku miejscach. Linki będą sukcesywnie dochodzić.

  1. Spotify
  2. YouTube
  3. Podbean
  4. Tutaj!
  5. Apple podcast (niebawem)
  6. Google Podcast (niebawem)

    Przypominam jeszcze, jeśli nie jesteś członkiem newslettera, po zaciągnięciu się na nasz okręt dostajesz na wejściu prawie 140 stron ebooka o Big Data! Nie zwlekaj;-)

     

    Loading

 

Najbardziej wpływowy wynalazek. Jak wyszukiwarka Google zmienia nasze życie? (Big Data Po Polsku) [Audio]

Najbardziej wpływowy wynalazek. Jak wyszukiwarka Google zmienia nasze życie? (Big Data Po Polsku) [Audio]

Jeśli (jak ja kiedyś) sądzisz, że wyszukiwarka internetowa to najnudniejszy temat na świecie – powinieneś/naś przesłuchać ten odcinek. Staram się udowodnić, że “to jedno okienko” wpłynęło na biznes, gospodarkę, nasz styl myślenia czy nawet… na podejście do systemu edukacji!

Nowy odcinek co drugą środę. Zostań na dłużej! Subskrybuj kanał na Spotify czy YouTube oraz zapisz się na newsletter (na dole strony)

Odcinek(3) – Jak wyszukiwarka Google zrewolucjonizowała nasze życie, biznes czy system edukacji?

Gdzie znajdziesz ten odcinek?

Podcast znajdziesz w kilku miejscach. Linki będą sukcesywnie dochodzić.

  1. Spotify
  2. YouTube
  3. Podbean
  4. Tutaj!
  5. Apple podcast (niebawem)
  6. Google Podcast (niebawem)

Przypominam jeszcze, jeśli nie jesteś członkiem newslettera, po zaciągnięciu się na nasz okręt dostajesz na wejściu prawie 140 stron ebooka o Big Data! Nie zwlekaj;-)

 

Loading
Jak w 1.5 miesiąca wyszkolić juniorów Big Data? Case Study

Jak w 1.5 miesiąca wyszkolić juniorów Big Data? Case Study

Idea jest prosta. Rekrutujesz osoby z podstawową wiedzą. Nie, nie Big Datową. Podstawową wiedzą z IT. Na przykład studentów. Następnie poddajesz ich odpowiedniemu szkoleniu. Po 1.5-2 mies. kursanci zaczynają przygodę w projekcie. Niemożliwe? Możliwe, o ile kilka kroków będzie solidnie zrealizowanych. Takie podejście to prawdziwe wybawienie w obliczu trudnodostępnych fachowców.

Jak pozyskać inżynierów Big Data? Nie pozyskuj – ukształtuj!

Wiele firm inwestuje obecnie w Big Data. I tyleż samo firm doświadcza problemów z pozyskaniem pracownika. Z jednej strony stawki które kandydaci sobie życzą potrafią być zawrotne. Z drugiej strony, po odpowiednim sprawdzeniu często wychodzi, że kandydat mimo pewnego doświadczenia (wyrażonego w stażu pracy), nie dysponuje szczególnie imponującą wiedzą. Mówiąc delikatnie;-). Pytanie stare jak polska polityka: “Jak żyć?”.

Odpowiedź, którą chcę dzisiaj przytoczyć, nie będzie absolutnie pełna. I nie zastąpi to poszukiwania specjalistów na wakat seniora czy mocnego mida. Przykro mi. Chcę jednak zwrócić uwagę na coś, co często umyka wielu firmom, a co może być uzupełnieniem tego trudnego procesu, jakim jest budowa kompetentnego zespołu.

Może zamiast pozyskiwać ludzi, postawić na ich wykształcenie?

W skrócie wygląda to tak, jak napisałem we wstępie. Pierwszy plus: znaleźć kogoś z niezłymi umiejętnościami (o tym jakimi, napiszę jeszcze potem) nie jest ciężko. Kolejny plus: przed projektem naprawdę wiemy, jakie przygotowanie ma pracownik (gdy zatrudniamy, zawsze to pewna niewiadoma). Wreszcie największy plus: nie szukamy idealnego kandydata pod projekt. Możemy go wykształcić w konkretną stronę. Oczywiście szkolenie powinno być przekrojowe i dawać ogólne pojęcie. To jednak jakie technologie będą wykładane, zależy głównie od firmy. To jakby zamiast kupować buty z półki – zamówić uszyte pod konkretny bieg.

Przygotowanie i przeprowadzenie takiego szkolenia ma kilka etapów. Jako, że niedawno zakończyłem jedno z nich, zanurzmy się w kolejne etapy, sprawdzając “jak to się robi” na konkretnym przykładzie.

Faza wstępna – określenie celu i rekrutacja

Zanim cokolwiek się zacznie, trzeba się przygotować. To dość logiczne – bez kursantów szkolenie może przynieść niesatysfakcjonujące efekty. W związku z tym należy zrobić dwie rzeczy:

  1. Określić po co chcemy kursantów
  2. Zrekrutować przyszłych wojowników.

W punkcie pierwszym, mamy do czynienia przede wszystkim z wybraniem projektu, lub paru projektów, w których potrzebujemy solidnych juniorów. Dzięki temu będziemy znali zakres technologiczny. Warto zadać sobie takie pytania jak:

  1. Jakie technologie są wykorzystywane w projekcie? (wypisujemy wszystkie)
  2. Które technologie są używane w jakim stopniu? (z jednych korzysta się czysto użytkowo i doraźnie, inne są rdzeniem projektu)
  3. Jakie języki programowania są w użyciu?
  4. Które z wyżej wymienionych chcemy, aby znali kursanci? Przy tym pytaniu warto się zatrzymać, bowiem korci żeby “napchać ile wlezie”. Lepiej jednak dość dużo obciąć, co przełoży się na lepsze opanowanie materiału.
  5. Czy są inne aspekty technologiczne, które chcemy dodać? Na wszelki wypadek, lub dla uniknięcia zbyt wąskiego wyszkolenia (można dodać tutaj ogólną wiedzę np. z technologii cloudowych).

W punkcie drugim wybieramy konkretne osoby. Co na pewno muszą aplikujący?

  1. Znać podstawy języka – najlepiej ogólnie rzecz biorąc, znać podstawy javy, jako fundamentu Big Data (choć są od tego wyjątki oczywiście).
  2. Mieć opanowane podstawy relacyjnych baz danych
  3. Znać podstawy linuxa oraz sieci. Tu chodzi o naprawdę proste rzeczy, jak połączeni po SSH, posługiwanie się bashem.
  4. Rozumieć o co chodzi w GIT.
  5. Wiedzieć, na co się piszą;-).

W przypadku ostatniego szkolenia, języki to była java i scala (przy czym scalę poznali już na szkoleniu). Dodatkowo kursanci dostali bardzo mocny przekrój technologiczny. Nie chcę wymieniać wszystkiego, natomiast m.in. pojawiły się:

  1. Hadoop + Hive
  2. Spark
  3. Airflow
  4. Ogólne warsztaty ze streamingu
  5. HBase
  6. Jenkins

Tyle wystarczy na dobry początek. Aha! Warto wspomnieć, że tego typu szkolenie raczej nie powinno być masówką. Tutaj były to zaledwie 2 osoby, może to być 3,4, maksymalnie 5 osób (chociaż 5 to już dość dużo). Dodatkowo były to osoby z różnych miejsc w Polsce – całość szkolenia była przeprowadzona on-line.

Czas ruszyć na samo szkolenie!

Szkolenie Big Data, wykład z wprowadzenia do Big Data

Warsztaty

Zasadniczo samo szkolenie składa się z dwóch części. Pierwsza z nich to właśnie warsztaty. Podstawowy cel: poznać technologie. Każdy dzień to fundamenty jednej technologii. No dobrze – niekiedy dwa dni. Wszystko zależy od ilości całego materiału:-).

Warsztaty mają następującą strukturę: rano zaczynamy dzień od wykładu, który wprowadza w temat konkretnej technologii. Następnie kursanci mają cały dzień na wykonywanie ćwiczeń, które zlecił im instruktor. W tym czasie instruktor jest dostępny, ale nie bierze aktywnego udziału w ćwiczeniach. Wieczorem (albo popołudniem – zależy od pory roku;-)) wszyscy spotykają się, żeby przegadać wątpliwości które się pojawiły, omówić ćwiczenia itd. Takie podsumowanie dnia.

Omawiane szkolenie zaczęliśmy od krótkiego wstępu do Big Data. Osobiście jestem fanem przechodzenia od ogółu do szczegółu. No i spoglądania na szerszy kontekst. O ile potem jest czas na zanurzenie się w technikaliach, o tyle warto ciągle mieć świadomość częścią jak wielkiego świata jesteśmy. Znacznie więcej opisywałem tego w ebooku – zachęcam do zajrzenia. Kursanci odsłuchali prezentacji, następnie ustaliliśmy wspólnie kształt całego szkolenia, które przejdą. Przestrzegłem przed kluczowymi rzeczami i… ruszyliśmy do akcji!

Jeszcze pierwszego dnia zrobiliśmy krótki warsztat z gita. Chociaż oboje znali już podstawy, pokazałem jak to się robi w projektach komercyjnych. Po co stosujemy system kontroli wersji i w jaki sposób go używać.

Kolejne 2.5 tygodnia upłynęły na poznawaniu technologii w przyspieszonym tempie. Szczerze przyznam, że poradzili sobie wyśmienicie. To był pierwszy raz, gdy dostawałem od kursantów zrobione prawie wszystkie zadania dzień w dzień. Fakt jest jednak taki, że taki sprint wyczerpuje i nie zawsze wszystko uda się skończyć. Dlatego pod koniec zostawiłem jeden “dzień wolny”. Tym bardziej, że warsztaty z Elastic Searcha postanowiłem połączyć z HDFSem i Sparkiem;-). Naprawdę przekrojowo, ale dali radę wyśmienicie!

Zacny zespół. Nawet bardzo;-).

Projekt

Gdy dokończyliśmy poznawanie fundamentów technologicznych, przyszedł czas na najciekawszy kąsek. W czwartek spotkaliśmy się i zaczęliśmy… projekt. Tak – prawdziwy projekt. Właściwie to taka miniaturka projektu komercyjnego. Z githubem, na klastrze szkoleniowym RDF, z metodyką pracy i – co ważniejsze – konkretnym celem biznesowym.

Infrastruktura szkoleniowa

Sam klaster odgrywał pewną rolę już wcześniej, na etapie warsztatów. Przygotowałem go specjalnie na potrzeby szkoleń. Każdy z kursantów ćwiczy dzięki temu w warunkach ekstremalnie zbliżonych do rzeczywistych. To klaster złożony z dwóch nodów (serwerów), które pracują w chmurze. Jest na nich Hadoop, Spark, Elasticsearch i czego tylko dusza zapragnie (nawet Hue!).

Poniżej możesz obejrzeć wideo, w którym dość szczegółowo opowiadam o tym na czym pracują kursanci RDF i dlaczego akurat tak;-).

Organizacja projektu

Co ważne, kursanci dostają konkretne wymagania biznesowe projektu. To w założeniu ma być system, który mógłby mieć zastosowanie w biznesie czy R&D. Oczywiście niekoniecznie pełny, bardziej PoC, ale grunt że wiemy dokąd dokładnie zmierzamy i dlaczego.

Dodatkowo kursanci pracują w ramach uproszczonego scruma. Mamy swojego boarda z taskami, mamy codzienne spotkania, całość następuje przyrostowo. W ten sposób pierwsze zderzenie z uporządkowanym systemem pracy jest jeszcze przed wejściem do prawdziwego, komercyjnego projektu.

Oczywiście wdrożony jest także cały system pracy z kontrolą wersji. Jest praca z branchami na Git, Są Pull Requesty, code review. Co więcej – zanim code review pójdzie do instruktora (tutaj do mnie), najpierw to kursanci sami sobie sprawdzają swoją pracę.

Duża skala

Mimo, że projekt jest miniaturą – wcale nie jest “niepoważny”. Prawda jest taka, że kursanci mają od pierwszego dnia ogrom pracy do wykonania. W tym przypadku zbudowali 4 moduły pobierające, odpowiednio dużo modułów przetwarzających, do tego indeksacja i kilka komponentów pomocniczych. Dołóżmy jeszcze orkiestrację (przy pomocy airflow) oraz CI/CD (Jenkins) i mamy… naprawdę solidny kawał roboty do przerobienia. Dla dwójki osób. Które dodatkowo nie miały nigdy do czynienia z Big Data.

Na szczęście naszym kursantom całość poszła śpiewająco;-). Nie obyło się bez trudów i wątpliwości, ale o tym już za chwilę.

Chcę jednak podkreślić, że projekt podczas tego typu szkolenia przekrojowego, to naprawdę ogrom pracy i wytężone obroty mózgu. W ten sposób kursanci w praktyce gruntują sobie wyłożoną wcześniej w metodyczny sposób, wiedzę.

Jako że projekt był systemem wspierającym analizę inwestorów, zespół połączył dane finansowe, gieldowe oraz aktywność około-spółkową na Twitterze. Pisząc “okołospółkową” mam na myśli, że często liczy się nie tylko oficjalny profil firmy. Przykładowo – w przypadku PKN Orlen głupotą byłoby zignorowanie profilu Prezesa Daniela Obajtka, który jest bardzo aktywny i zaangażowany. Podobnie należy starać się wyłapywać także to, co mówią inni.

Dane, po szeregu operacji, trafiają do Elasticsearcha, skąd zaciągane są i wizualizowane przy pomocy Kibany. Poniżej można zaobserwować finalny efekt prac – czyli jeden z dashboardów, który wizualizuje część danych.

Nie tylko umiejętności techniczne

Prezentacja

Całość kończyła się prezentacją przed innymi członkami firmy. Pamiętasz jak to wyglądało na studiach? Praca do samego rana, potem szybko klejona prezentacja w tramwaju, wpadanie spoconym na zajęcia i… prezentujemy!

Na szczęście, tutaj ustawiamy sobie deadline wykonania projektu na ok. 2-3 dni przed prezentacją. Raz, że wiadomo, że będą obsuwy. Po drugie – na długo przed punktem kończącym szkolenie, spotykamy się i daję kilka wskazówek. Z doświadczenia wiem, że nie jesteśmy nauczeni prezentacji. Raczej przygotowując takowe zaczynamy od otwarcia Power Pointa, co jest raczej niepokojące. Spotykamy się więc i staram się w kilku zdaniach przedstawić odrobinę inny obraz prezentacji. Nakierowany na słuchacza, a nie na “byle zrobić”. Nie żebym sam świetnie prezentował. Coś tam jednak wiem i to “coś” staram się podpowiedzieć, zawsze odrobina do przodu;-).

Potem kursanci samodzielnie przygotowują i ćwiczą prezentację, aż do punktu dzień przed – gdy prezentują ją mnie. Tak próba generalna. Albo, jak się okazuje, niekoniecznie generalna. Bo po moich poprawkach tym razem kursanci poprosili o jeszcze jedną taką próbę.

Efekt? Sama prezentacja wypadła bardzo dobrze, a kursanci… nawet się nie stresowali. Wiedzieli co mają zrobić, poszli po swoje i wzięli co do nich należało.

Dzięki temu szkolenie przekrojowe nauczyło nie tylko Hadoopa, Sparka i Elasticsearcha. Nauczyło również skutecznie przedstawiać efekt prac. A to czasami – niestety – ważniejsze w kontakcie z klientem.

Współpraca

O ile warsztaty są w miarę indywidualne, o tyle projekt to wspólne dziecko kursantów. I to, że sukces zależeć będzie od ich współpracy, mają wbijane od pierwszego dnia, gdy się zobaczyliśmy. Tu naprawdę jest dużo miejsc, w których coś może pójść “nie tak”. I w związku z tym bardzo dużo punktów zapalnych. Jednym z zadań szkolenia jest zetrzeć ze sobą kursantów w tych momentach w taki sposób, żeby wiedzieli, że stoją w jednym szeregu i że od tego czy pomogę koledze/koleżance, zależy to czy dobrniemy do celu.

Jeśli chodzi o naszych kursantów, nie widziałem żadnych spięć, żadnego obrzucania się winą. I fantastycznie było na to patrzeć. Gdy jedno rozwiązało jakiś szerszy problem, dzieliło się z drugim. Razem wypracowywali koncepcję, struktury, pomysły. Razem sprawdzali sobie kod i dzielili się wątpliwościami. To zżywa. Co ważniejsze natomiast – to pokazuje, że nikt nie jest idealny, uczy pokory i tego, że warto pracować wspólnie, razem, a nie tylko w jednym zespole.

 

Odbiór krytyki

Takie szkolenie uczy poprawnego odbioru krytyki. Oczywiście nie jest to szkolenie z przyjmowania krytyki, ale jakiejś części tego tematu owszem, uczy. I poruszam to, co ciekawe, jeszcze na początku, przy okazji szkolenia z Gita, a potem wielokrotnie w trakcie projektu. Żeby zrozumieć o co chodzi, powiem tylko, że nasz kod to często nasze dziecko. Traktujemy swoją pracę wielokrotnie jak przedłużenie nas samych.

W trakcie pracy następuje natomiast taki moment jak “code review”. Pokazujemy nasze zmiany innym, a inni je komentują. I nie pokazujemy po to, żeby usłyszeć jacy jesteśmy wspaniali, tylko gdzie mamy błędy, gdzie postąpiliśmy definitywnie niezgodnie ze standardami, a gdzie całość można znacząco uprościć.

To nigdy nie jest łatwe, czytać na swój temat szereg uwag. I to wielokrotnie. Dlatego od początku tłumaczę, że kod to nie my. Krytyka kodu, to nie krytyka nas. A uwagi służą temu, żeby zbudować lepszy produkt finalny. I przy okazji, żebyśmy my stali się lepszymi programistami, inżynierami. Ta teoria + wielokrotna praktyka później, ustawia kursantów w odpowiednim punkcie. Nie chodzi o to, żeby krytyką się biczować. Nie chodzi też o to, żeby spływała jak po kaczce. Ona ma być konstruktywna.

Ma to też drugą stronę medalu – sami mamy dawać możliwie konstruktywny feedback. Liczę, że zostanie to potem z kursantami w życiu;-)

Wytrwałość

Ostatnie co należy wspomnieć, to kwestia wytrwałości. Kursanci nie rozwiązują jedynie przykładowych ćwiczeń. Oni mają całe dnie, żeby poradzić sobie z – często – trudnym, złożonym problemem. Takim, który sprawia kłopoty na poziomie pomysłu, konfiguracji, implementacji.

Wiem dobrze, że czasami kursanci wyrywają sobie włosy z głowy. To są normalne problemy, które przyjdą potem w projekcie. Dlatego zderzamy się z nimi już tutaj, w kontrolowanych warunkach.

No właśnie. Tego typu przekrojowe szkolenie z Big Data to dużo potu, wysiłku, presji. Natomiast nie jest to nigdy presja niezdrowa. I to jeden z moich obowiązków, żeby w odpowiednim momencie pomóc, podpowiedzieć, pokrzepić dobrym słowem. Żeby ciągle utrzymywać dobrą atmosferę, bo presja ma wynikać z wewnętrznego poczucia obowiązku, a nie z napięcia między członkami takiego projektu. To bardzo ważne, bo z jednej strony pomaga podejść do komercyjnego projektu. Z drugiej – nie jest wyniszczające i wypalające.

Nasi kursanci byli niezwykle wytrwali. Pracowali ciężko, w sposób zdyscyplinowany. Czy był jakiś brak? Owszem – brak wymówek i migania się od roboty. Oboje ciężko zasuwali, żeby nauczyć się i dopiąć całą robotę. Jestem szczerze przekonany, że świetnie poradzą sobie w najbliższym projekcie i w życiu. Wróżę dużo sukcesu, bo dysponują fantastycznym zestawem cech. A teraz – mam nadzieję – także solidną wiedzą technologiczną;-).

Podsumowanie

Szkolenie przekrojowe może być realizowane w rozmaity sposób. Staram się podczas niego:

  1. Nauczyć podstaw technologii w metodyczny sposób
  2. Ugruntować wiedzę poprzez łączenie elementów w praktycznych zadaniach (jak projekt)
  3. Dorzucić elementy miękkie – komunikację, organizację projektu, umiejetność odpowiedniego podejścia do krytyki.

Jeśli tylko jesteś przedstawicielem firmy, która chciałaby wyszkolić nowych pracowników w podobny sposób, napisz na

kontakt@riotechatafactory.com

Odpowiem tak szybko jak to możliwe. Dogadamy razem szczegóły i ułożymy plan w taki sposób, żeby za jakiś czas Twoje szeregi zasilili wspaniali Inżynierowie Big Data. Moją misją jest pomoc w takich właśnie momentach. Instruktorom z którymi współpracuję, także;-).

Jeśli chcesz mnie lepiej poznać, mam dla Ciebie kilka propozycji:

  1. Zapisz się na newsletter i odbierz darmowego ebooka o Big Data. Prawie 140 stron opisu branży z wielu różnych stron.
  2. Przejrzyj YouTube znajdziesz tam nie tylko materiały techniczne!
  3. Przesłuchaj podcast “Big Data Po Polsku”. Mówię tam o Big Data ludzkim językiem.

 

Loading
Nowe podejście do inflacji dzięki danym (Big Data Po Polsku) [Audio]

Nowe podejście do inflacji dzięki danym (Big Data Po Polsku) [Audio]

Chociaż inflacja to temat ostatnio dość przykry – warto szukać systemowych pomysłów “jak to ugryźć”. Tak się składa, że dzięki danym jesteśmy w stanie podejść do wyliczania inflacji w sposób niezwykle nowatorski. W dzisiejszym odcinku podcastu “Big Data Po Polsku” o tym jak moglibyśmy to zrobić. I o tym, że U NAS, W POLSCE to nie musi być takie odległe.

Nowe odcinki w co drugą środę. Zostań na dłużej! Subskrybuj kanał oraz zapisz się na newsletter;-)

Odcinek(2) – jak wyliczać dokładną inflację dzięki Big Data?

Gdzie znajdziesz ten odcinek?

Podcast znajdziesz w kilku miejscach. Linki będą sukcesywnie dochodzić.

  1. Spotify
  2. YouTube
  3. Podbean
  4. Tutaj!
  5. Apple podcast (niebawem)
  6. Google Podcast (niebawem)

Przypominam jeszcze, jeśli nie jesteś członkiem newslettera, po zaciągnięciu się na nasz okręt dostajesz na wejściu prawie 140 stron ebooka o Big Data! Nie zwlekaj;-)

 

Loading
Poznaj nowy podcast o Big Data! (Big Data Po Polsku) [Audio]

Poznaj nowy podcast o Big Data! (Big Data Po Polsku) [Audio]

Wreszcie, nastała ta chwila. Co prawda trzeba było przepłynąć naprawdę wzburzone morze, ale jest – mój pierwszy pełnowartościowy podcast! I – mam nadzieję – pierwszy taki podcast o Big Data. Przygotowywałem się (a może raczej – “zbierałem się”) do tego długo i tak naprawdę to było moje marzenie. Liczę, że jego spełnienie pozwoli Ci odkryć nieznane lądy;-).

Odcinek(0) – Jak poznawać świat dzięki Big Data?

Co czeka nas w zerowym odcinku? To “pilot” – chciałem dać pewien przedsmak tego co nas czeka. Co więc tu znajdziesz?

  1. Będzie o ciekawości – czyli jednej z najważniejszych naszych cech.
  2. O tym, że nasz świat jest zbudowany z danych i… rządzony jest przez algorytmy.
  3. Poznasz jednego z dwóch najmłodszych członków mojej rodziny!
  4. Dowiesz się kim jestem i o czym będzie ten podcast.
  5. No i… wyruszymy w podróż! Najpierw na wakacje, zobaczyć że nawet tam towarzyszy nam Big Data. Potem w podróż szlakiem Big Data;-)

Odcinek(1) – Jedna rzecz, która pomoże Ci (lepiej) zrozumieć branżę

Automatycznie wypuściłem dwa odcinki – na zachętę;-). Tym razem w odcinku:

  1. Jakie jest moje “małe” marzenie, które zmieni Polskę w “kraj big datowy”?
  2. Jaka jest najważniejsza rzecz w branży Big Data?
  3. Jak to jest realizowane technologicznie?

Czym nie będzie ten podcast?

Przede wszystkim – będzie tu mało technikaliów. Nie chcę mówić że ich nie będzie. Jeśli się jednak pojawią, to w bardzo prostej, strawnej formie;-). O co chodzi? Oczywiście nie będę cytował kodu. Z drugiej strony, nie wyobrażam sobie mówić o Big Data na tyle ogólnie, żeby nie dotknąć choćby “mięsa”, czyli budulca całości. Takie ogólne gadanie zostawiam badaczom z uniwersytetów. My tu przede wszystkim robimy Big Data, potem poznajemy szerszy kontekst;-).

Mam nadzieję jednak, że taka zdrowa dawka technikaliów ubogaci każdego. Bez zbędnych szczegółów, ale hej! Poznajmy jak to działa!

Czemu “Big Data Po Polsku”? Czyli o pierwszym takim podcascie.

No więc mamy tu grę słów. Z jednej strony chcę uwypuklić, że cały podcast jest po polsku. I że całe to środowisko (RDF) jest “po polsku” – co jest pewną odmiennością w świecie IT, szczególnie tej branży. Z drugiej strony – to nawiązanie do “mów po polsku!” – czyli po prostu “mów zrozumiale”. Mamy problem w branży ze zrozumiałym opowiadaniem i technologii. A jak ktoś już umie, to potem okazuje się, że średnio umie samą technologię. Tu postaramy się mówić o tym co rozumiemy w prostych słowach. Prostych, ale bez banalizowania!

Kolejna rzecz –  ten podcast nie będzie wykładem nauczyciela do ucznia. Sam widzę jaki ogrom wiedzy mam do poznania. I chcę wyruszyć w podróż po światowym oceanie widzianym przez pryzmat danych. Nie chcę jednak wyruszać sam. Dlatego zapraszam Cię na pokład – zaciągnij się do mojej załogi i płyńmy razem!

Co dokładnie, kiedy i jak?

Tematycznie podcast będzie dzielił się na 3 części:

  1. Poznawanie świata – oczywiście przez pryzmat danych. Niemniej dowiemy się jak dane zmieniają nasze społeczeństwo, wojnę, jak mogą zmienić medycynę czy… jak moglibyśmy zapanować nad tematem inflacji;-).
  2. Poznawanie branży – tak jak powiedziałem, będzie nieco technicznych odcinków. Nie chcę od tego uciekać. Chcę się z tym zmierzyć żeby pokazać, że można o tym opowiadać przystępnie.
  3. Szkolenia i biznes – RDF to firma szkoleniowo-doradcza. Będę opowiadał o “kuchni” tej roboty. O tym jak szkoli się adeptów Big Data, o swoich wpadkach z tworzeniem szkoleń czy… o tym jak samemu możemy się lepiej uczyć!

Jaka forma?

Podcastu “Big Data Po Polsku” będziesz mógł/mogła wysłuchać w dwóch formatach:

  1. Monolog – czyli spotkasz się sam na sam ze mną;-). Takie odcinki będą trwały około 20-30 minut.
  2. Rozmowa lub wywiad – jestem przekonany, że uda mi się przekonać do rozmowy fascynujących gości. Takie odcinki będą trwały dłużej. Ile? Cóż… no-limit!

Kiedy? W co drugą środę. Przynajmniej póki co – do końca roku;-). Uznajmy, że to pierwszy sezon. Jeśli się powiedzie, drugi będzie częstszy.

Gdzie znajdziesz podcast?

Podcast znajdziesz w kilku miejscach. Linki będą sukcesywnie dochodzić.

  1. Spotify
  2. YouTube
  3. Podbean
  4. Tutaj!
  5. Apple podcast (niebawem)
  6. Google Podcast (niebawem)

Przypominam jeszcze, jeśli nie jesteś członkiem newslettera, po zaciągnięciu się na nasz okręt dostajesz na wejściu prawie 140 stron ebooka o Big Data! Nie zwlekaj;-)

 

Loading
Jak wygląda klaster Big Data, na którym uczą się kursanci? [Wideo]

Jak wygląda klaster Big Data, na którym uczą się kursanci? [Wideo]

Po miesiącach materiałów (wideo i artykułów) technicznych, chciałbym uchylić rąbka “tajemnicy” dotyczącej szkoleń RDF. Konkretnie, na wideo opowiadam (i pokazuję) dość szczegółowo jaka jest infrastruktura technologiczna na której szkolą się kursanci RDF.

Klaster RDF do szkoleń – czyli na czym pracują kursanci?

Poniżej wklejam wideo i zapraszam do subskrybowania kanału RDF na YouTube;-)

Zapraszam na nasz profil LinkedIn oraz do newslettera;-).

UWAGA! Pierwszy polski ebook o Big Data już dostępny! Zapisz się na listę newslettera i podążaj “Szlakiem Big Data”. Więcej tutaj.

 

Loading
Czas na nowy newsletter Big Data!

Czas na nowy newsletter Big Data!

Od samego początku budowy RDFu wiem, że chcę komunikować się z zainteresowanymi za pomocą emaili. Przyjdzie taki czas, że będę robił to na naszym wspólnym portalu Big Datowym;-). Póki co jednak zostają emaile w ramach newslettera. Dzieje się tak z dwóch powodów, o których za chwilę. Od samego początku myślałem poważnie nad konkretną koncepcją newslettera. Jako że jednak wolę działać niż czekać na idealny punkt, po prostu pisałem. Teraz czas to zmienić. Weź jakąś pyszną latte i porozmawiajmy chwilę na temat tego jak będzie wyglądał newsletter RDF;-).

Czemu piszę newsletter?

Najlpierw ułóżmy sobie. Po co w ogóle newsletter? Zapewniam, że nie dlatego, że “wszedzie jest Panie, no musi być”. Nie musi. Chociaż z tego co słyszałem od speców marketingowych – warto (sam w marketingu jestem cienki jak leszcz, ale im wierzę).

Jeśli jednak jesteś po lekturze artykułu o dezinformacji w mediach społecznościowych (link nr 1 na dole), to mniej więcej wiesz jak one działają. I wiesz, że to że mnie obserwujesz, ja wrzucę dzisiaj o 9:00 post, a ty wejdziesz o 9:05, wcale nie oznacza, że taki post dostaniesz. Profil firmowy RDF obserwuje 120 osób. Gdy wstawiam post – po kilku dniach (6) dociera do około 20 osób. To oznacza, że jeśli wyświetlałoby tylko obserwującym, docierałoby jedynie do ok 17% z nich.

Gdyby. Bo wiemy, że raczej dociera także do ludzi poza tym gronem. To oznacza, że mój post dotarł zapewne zaledwie do kilku procent osób, które sobie tego życzyły!

Być może byłoby inaczej, gdybym napisał post stricte partyjny lub w innym gorącym temacie. Po pierwsze jednak – ciężko napisać post emocjonujący i gorący pozostając w ramach Big Data. Po drugie – nie mam zamiaru tego robić, bo nie widzę w tym wartości. Widzę jedynie antywartość dzielenia i ogłupiania odbiorców. A definitywnie nie o to mi chodzi;-). Technologia ma pomagać budować lepszy świat, nie gorszy.

Chcę więc mieć bezpośredni kontakt do Ciebie, jeśli tego sobie życzysz. To czy przeczytasz, Twoja rzecz. Nie każdy email Cię zainteresuje. ALE! Musisz mieć taką możliwość, jeśli chcesz być w kontakcie. To po prostu kwestia uczciwości:-).

Druga rzecz jest taka, że skrzynki pocztowe są znacznie lepiej skonstruowane niż portale. Czytając mój email – zwykle dłuższy;-) – nie mam “kolorowej alternatywy”. Chodzi mi tu o memy, filmiki i inne kolorowe, krzykliwe posty w otoczeniu. Jestem Ja i Ty. Czy to nie wspaniałe?

Newsletter dotychczas. Liczby i format.

Członkowie newslettera mieli dostęp do kolejnych etapów tworzenia pierwszego polskiego ebooka o Big Data.

Na początku po prostu pisałem. Do tej pory – udało mi się zgromadzić niewielką, ale fantastyczną grupkę osób. To (w chwili pisania tego artykułu) dokładnie 61 osób (realnie zgromadzone w ostatnich kilku miesiącach). Co ważne – to osoby praktycznie w 100% pozyskane bezpłatnie. Co jeszcze ważniejsze – zwykle każdy email czyta między 40 a 50% osób (czasami nawet więcej). To naprawdę fantastyczne statystyki. Wiem, bo robiłem to już kiedyś w zupełnie innej działce i bywało różnie;-). Co więcej – zdarza się, że dostaje emaile zwrotne. To zawsze miód na moje serce!

Tak czy inaczej – zawsze dawałem wartość. Oczywiście najbardziej podstawowa to aktualizacje. Zawsze na świeżo wiedziałeś/aś co nowego na blogu.

Ci którzy byli ze mną już jakiś czas – mieli dostęp do kolejnych etapów tworzenia ebooka “Szlakiem Big Data” (link nr 2 na dole). I mogli sami zgłaszać uwagi!

Obecnie, gdy tworzę podcast – najwięcej “od kuchni” zdradzam właśnie w newsletterze. (swoją drogą – dzisiaj udostępniam odc. nr 0. Tak, zgadłeś/aś – dla członków newslettera).

Czasami dzieliłem się tym jak wygląda moja robota, jakie są moje przemyślenia. Zawsze jednak było to mocno “co mi ślina na język przyniesie”. Teraz chciałbym to odrobinę ustrukturyzować, żebyś wiedział/a czego się spodziewać:-).

Nowy newsletter Big Datowy. Co zyskasz dołączając?

Czas zebrać w kupę rzeczy, które będę wysyłał. Tfu! Dzięki którym będziemy się komunikować;-). Naprawdę, po każdym emailu siedzę niczym nastolatka niecierpliwie oczekująca na pierwszą randkę, odświeżając pocztę i sprawdzając, czy odpisałeś/aś. Nie ma nic lepszego niż kontakt. Możemy wspólnie stworzyć coś fantastycznego;-).

Z czego będzie się składał newsletter:

  1. Ebook – chcemy zbudować społeczność Big Data? Zacznijmy od naprawdę mocnego wprowadzenia do branży. Totalnie za darmo. Dostaniesz to w emailu po rejestracji oraz w każdym późniejszym emailu na dole. (Więcej dowiesz się w linku nr 2 na dole artykułu)
  2. Emaile – raz w tygodniu. Nie chcę się zobowiązywać;-) Ale zapewne będzie to środa lub czwartek, jako że we wtorek lub środę będę publikował podcast. Co możesz znaleźć w ramach systematycznych emaili?
    • Temat przewodni – jeśli to nowa inicjatywa, super, będziesz wiedzieć pierwszy/a. Jeśli chcę się czymś podzielić osobistym (spokojnie, na tle Big Datowym;-)) – napiszę tutaj. Z czasem pewnie to statystyki dotyczące bloga, wiedza tajemna i inne fajne rzeczy niedostępne publicznie.
    • Sekcja techniczna – Ponieważ chcę także odsłaniać kolejne aspekty technologiczne, będę tu pisał krótko o technologiach lub ich konkretnych zagwozdkach. Postaram się napisać tak, żeby dało się w kilku/nastu zdaniach zawrzeć coś, co będzie wartościowe.
    • [Przyszłościowo] Sekcja szkoleniowa – ponieważ RDF to firma szkoleniowa, chciałbym podrzucać też konkretne wskazówki dotyczące tego jak się uczyć – szczególnie w kontekście technologicznym. Póki co muszę sobie to lepiej ułożyć, ale z pewnością w końcu do tego dojdzie;-)
  3. Możliwość wpływania na treści – jeśli tylko chcesz żebym zrobił materiał, masz możliwość napisania, a ja na 99% zrobię to. Oczywiście musi trzymać się w ramach. No i nie obiecuję kiedy, natomiast raczej dość priorytetowo;-). Wystarczy, że odpiszesz na email, zaczniemy rozmawiać i już! Tyczy się to zarówno kwestii technicznych, biznesowych, szkoleniowych. Tekst, audio lub wideo.
  4. Zniżki – Chociaż obecnie RDF to przede wszystkim szkolenia dla firm, niebawem pojawią się opcje także dla klientów idywidualnych. Głównie kursy online;-). Nie tylko dowiesz się o tym pierwszy/a, ale także będziesz miał/a możliwość tańszego zakupu.
  5. Materiały ekskluzywne – czyli materiały jedynie dla osób, które są zapisane na newsletter. Czy to podcast, czy wideo, czy artykuł – będą powstawały materiały jedynie dla społeczności. Chętny/a? Zapraszam!

To kupa roboty, jednak mam nadzieję, że da Ci tak dużo wartości jak tylko to możliwe;-).

Zapisz się już teraz:

 

Loading

Mimo wszystko – bądź z nami w mediach społecznościowych;-)

Chociaż nie jestem fanem tego jak działają media społecznościowe, nie zamierzam się na nie obrażać. Dlatego zapraszam już teraz – dołącz jako obserwujący na LinkedIn czy YouTube. Szczególnie w tym drugim medium, dopiero raczkujemy i potrzebuję “głosów”;-). Dawaj reakcje, komentarze, udostępnienia – wszystko, co pozwoli wbić się materiałom Big Datowym do głównego nurtu, pośród gorące dyskusje polityczno-społeczne:-).

  1. LinkedIn.
  2. YouTube

UWAGA! Pierwszy polski ebook o Big Data już dostępny! Zapisz się na listę newslettera i podążaj “Szlakiem Big Data”. Więcej tutaj.

 

Loading

A teraz linki które pojawiły się w tekście:

  1. Artykuł o dezinformacji w mediach społecznościowych.
  2. Ebook “Szlakiem Big Data”.
Rządowa Megabaza – krok w dobrą stronę?

Rządowa Megabaza – krok w dobrą stronę?

Plany Rządu dotyczące utworzenia Megabazy danych o obywatelach spotkały się z głębokim sceptycyzmem. To dobrze. Czy nie jest to jednak krok w dobrą stronę? Co zrobić, żeby takim był? O tym w dzisiejszym artykule. Zapraszam od razu do subskrypcji oraz obserwowania na LinkedIn;-). Poprzedni materiał dotyczył cięższych tematów (wojna). Dziś więc nieco odsapniemy. Zatem kubek z naszym caffe latte w dłoń – i ruszamy!

Rządowa Megabaza – Wątpliwości

Dla tych, którzy nie wiedzą dokładnie o jaką “Megabazę” chodzi – odsyłam do artykułu w którym to wyjaśniałem. W skrócie jednak: Rząd planuje połączyć wiele z dostępnych już rejestrów gromadzących dane o obywatelach (np. GUS, dane medyczne itd.). W efekcie powstałaby Megabaza, która zawierałaby ogromną ilość danych o każdym z nas. Warto nadmienić, że – w teorii – baza ta służyłaby jedynie do dokonywania analiz, a dane byłyby pseudonimizowane.

No właśnie – w teorii. Problem polega jednak na tym, że wokół Megabazy powstało dość dużo niejasności. Od razu też zgromadziło się jeszcze więcej głosów sprzeciwu wobec powstania takiego rejestru. Chodziło o kilka kluczowych problemów:

  1. Megabaza ma powstać na drodze zwykłego rozporządzenia. Mowa tu także o informacjach chronionych tajemnicą – lekarską czy statystyczną.
  2. Co prawda cele mają być stricte analityczne, jednak są one określone na tyle ogólnie, że istnieje tu pole do nadużyć.
  3. Dane w przeprowadzonych analizach mają być pseudonimizowane. To jest zaś proces odwracalny (np. szyfrowanie symetryczne z kluczem tajnym). Jeśli będę miał klucz – dojdę do tego kto, gdzie, jak i z kim.
  4. Wojciech Klicki z Fundacji Panoptykon mówi:

    “Przy tak dużym zakresie danych, dostrzegam kolosalny potencjał do nadużyć. Nie ma żadnych gwarancji, że baza ta nie zostanie wykorzystana do celów stricte politycznych, wręcz do inżynierii politycznej”

Czy taki diabeł straszny?

Postarajmy się wygasić na chwilę emocje związane ze słowem “inwigilacja”. Zastanówmy się na chłodno, czy faktycznie pomysł jest tak straszny jak mówią o nim krytycy. Swoją drogą – warto też zwrócić uwagę kim są owi krytycy. To m.in. przytaczana wyżej w cytacie Fundacja Panoptykon. Jest to organizacja aktywnie lobbująca za skrajnym ograniczaniem możliwości polskich służb specjalnych. Opowiada się za daleko idącym ograniczaniem Państwa w dostępie do jakichkolwiek informacji dotyczących obywateli. Warto więc mieć na uwadze, że nie jest to głos wyważony. Spróbujmy jednak spojrzeć na argumenty, które opowiadają się po stronie budowania tego typu systemów.

Przede wszystkim – wbrew klikbajtowym tytułom, ciężko mówić tu o “orwellu” czy o “kolejnym poziomie inwigilacji”. Nie dajemy państwu dostępu do żadnych nowych danych. Dajemy jedynie możliwość, aby dane te były w sposób wygodny i skuteczny zintegrowane. Sytuacja w której przekazujemy jakiejś organizacji różne dane i boimy się, że będzie miała do nich odpowiedni dostęp przypomina domaganie się, aby organizacja ta działała w sposób niewydolny. Jeśli zgodziliśmy sie już, że któreś z informacji o nas samych mają trafiać do państwowych rejestrów – to one już tam są. Nie starajmy się znaleźć sposobów, aby nie mogły być one użyte. Prędzej domagajmy się ograniczenia w zbieraniu (jeśli ma to sens).

Co możemy zyskać, stawiając na Big Data w administracji publicznej?

Kolejna sprawa – nieco bardziej ogólna. Gromadzenie dużych danych zgodnie z najlepszymi branżowymi przykładami może dać nam ogromne atuty. W tym konkretnym przypadku mówimy o możliwościach analitycznych. Jednym z przykładów (choć w nieco innej dziedzinie) może być wykrywanie podejrzanych firm, które warto skontrolować. Nie tylko pozwoliłoby to zawczasu zlokalizować oszustów. Być może znacznie ważniejszą zaletą byłoby to, że bardzo mocno ograniczylibyśmy liczbę kontroli w firmach, które są uczciwe.

Inny przykład opisywałem w tym artykule. Przy odpowiednich danych będziemy w stanie bardzo dokładnie obliczać inflację. Nie tylko ogólnokrajową. Także regionalną, a nawet… osobistą, dla każdego.z osobna. To byłby ruch, który dałby niewyobrażalne wcześniej możliwości kształtowania polityki gospodarczej rządu. Czasy mamy takie, że wszystko zmienia się w tempie błyskawicy. Nie możemy nie myśleć o stworzeniu narzędzi reagowania na te zmiany. Narzędzia te muszą dysponować (bardzo dużymi) danymi i opierać się na nich.

Stawiając na Big Data możemy znacznie lepiej zrozumieć społeczeństwo. Możemy usprawnić naszą administrację – tyczy się to także szeroko pojętej “cyfryzacji”. Wszyscy widzimy to na przykładzie e-recept. Pamiętajmy, że cyfryzacja musi wiązać się z gromadzeniem tych danych, a następnie zarządzaniem nimi. Albo będziemy uciekać od tego, albo możemy zabrać się do sprawy “na serio”.

Budowanie kompetencji Big Data w administracji może przynieść także gigantyczne przewagi w obszarze służb specjalnych – wywiadowczych i kontrwywiadowczych. Widzimy za naszą wschodnią granicą jak tego typu możliwości sprawdzają się w przypadku wojny. Nas szczególnie powinny tego typu tematy interesować. Nie możemy chować głowy w piasek i zachowywać się, jakbyśmy byli Szwajcarią czy Niderlandami.

Czy naprawdę jest tak kolorowo?

Powyżej przytoczyłem kilka słów wsparcia wobec tego typu projektów. Niestety, trzeba też jasno powiedzieć, że wiążą się one z wieloma wątpliwościami. Są to między innymi właśnie wymienione powyżej nadużycia ze strony władz. Te niejednokrotnie pokazały, że służby specjalne mogą być wykorzystywane bardzo instrumentalnie, w interesie partyjnym. I to niezależnie od barw partyjnych.

Aby zmniejszyć tego typu spekulacje i obawy, władza powinna zacząć kierować się najwyższymi standardami i możliwie wysoką przejrzystością. Tam gdzie to możliwe – trzeba wskazać jak dokładnie odbywać się będzie zbieranie i analiza danych. Tam, gdzie tego typu operacje powinny pozostać za kurtyną, warto wyjaśnić obywatelom dlaczego konkretnie tak powinno być.

Z całą pewnością za takimi zmianami musi iść najlepsza możliwa komunikacja. Nie propaganda, ale zrozumiała komunikacja, po brzegi wypełniona szacunkiem do obywatela i jego inteligencji oraz potrzeby prywatności. Niestety, dzisiaj bardzo często jest dokładnie odwrotnie. Na potrzeby zbudowania nowoczesnej, opartej o dane administracji, warto rozmawiać i edukować także opozycję, zapraszać ekspertów. To musi wyjść poza nasze plemienne walki.

Inną sprawą jest bezpieczeństwo. Dane zgromadzone w jednym miejscu łatwiej jest wykraść. Oczywiście skorumpowany i zepsuty agent kontrwywiadu dojdzie do dowolnych danych niezależnie od tego gdzie są przechowywane. Warto jednak – idąc w stronę cyfryzacji i “ubigdatowienia” naszej administracji – położyć nacisk na trzymanie się najwyższych standardów bezpieczeństwa i zdobycie najlepszych fachowców. Lub współprace z nimi. Pamiętajmy, że drogą do lepszej administracji może (i moim zdaniem powinna) być współpraca z sektorem prywatnym.

Podsumowanie – rachunek zysków i strat

Słowem kończącym chciałbym powiedzieć o jednej rzeczy. Żyjemy w epoce, która jest naznaczona przez dwie rzeczy: dane oraz brak prywatności. Nie możemy od tego uciekać. Możemy co najwyżej wykorzystać to gdzie jesteśmy do zbudowania swojej przewagi.

Czy lepiej jest, gdy zachowujemy prywatność? Oczywiście. A czy lepiej jest mieć państwo, które jest w stanie sprawnie reagować na zmieniające się warunki i które zapewnia nam wysoką jakość usług? Także oczywiście.

Nie musimy wybierać. Możemy szukać rozwiązania, które jest “pomiędzy”. Z góry decydując się, że spora część naszej prywatności ucieknie. Bez hipokryzji przyznając także, że sami oddajemy ją w ręce wielkich korporacji. Kiedy umówimy się, że częściowo oddamy ją także w ręce państwa – oczekując w zamian efektów – możemy wyjść przed peleton. Jesteśmy w stanie, musimy tylko zbudować odpowiednie kompetencje i zachować spokój oraz wzajemną życzliwość, gdy budujemy wspólne miejsce do życia.

Zapraszam na nasz profil LinkedIn oraz do newslettera;-).

UWAGA! Już niedługo ukaże się pierwszy polski ebook o Big Data. Całkowicie za darmo dla subskrybentów bloga RDF. Zapisując się na newsletter TERAZ – masz niepowtarzalną okazję dostawać kolejne wersje książki i zgłaszać swoje poprawki, a nawet stać się jednym z autorów. Więcej tutaj.

 

Loading
Obrona przed wojenną dezinformacją – jak Big Data pomaga rozbić siatkę trolli? (Big Data At War)

Obrona przed wojenną dezinformacją – jak Big Data pomaga rozbić siatkę trolli? (Big Data At War)

Wojna dla większości z nas to czołgi, żołnierze z karabinami i naloty. Dla tych ciut “nowocześniejszych” to także drony i satelitarne rozpoznanie. Prawda jednak jest taka, że współczesna wojna zaczyna się znacznie, znacznie wcześniej – na długo przed pierwszym wystrzałem. To wojna informacyjna, która poprzedza konflikt gorący. Co ważne – wojna informacyjna nie kończy się w momencie pierwszego uderzenia rakiet. Co jeszcze ważniejsze – ona nie kończy się nawet wraz z ogłoszeniem rozejmu. To podstawowy front, dzięki któremu zdobywa się cele polityczne i kształtuje świadomość. I tutaj – niespodzianka! – Big Data odgrywa bardzo ważną rolę. Zrób sobie solidną kawę i zapraszam na trzeci odcinek z serii “Big Data na wojnie”!

Mgła wojny informacyjnej

Wchodzisz na Twittera i widzisz ciąg postów. Część dotyka kwestii ekonomicznych, w niektórych to politycy nawzajem przekrzykują się który z nich napsuł więcej. Klasyka. W końcu trafiasz na podrzuconą wiadomość jednego z użytkowników. Widzisz go pierwszy raz, ale sama wiadomość przyciąga wzrok – wszystko w kontekście agresji rosyjskiej i pomocy Polaków względem Ukraińców.

“Czas na przerwę. Poziom spierdolenia większości na fali romantycznego uniesienia w walce o interesy cwaniaków i idiotów przekroczył granice samodzielnie myślącego człowieka”.

Przekonuj Cię to? Może zbyt wulgarne? Więc może raczej to?

“Większość przybyszów z Ukrainy ucieka przed reżymem Żełeńskiego. Wojna to tylko okazja. To nie jest ich wina! Trzeba podejść ze zrozumieniem.”

Wydaje się wciąż zbyt mocne? A może jesteś patriotą/patriotką? W takim razie zaciekawi Cię biało-czerwona grafika i post zmuszający do przemyśleń.

“Biało czerwona – oto jedyna flaga jaką kocham i respektuję! I jedyna, którą znajdziecie w mojej klapie

Każdy z tych postów jest inny. Każdy ma inne wyważenie, każdy uderza w inny obszar potencjalnych wątpliwości. Prawdopodobnie część z nich Cię odrzuciła, być może tylko jednego nie odrzucisz. I to już coś.

Wojna dezinformacyjna nie jest prosta i siermiężna. Wywołuje wątpliwości na wielu poziomach. Adresowana jest do różnych osób. Każdy z nas ma inną wrażliwość i inne doświadczenia życiowe. W wojnie informacyjnej grunt, żeby wykorzystać odpowiednie narzędzia do odpowiednich osób.

Będąc “w środku” całego zamieszania, nie widzimy prawidłowego kształtu wojny informacyjnej.  Widzimy jedynie jeden post, drugi, trzeci. Do tego komentarz, grafikę i film. Każdy z tych bodźców odbieramy niejako osobno. Taką właśnie sytuację możemy nazwać nowoczesną odmianą Mgły Wojny – pojęcia, które klasyk wojskowości i geopolityki Carl von Clausewitz wprowadził w… 1832 roku.

Tak nawiasem – wpisy powyżej nie są prawdziwe. Ale każdy z nich pod podobną postacią faktycznie był opublikowany. Zmieniłem, aby nie wskazywać na konkretne osoby. Dociekliwi jednak znajdą ich prawdziwych autorów bez problemu;-).

Budowa mediów społecznościowych

Być może to zabrzmi spiskowo, ale to jakie treści widzisz na tablicy Twittera, to nie przypadek. Na szczęście to żaden spisek – to czysta matematyka. Aby to mniej więcej zrozumieć, pomyślmy o tym jak zbudowane są media społecznościowe i jak działają.

Mały “disclaimer”

W tym rozdziale stosuję bardzo dużo daleko idących uproszczeń:

  1. Będę często mówił “media społecznościowe” a potem opisywał budowę Twittera. Chociaż każde medium jest zbudowane inaczej, ogólna architektura jest dość podobna. Twitter natomiast jest najprostszy, a do tego w kwestiach polityczno-społecznych, wykorzystywany jest bardzo mocno.
  2. Będę opisywał media społecznościowe jako graf. Ich faktyczna budowa jest oczywiście znacznie bardziej skomplikowana.
  3. Opiszę algorytmy. Tak naprawdę nie przedstawię żadnego algorytmu wprost. Po pierwsze, byłoby to absolutnie niezjadliwe w takim artykule. Po drugie – algorytmy te nie są jawne i publiczne (nie znam ich). Musimy się domyślać, ale ogólne mechanizmy nie są wcale takie znowu bardzo niejasne.

Mam nadzieję, że to nie przeszkodzi w niczym.

Jeden wielki graf

Media społecznościowe <uproszczenie> to jeden wielki graf </uproszczenie>.  Ba – nasze społeczeństwo to jeden, naprawdę ogromny, graf. A tak naprawdę wiele bardzo różnych, ogromnych grafów.

Ale zaraz… czym w ogóle jest graf? Wyobraź sobie, że budujesz drzewo genealogiczne swojej rodziny. Dla uproszczenia – na papierze;-). Wypiszesz więc członków rodziny – najczęściej jako zdjęcia w kółkach, oraz pokrewieństwa – jako kreseczki między nimi. To właśnie jest dość specyficzny graf. Dokładnie to DAG, czyli graf skierowany, acykliczny, a jeszcze dokładniej – to drzewo. Nie jest to jednak istotne, natomiast aby poszerzyć swoje matematyczne pojęcie na ten temat, można zerknąć choćby do Wikipedii;-).

Typowy graf matematyczny (źródło: wikipedia)

Tak więc w grafie mamy dwie podstawowe rzeczy:

  1. Węzły/wierzchołki (nodes) – w przypadku naszego drzewa genealogicznego będą to ludzie.
  2. Połączenia/ścieżki/krawędzie (connections/links/edges) – połączenia między węzłami. Ma to byś skonstruowane w taki sposób, że krawędzie zawsze łączą się z dwoma wierzchołkami.

Jak media społecznościowe nas “ugrafiawiają”?

Bardzo podobną konstrukcję można zaobserwować w mediach społecznościowych. Weźmy najprostszą płaszczyznę na tapet:

  1. Konta użytkownikówwierzchołkami grafu
  2. Jeśli dane konto kogoś obserwuje – tworzymy połączenie (krawędź) od jednego do drugiego konta.

Grafów jednak może być więcej. Chociażby w kontekście komentowania postów czy kliknięć “serduszek”. W niczym jednak taka mnogość nie przeszkadza. Co więcej – grafy te można na siebie n nakładać, aby wychwytywać te najmocniejsze połączenia.

Słynne algorytmy mediów społecznościowych

Niejednokrotnie słyszeliśmy o kontrowersyjnych “algorytmach Facebooka”. Mają one premiować treści kontrowersyjne, wzbudzające podziały. O co w tym wszystkim chodzi? Otóż – na naszej tablicy nie pojawiają się jedynie wpisy osób które obserwujemy. Co więcej – nawet jeśli tych osób, to też jedynie wybrane. Jak to się dzieje? Tu wchodzimy w sferę domysłów. Natomiast – mediom społecznościowym zależy na utrzymaniu naszej uwagi jak najdłużej. W związku z tym musi wybrać te posty, które nam się wyświetlą i które utrzymają naszą uwagę możliwie długo. Jeśli się da – dobrze byłoby nas wciągnąć w jakąś dyskusję.

Frances Haugen (po prawej) to sygnalistka. Była pracownica Facebooka ujawniła ogromną ilość dokumentów wewnętrznych, które mają wskazywać, jakoby premiowane miały być treści kontrowersyjne, polaryzacyjne.

Właśnie dlatego wybierane są tweety, które… są popularne. To dość proste założenie. Jeśli coś nabiera sporą popularność- jest szansa, że spodoba się także innym użytkownikom. Liczą się więc wyświetlenia, ale przede wszystkim wszelkie reakcje – polubienia, podanie dalej, komentarz. Dodatkowo mechanizmy wiedzą ile czasu spędzamy nad danym postem/zdjęciem – to także zapewne ma znaczenie.

Co więcej – sama treść także może mieć znaczenie. Dzięki algorytmom Machine Learning, Facebook wie o tym czy dana treść będzie pozytywna czy negatywna. Wzbudzająca emocje, czy raczej “sucha”. Tu nie chodzi o samo proste badanie sentymentu – w założeniu są tu dużo, dużo większe możliwości.

Piszę tu nie bez powodu o Facebooku. W 2021 r. za sprawą byłej pracownicy Korporacji, Frances Haugen, świat poznał dziesiątki tysięcy wewnętrznych dokumentów tego medium“Facebook Papers” – jak zostały nazwane dokumenty – pokazują, że premiowane są najbardziej kontrowersyjne, polaryzacyjne treści.

Gniew i nienawiść jest najłatwiejszym sposobem na wzrost na Facebooku”

Frances Haugen

Walka z dezinformacją – Rozpoznanie niewidocznych wzorców

Wykorzystanie mechanizmów do szerzenia dezinformacji

Czas dobrnąć do brzegu, na którym zrozumiemy dlaczego to wszystko jest tak bardzo istotne. Choć oczywiście zaledwie liznęliśmy wątek budowy mediów społecznościowych – mamy już ogólne pojęcie w temacie. Jeśli widzimy strukturę oraz skomplikowane algorytmy, prosty wniosek jest taki, że możemy się… pod nie podczepić. Nie musimy Mieć gigantycznych zasięgów aby mieć wpływ. “Wystarczy” odpowiednio zbudowana siatka, która generuje specyficzne treści i w przemyślany sposób je dystrybuuje.

Tak zbudowana maszynka może podawać rozmaite rodzaje tweetów (jak pokazałem powyżej). Ponieważ jest to siatka, utworzenie w sztuczny sposób popularności nie musi być trudne. Stworzenie polaryzacyjnych treści też nie. Tak zredagowane wpisy automatycznie wykryje maszynka Twittera i pokaże innym, którzy mogą być zainteresowani. W ten sposób cała siatka powiększa się o osoby nie będące trollami, które często nieświadomie szerzą propagandę. Takie osoby nie mają oczywiście świadomości tego co robią, ponieważ widzą jedynie jednostkowy tweet, są owładnięte “mgłą wojny informacyjnej”.

Jan C z Data Hunters: “Rosyjskie trole w natarciu. Wygląda, że tak samo im blisko do propagowania niedlasegregacjisanitarnej jak i niewspieramukrainy #dezinformacja #osint #UkraineWar #Poland”

Działania kontr-dezinformacyjne. Rozpędzanie “mgły wojny”

Oczywiście za tym wszystkim stoją potężne mechanizmy operowania na ogromnych zbiorach danych. Osoby projektujące rozgrywki w ramach wojny informacyjnej wykorzystują je inteligentnie. Mają ogląd “z góry”, w przeciwieństwie do “ofiar”, które spowite są mgłą wojny.

Na szczęście jest nadzieja. Można – wykorzystując narzędzia Big Data – wyfrunąć do góry i z lotu ptaka spojrzeć na całość. Dzięki temu możemy odrobinę pominąć mgłę wojny i zacząć szukać wzorców i całych siatek, które daną dezinformację szerzą.

Jak za pomocą narzędzi Big Data wykryć siatki?

Chciałbym bardzo w tym miejscu podzielić się swoim własnym doświadczeniem. Miałem okazję i zaszczyt pracować z jednym z narzędzi, które obecnie jest testowane, w grupie kilku badaczy. TTM – robocza nazwa – pozwala na pobieranie z Twittera danych i poddawanie ich odpowiedniej analizie grafowej. Następnie, dzięki narzędziu Graphistry można zwizualizować sobie wynik odpowiedniej analizy. Więcej na ten temat można przeczytać na blogu Data Hunters.

W podlinkowanym artykule można przeczytać dokładnie zdarzenia od których wyszliśmy z naszą analizą. Tutaj chciałbym wyselekcjonować kilka kroków, które moim zdaniem wspaniale pozwalają wykorzystać automatyzację i możliwości przeczesywania setek tysięcy, czy nawet milionów kont Twitterowych. Co ważne: nie jest (i nie powinien być) to proces w pełni automatyczny. Aspekt ludzki zawsze będzie tutaj istotny. Odpowiednie mechanizmy mogą jednak umożliwić dotarcie do tego co istotne.

Oto potencjalny schemat, podobny do tego który my stosowaliśmy:

  1. Wyszukiwanie ogólnych wzorców – pierwszy krok to zlecenie wykonania analizy przez mechanizm. To  bardziej sztuka niż rzemiosło. Musimy zastanowić się które zachowania mogą nas odrobine naprowadzić na ludzi szerzących dezinformację. Możemy więc poszukiwać po ludziach którzy wykorzystują odpowiednie hashtagi, którzy wchodzili w interakcje z innymi kontami czy takimi, którzy udostępnili konkretne tweety. Nie należy ograniczać się w tym punkcie jedynie do naszej tematyki. Bardzo popularnym wzorcem była transformacja kont “anty-covidowych”. Można też sprawdzać najbardziej wulgarne hashtagi antyrządowe itd.
  2. Selekcja i statystyki powtarzających się dużych wierzchołków – po wielu przeprowadzonych analizach, część kont zaczyna się powtarzać w wielu kontekstach. Warto więc “odłożyć je na bok”  i sprawdzić także inne dane na ich temat. Mogą to być statystyki publikowanych tweetów, czas aktywności (konto które jest aktywne 20-24 h na dobę, jest podejrzane z natury) itd.
  3. Weryfikacja ręczna – na sam koniec najmniej przyjemna część. Po wielkiej obróbce z pierwszego punktu i częściowym obcięciu w drugim – czas po prostu przejrzeć te konta ręcznie. Może bowiem być tak, że wszelkie poszlaki wskazują na konta, których absolutnie nie można zaliczyć do trolli. Część natomiast można i warto:-).

Dokładniejszy opis tego jak działaliśmy znajduje się w podlinkowanym artykule. Natomiast powiem jedno: dzięki takiej analizie nie tylko znaleźliśmy konta, które były nieoczywiste. Także odkryliśmy zmianę taktyki, która polegała na zmniejszeniu liczby hashtagów. Co – dla mnie osobiście – najciekawsze, znaleźliśmy przygotowywaną od dawna siatkę, która stroniła od bycia ogromnymi ośrodkami. Utrzymywała się za to w trudnym do wykrycia obszarze średniej wielkości.

Podsumowanie

Wojna informacyjna jest współcześnie ogromną częścią rywalizacji międzynarodowej. Musimy zdawać sobie sprawę, że działania te są prowadzone tam, gdzie jesteśmy my. W tym artykule opisałem na czym polega mgła wojny informacyjnej. Jak w nią wpadamy i… jak wykorzystując narzędzia Big Data można z dezinformacją walczyć.

W kontekście osobistego przeciwdziałania i obrony – uważam, że najważniejsze to zachować zdrowy sceptycyzm do wszystkiego co wywołuje duże emocje. Jednocześnie z zachowaniem dużej dozy szacunku do każdego z kim rozmawiamy. Jeśli to osiągniemy – dezinformacja będzie przynosić znacznie mniejsze owoce.

Daj znać w komentarzu jak się podobało. Zapraszam też na profil RDF na LinkedIn oraz do newslettera. Pozostańmy w kontakcie!

UWAGA! Już niedługo ukaże się pierwszy polski ebook o Big Data. Całkowicie za darmo dla subskrybentów bloga RDF. Zapisując się na newsletter TERAZ – masz niepowtarzalną okazję dostawać kolejne wersje książki i zgłaszać swoje poprawki, a nawet stać się jednym z autorów. Więcej tutaj.

 

Loading