Rząd planuje zbudowanie mega-bazy danych o obywatelach. Jakie mogą być skutki i… jak to zrobić?

“Zwykłym rozporządzeniem planuje się w Polsce utworzenie gigantycznej bazy danych, łączącej informacje z prawie wszystkich możliwych rejestrów” pisze “Dziennik Gazeta Prawna”. Tytuł: “Orwell po polsku. Rząd pracuje nad megabazą. >>Potencjał do nadużyć<<“. W tym artykule opiszę jak taka “Megabaza” miałaby być zbudowana. W kolejnych – czy to dobry pomysł oraz… jak można by taki system zbudować. Zapraszam!

Czym miałaby być “megabaza”?

Żyjemy w świecie gospodarki cyfrowej. Nie tylko firmy, ale i administracja państwowa zbierają od nas dane. Te są bardziej lub mniej wrażliwe. W formie elektronicznej państwo ma więc dostęp do numeru dowodu osobistego, danych medycznych, informacji  związanych ze stanem cywilnym i wielu, wielu innych. W tym momencie jednak istnieje ogromna liczba “małych” baz danych. Każda z nich odpowiada za inne informacje o nas i podlega innym jednostkom (np. jedne ministerstwu finansów, inne zdrowia itd.).

Rodzi to wiele problemów ze sprawnością funkcjonowania państwa oraz możliwościami wykorzystania danych, które ono posiada. Możemy intuicyjnie denerwować się, że w wielu miejscach podajemy te same dane, albo że jedna instytucja nie może funkcjonować sprawnie i skutecznie tylko dlatego, że nie ma dostępu do danych zgromadzonych przez inną. Trochę tak, jakby w małej firmie pomagającej w poprawie zdrowia rehabilitanci od kręgosłupa nie mieli dostępu do danych pacjentów od działu dietetyków.

Częściowo tego typu problemy ma zmienić planowana Megabaza (powinniśmy ująć w cudzysłów, ale nazwijmy już ją tak na potrzeby artykułu). Będzie ona spajać informacje z bardzo wielu państwowych miejsc w ramach jednego ogromnego centrum danych.

Czym NIE BĘDZIE Megabaza?

Warto jednak podkreślić, że planowana Megabaza nie będzie tym, o czym możemy w pierwszym momencie pomyśleć. Nie będzie miejscem szybkiego dostępu do połączonych danych każdego z nas. Możemy sobie wyobrazić sytuację, w której urzędnik ministerstwa finansów z ciekawości sprawdzi nie tylko dane firmy, w której będzie przeprowadzał kontrolę, ale i wyznanie, dane dotyczące dzieci i żony Prezesa owej firmy. Tego nie będzie.

Oto dlaczego. Megabaza nie będzie służyła do szybkiego przeglądania naszych danych. Będzie to raczej miejsce zbiorczego przechowywania informacji w celach analiz. Jak pisze portal DGP:

“Założenie jest takie, że dany podmiot publiczny zgłasza potrzebę przeprowadzenia konkretnych analiz. Minister cyfryzacji występuje do administratorów odpowiednich rejestrów, a ci przekazują mu dane po pseudonimizacji. W teorii po przeprowadzeniu analiz mają być one wykasowane. “

Czym różni się pseudonimizacja od anonimizacji?

 

Pada powyżej pojęcie “pseudonimizacji”. Podobnie brzmiąca jest również “anonimizacja”. Czym różnią się od siebie i dlaczego to istotne w tym kontekście? Sprawa jest bardzo prosta:

  • Anonimizacja to proces “ukrycia” danych w taki sposób, żeby nie dało się ich w żaden sposób poznać, ani do nich wrócić. Można anonimizować dane nie tylko przy pomocy nowoczesnych technik i technologii. “Analogowym” sposobem anonimizacji może być na przykład zakreślenie czarnym markerem nazwiska (a potem wykonanie kserokopii, aby zlikwidować prześwitywanie). Jeśli mówimy o cyfrowym zapisie, można usunąć konkretne dane, wylosować dowolny ciąg znaków lub – jeśli musimy zachować możliwość odwołania się do tych samych rekordów, można wykorzystać funkcję skrótu w określony sposób.
  • Pseudonimizacja – proces, który ma na celu to samo co anonimizacja, czyli ukrycie konkretnych danych (np. PESEL). Różni się jednak tą zasadniczą rzeczą, że pseudonimizację można odwrócić. Najbardziej popularnym sposobem jest po prostu szyfrowanie danych z kluczem tajnym (np. szyfrem AES). Dzięki temu, mając klucz, zawsze możemy dane odszyfrować.

Jedną z rzeczy które można spotkać szeroko w Internecie jest wymienienie funkcji skrótu jako metody pseudonimizacji. Być może się mylę (jeśli tak – nawróć mnie w komentarzu!), ale nie mogę się z tym zgodzić. Funkcje skrótu dążą do tego żeby nie dało się na podstawie konkretnego skrótu dotrzeć do pierwotnej wiadomości. Spełniają więc wymogi anonimizacji, nie pseudonimizacji. Oczywiście temat nie jest jednoznaczny i są określone warunki w których można by “odgadnąć” zahashowane wartości, ale sam mechanizm moim zdaniem jest anonimizacyjny.

W naszej Megabazie wyniki analiz mają być pseudonimizowane i w takiej formie wysyłane do zlecających analizę. To właśnie wzbudza pewne obawy ekspertów oraz aktywistów działających na rzecz przejrzystości działań władzy.

“Na dodatek nie wiem, jak wyglądać ma pseudonimizacja danych, która jest przecież procesem odwracalnym. Jeśli dane mają służyć do celów analitycznych, to oczywiste jest dla mnie, że powinny przechodzić proces pełnej anonimizacji “

Powyższy cytat pochodzi z wypowiedzi Wojciecha Klickiego z Fundacji Panoptykon. Tutaj wyjątkowo muszę się zgodzić. Chociaż fundacja Panoptykon jest organizacją kontrowersyjną, działającą wielokrotnie w sposób, który uważam za co najmniej niewłaściwy, w tym przypadku obawy są uzasadnione. Być może pseudonimizacja ma sens. Jeśli jednak tak jest, władze powinny dołożyć starań, aby to uzasadnić.

Z jakich źródeł będzie czerpać Megabaza?

Napisaliśmy już trochę na temat tego czym będzie a czym nie będzie Megabaza. Z jakich jednak dokładnie źródeł będzie korzystać? Poniżej lista instytucji:

  1. Rejestr PESEL
  2. Krajowa Ewidencja Podatników
  3. Rejestr Stanu Cywilnego
  4. Rejestr Dowodów Osobistych
  5. Rejestr Ministra Właściwego do Spraw Pracy
  6. Rejestr ZUS i KRUS
  7. Rejestry dotyczące świadczeń rodzinnych czy osób uprawnionych do alimentów
  8. Rejestry GUS
  9. Rejestry NFZ
  10. System informacji o ochronie zdrowia
  11. Rejestry oświatowe

Podsumowanie

Słowem podsumowania: Rząd planuje zbudowanie wielkiej Megabazy, która będzie spajać wiele zbiorów dostępnych dla administracji. Warto podkreślić jednak, że nie będzie to baza, do której każdy urzędnik będzie miał szybki, swobodny dostęp. Będzie to repozytorium, które ma usprawnić państwową analitykę.

W tym artykule przyjrzeliśmy się pobieżnie temu czym ma być rządowa Megabaza i z jakich źródeł ma się składać. W kolejnym artykule opiszę obawy oraz szanse, które dałoby zbudowanie tego typu systemu. Na samym końcu – rozrysuję jak można takie repozytorium skonstruować.

Ciekawy? Ciekawa? Zapraszam na profil LinkedIn oraz do newslettera;-).

UWAGA! Już niedługo ukaże się pierwszy polski ebook o Big Data. Całkowicie za darmo dla subskrybentów bloga RDF. Zapisując się na newsletter TERAZ – masz niepowtarzalną okazję dostawać kolejne wersje książki i zgłaszać swoje poprawki, a nawet stać się jednym z autorów. Więcej tutaj.

 

Loading

Leave a Reply

Your email address will not be published. Required fields are marked *