W 2008 roku inżynierowie Google’a opublikowali w Nature artykuł, w którym opisali swoje doświadczenia z modelowaniem rozprzestrzeniania się grypy na terytorium USA. Byli w stanie określić zjawisko w czasie rzeczywistym, podczas gdy rządowe Centrum Kontroli Chorób (CDC) miało te dane dopiero po tygodniu lub dwóch od wystąpienia przypadków zachorowań.
Z książki Cukiera dowiedziałem się więcej o tym, jak stworzono model, jak wyselekcjonowano zestaw 45 zwrotów, których pojawianie się w zapytaniach w połączeniu z geolokalizacją na podstawie numerów IP, pozwoliło określić gdzie pojawia się ognisko grypy.
W trakcie czytania, od razu myśl – a może by tak sprawdzić, czy jest korelacja pomiędzy wyszukiwaniami nazw spółek giełdowych a ich późniejszą ceną akcji – może tu dałoby się wyprzedzić rynek? Otóż nie byłem pierwszy z tym pytaniem. Jest ktoś, kto już się tym tematem zajmuje – zarówno naukowo, jak i praktycznie w pewnym funduszu… Nie zdradzę nic więcej – sami poczytajcie.
Z wyprzedzeniem powiem tylko, że jest pewien problem, o którym Cukier już nie pisze. Algorytm na grypę działał do 2012 roku, po czym zaczął się mylić. Widać to na ilustracji poniżej:
Więcej w oryginalnym źródle.
Google pracuje nad modyfikacją algorytmu. Inżynierowie tej firmy pracują też nad innymi zastosowaniami „data mining” i „big data”. Przy okazji przyczyniają się do generowania znacznie większej ilości informacji.
Ja zaczynam chyba rozumieć futurystów, którzy chcieli niszczyć profesorów, palić książki na stosach i burzyć muzea. Pamiętam, z jakim niedowierzaniem słuchałem naszej nauczycielki polskiego, która czytała nam manifest z początków ubiegłego wieku. Wtedy takie zachowanie nie mieściło mi się w głowie. Wychowany byłem w ekonomii niedoboru i nawet najmniejszy drobiazg trzeba było zachować, bo niewiadomy był dzień ani godzina kiedy może się przydać.
Teraz niedobór zamieniony został w nadmiar. Mamy za dużo rzeczy, za dużo kanałów w telewizji (której zresztą już nie oglądam), za dużo znajomych na fejsie (i FB celowo pokazuje nam tylko ułamek generowanych przez nich treści), za dużo wyników wyszukiwania, za dużo danych do przeanalizowania. Ten nadmiar prowadzi prostą drogą do paraliżu albo do świadomej rezygnacji – inaczej się nie da tego zjawiska ogarnąć.
Oba komputery, na których pracuję wyświetlają mi już komunikaty, że dyski twarde są zapełnione. Zdaje się, że niedługo dysk zewnętrzny 500 GB odmówi współpracy. Dziś już odłączał się kilkakrotnie. Ponoć to wina temperatury – najlepiej pracują w temperaturze 15°C, a dziś było ponad 2 razy więcej. Nieco od niego młodszy dysk 1 TB też odmówił dziś kopiowania, wyświetlając komunikat, że nie ma wystarczająco miejsca do ukończenia operacji. Gdy pomyślę, że jeszcze 30 lat temu komputer IBM AT z dyskiem twardym 20 MB kosztował tyle co samochód, a nabywcy w bankach byli przekonani, że wystarczy im na dekady archiwizacji… Obecnie, dysk twardy ma 25% szansy na awarię w ciągu pierwszych 4 lat działania. Postęp?
Wracając do analiz „big data” na moim rachitycznym sprzęcie natknąłem się na taki oto trend:
Popularność rośnie! Nawet wśród haseł wpisywanych do wyszukiwarki bieganie stało się popularniejsze od rolek:
Idę zatem pobiegać by poprawić sobie humor, przemyśleć to co będę chciał z dzisiejszych lektur zapamiętać i w przyszłości wykorzystywać.
Jeśli ktoś ma ochotę zrozumieć dlaczego „Big Data” napawało mnie strachem, to polecam lekturę Roberta Harrisa – „Indeks strachu”. Jest w wersji polskiej i do tego można posłuchać audiobooka.