człowiek
Autor: Andrzej Janikowski | dodano: 2014-10-21
Sztuka porządkowania chaosu

Fot. East News

Nowoczesne rozwiązania informatyczne potrafią stworzyć z rozproszonych kawałków informacji zaskakująco precyzyjne charakterystyki zarówno całych grup społecznych, jak i pojedynczych ludzi. W ostatnich latach powstały – i wciąż powstają – coraz skuteczniejsze metody segregowania tego, co na pierwszy rzut oka wydaje się niemożliwe do uporządkowania. Całość problematyki zajmującej się tym porządkowaniem nazywa się Big Data. Pojęcie to nie doczekało się jednej precyzyjnej definicji. Spośród różnych, mniej lub bardziej trafnych określeń, chyba najbliższe prawdy jest stwierdzenie, że Big Data to przetwarzanie wielkich, nieustrukturyzowanych zbiorów danych. Wyniki tego porządkowania mogą okazać się bardzo przydatne dla specjalistów zajmujących się marketingiem, naukowców, wojskowych, ale także – każdego z nas.

Szybko, coraz szybciej

Żeby wykorzystać potencjał nieustrukturyzowanych zbiorów informacji, trzeba mieć – mówiąc w uproszczeniu – szybkie komputery i odpowiednie oprogramowanie. Inżynierowie stosują różne pomysły. Oracle daje np. zestaw narzędzi analitycznych do obróbki danych i tworzenia statystyk. Jednym z nich jest oprogramowanie Oracle Big Data SQL, które umożliwia formułowanie pytań dotyczących wszystkich rodzajów danych – usystematyzowanych i nieusystematyzowanych. Dzięki specjalnej technice, software wyszukuje informacje potrzebne do udzielenia odpowiedzi. Producent stosuje też wydajne serwery do obliczeń, a do składowania informacji – pamięci masowe i biblioteki taśmowe. Z kolei IBM ma superkomputer Watson i aplikacje semantyczne. Bez względu na zastosowane rozwiązanie informatyczne zawsze chodzi o to samo – aby przetworzyć wielką ilość bitów w czasie rzeczywistym lub z nieznacznym tylko opóźnieniem. Szybkość przetwarzania odgrywa bowiem w analizie wielkich zbiorów rolę najważniejszą.

Im mniej czasu zajmuje analiza, tym lepiej, bo błyskawiczne raportowanie daje korzyści trudne do przecenienia. Dzięki systemom Big Data można skuteczniej niż dotychczas badać nastroje konsumenckie, optymalizować łańcuch dostaw czy wykrywać oszustwa. Paweł Gajda z firmy SAP mówi, że badanie aktywności użytkowników na portalach społecznościowych może zaowocować niemal natychmiastową oceną rentowności wybranej usługi, a w konsekwencji np. zmodyfikowaniem akcji marketingowej. Piotr Pietrzak z IBM dodaje, że umiejętna selekcja i analiza wpisów zamieszczonych na Facebooku czy Twitterze pozwala zwiększyć sprzedaż. Dzięki tym samym informacjom można np. określić, ilu potencjalnych klientów znajduje się na określonym terytorium – w mieście, województwie lub kraju. Co więcej, korzystanie z wielu źródeł powoduje, że profil potencjalnego kupującego jest znacznie bardziej precyzyjny niż ten stworzony za pomocą klasycznych metod.

Praktycznym zastosowaniem podglądania sieciowej aktywności użytkowników en masse jest usługa sprawdzania ponad 500 mln tweetów publikowanych codziennie na Twitterze oferowana przez ­Salesforce. com. Korzystają z niej m.in. takie korporacje jak Dell czy Gatorade, a służy im ona do wczesnego rozpoznawania problemów dotyczących danej marki, usługi bądź konkretnego produktu. Polski ­Comarch pracuje nad nieco podobnym systemem, który dzięki analizie portali społecznościowych i wyszukiwaniu kluczowych informacji także pozwoli na ocenę danej marki czy produktu. System będzie radził sobie z analizą treści wypowiedzi i na tej podstawie pokaże, jaki produkt wzbudził uznanie internautów, a jaki jest przez nich krytykowany. Sercem rozwiązania jest tzw. silnik analizy sentymentu.

– Tego typu rozwiązania mają spore znaczenie dla firm, które inwestują w marketing internetowy i sprzedają w sieci – mówi Michał Stadnicki z Comarchu.

Procesory graficzne i koszule

Tomasz Wieczorek z Della mówi, że przeciętny zjadacz chleba przez lata stykał się z problematyką Big  ­ Data pośrednio, np. przeszukując internetową skrzynkę pocztową. Wkrótce jednak to rozwiązanie będzie wykorzystywane przez większość serwisów i aplikacji. Niedawno pojawił się np. mobilny system firmy ­ Cortexica, dzięki któremu konsumenci mogą odnaleźć w internecie niemal dowolny produkt, a następnie szybko ­ ustalić, gdzie można go kupić. Aby skorzystać z systemu, trzeba mieć telefon komórkowy lub tablet wyposażony w aparat fotograficzny i odpowiednią aplikację. Wyobraźmy sobie, że ktoś, kto ma taki zestaw, mija na ulicy osobę ubraną w koszulkę o niebanalnym wzornictwie, która bardzo mu się spodobała. Usługobiorca fotografuje tę osobę i wtedy aplikacja zaczyna działać, czyli przeszukiwać bazę pod kątem tego właśnie sfotografowanego produktu. Po zakończeniu procesu właściciel aparatu otrzymuje listę sklepów internetowych, które mają w ofercie sfotografowaną część garderoby. Cortexica stosuje sprzęt wykorzystujący procesory graficzne i złożone algorytmy rozpoznawania obrazu, dzięki którym przeszukiwanie bazy danych zawierającej miliony pozycji przebiega niemal bez opóźnień.

Big Data czy Big Brother?

Oczywiście Big Data interesują się wojskowi i inne służby mundurowe. Robotyzacja amerykańskiej armii sprawiła np., że pojawiła się konieczność szybkiej analizy informacji pochodzących z obserwacji wykonywanych przez setki czy nawet tysiące fruwających po świecie dronów. Każdego dnia komputery armii muszą przeanalizować około 800 godz. filmów nakręconych przez bezzałogowe samoloty. Rozwiązanie Big Data daje nieznane wcześniej możliwości w kontekście analizy potencjalnych zagrożeń.

Amerykańska Narodowa Agencja Wywiadowcza (NSA) czy niemiecka Federalna Służba Wywiadowcza (BND) prowadzą regularny monitoring mediów społecznościowych. Wystarczy zmienić kategorie analizy, a narzędzia dostarczające informacji marketingowcom zamieniają się w narzędzia przydatne wywiadowcom. Poza tym istnieją też autorskie projekty, których ­ celem jest wczesne ostrzeganie o nadchodzących ­ zagrożeniach czy służące prognozowaniu i wczesnemu ostrzeganiu przed klęskami żywiołowymi.

– Algorytmy analizują zachowania, a odstępstwo od normy inicjuje wygenerowanie sygnału ostrzegawczego umożliwiającego podjęcie działań zapobiegawczych – mówi Paweł Kozyra, prawnik zajmujący się nowymi technologiami.

Od przybytku głowa boli

Świat wirtualny ma to do siebie, że nadmiar informacji często uniemożliwia ich skuteczną interpretację. Repozytoria informatyczne różnych instytucji są często przepełnione – niekiedy tak bardzo, że trudno zrobić z nich użytek. Dziwne? Nie w świetle wyników pewnego międzynarodowego badania przeprowadzonego przez CIMA (Chartered Institute of Management Accountants) i AICPA (American Institute of Certified Public Accountants), w którym uczestniczyło 2 tys. ­ finansistów ze szczebla kierowniczego. Pokazało ono, że 86% firm nie radzi sobie z przekształcaniem zawartości szybko pęczniejących baz na wartościowe analizy biznesowe. Istnieją tylko dwa racjonalne rozwiązania tego problemu – usunięcie danych z nośników lub zastosowanie metod Big Data. Z oczywistych względów przedsiębiorcy decydują się na to drugie.

Z całą pewnością bazy informatyczne spęcznieją w niedalekiej przyszłości do trudnych do wyobrażenia rozmiarów. Co gorsza, dane w repozytoriach będą coraz bardziej rozproszone, a to od ich szybkiego przetworzenia będzie w dużej mierze zależało powodzenie lub porażka przedsięwzięć gospodarczych, militarnych czy antyterrorystycznych. Tymczasem w zaśmieconym różnymi mniej lub bardziej potrzebnymi informacjami elektronicznym świecie przybędzie wkrótce kolejny czynnik, który przyczyni się do zwiększenia rozmiarów cyfrowego wszechświata. Chodzi o tzw. internet rzeczy, który, wg badań firmy analitycznej IDC, będzie wielkim źródłem strumieni bitów. Internet rzeczy tworzą miliardy przedmiotów codziennego użytku wyposażone w identyfikatory oraz możliwość automatycznego rejestrowania, raportowania i otrzymywania danych. Może to być np. czujnik w bucie mierzący szybkość poruszania się właściciela lub sensor na moście śledzący wzorce ruchu pojazdów.

Według wspomnianego już IDC liczba urządzeń lub przedmiotów, które można by połączyć z internetem, zbliża się obecnie do 200 mld. Już obecnie z globalną siecią łączy się około 14 mld urządzeń, a wysyłane przez nie strumienie pakietów stanowią 2% światowych danych. Analitycy przewidują, że za sześć lat urządzeń tych będzie 32 mld i będą one generować 10% nowych danych na świecie. Oczywiście, to tylko prognozy, trzeba jednak pamiętać, że podobne estymacje dotyczące środowisk informatycznych były w przeszłości zazwyczaj niedoszacowane, a nie przeszacowane.

Co ciekawe, ilość danych rośnie szybciej niż możliwości ich przechowywania. Dostępna na świecie pojemność systemów składowania, czyli niewykorzystane bajty, na wszystkich nośnikach rośnie wolniej niż cyfrowy wszechświat. W 2013 r. wszystkie macierze dyskowe mogły pomieścić zaledwie 33% światowych danych i jest niemal pewne, że proporcja ta w przyszłości będzie się tylko pogarszała. Mimo że większość informacji cyfrowych ma charakter nietrwały – przykładem może być np. cyfrowa telewizja – część warta przechowania także stale się zwiększa.

 

 

Więcej w miesięczniku „Wiedza i Życie" nr 11/2014 »
Drukuj »
Ten artykuł nie został jeszcze skomentowany.
Aktualne numery
11/2018
10/2018
Kalendarium
Listopad
18
W 1934 r. amerykański lotnik Richard Byrd odkrył wulkan Mount Sidley na Antarktydzie.
Warto przeczytać
Autor bestsellerowej "Przyszłości umysłu" wkracza na niezbadane obszary astrofizyki, sztucznej inteligencji i nowoczesnej techniki, by przedstawić zapierającą dech w piersiach wizję naszej przyszłości w kosmosie i ostatecznego celu ludzkości.

WSPÓŁPRACUJEMY
Logowanie

Nazwa użytkownika

Hasło

Autor: Andrzej Janikowski | dodano: 2014-10-21
Sztuka porządkowania chaosu

Fot. East News

Nowoczesne rozwiązania informatyczne potrafią stworzyć z rozproszonych kawałków informacji zaskakująco precyzyjne charakterystyki zarówno całych grup społecznych, jak i pojedynczych ludzi. W ostatnich latach powstały – i wciąż powstają – coraz skuteczniejsze metody segregowania tego, co na pierwszy rzut oka wydaje się niemożliwe do uporządkowania. Całość problematyki zajmującej się tym porządkowaniem nazywa się Big Data. Pojęcie to nie doczekało się jednej precyzyjnej definicji. Spośród różnych, mniej lub bardziej trafnych określeń, chyba najbliższe prawdy jest stwierdzenie, że Big Data to przetwarzanie wielkich, nieustrukturyzowanych zbiorów danych. Wyniki tego porządkowania mogą okazać się bardzo przydatne dla specjalistów zajmujących się marketingiem, naukowców, wojskowych, ale także – każdego z nas.

Szybko, coraz szybciej

Żeby wykorzystać potencjał nieustrukturyzowanych zbiorów informacji, trzeba mieć – mówiąc w uproszczeniu – szybkie komputery i odpowiednie oprogramowanie. Inżynierowie stosują różne pomysły. Oracle daje np. zestaw narzędzi analitycznych do obróbki danych i tworzenia statystyk. Jednym z nich jest oprogramowanie Oracle Big Data SQL, które umożliwia formułowanie pytań dotyczących wszystkich rodzajów danych – usystematyzowanych i nieusystematyzowanych. Dzięki specjalnej technice, software wyszukuje informacje potrzebne do udzielenia odpowiedzi. Producent stosuje też wydajne serwery do obliczeń, a do składowania informacji – pamięci masowe i biblioteki taśmowe. Z kolei IBM ma superkomputer Watson i aplikacje semantyczne. Bez względu na zastosowane rozwiązanie informatyczne zawsze chodzi o to samo – aby przetworzyć wielką ilość bitów w czasie rzeczywistym lub z nieznacznym tylko opóźnieniem. Szybkość przetwarzania odgrywa bowiem w analizie wielkich zbiorów rolę najważniejszą.

Im mniej czasu zajmuje analiza, tym lepiej, bo błyskawiczne raportowanie daje korzyści trudne do przecenienia. Dzięki systemom Big Data można skuteczniej niż dotychczas badać nastroje konsumenckie, optymalizować łańcuch dostaw czy wykrywać oszustwa. Paweł Gajda z firmy SAP mówi, że badanie aktywności użytkowników na portalach społecznościowych może zaowocować niemal natychmiastową oceną rentowności wybranej usługi, a w konsekwencji np. zmodyfikowaniem akcji marketingowej. Piotr Pietrzak z IBM dodaje, że umiejętna selekcja i analiza wpisów zamieszczonych na Facebooku czy Twitterze pozwala zwiększyć sprzedaż. Dzięki tym samym informacjom można np. określić, ilu potencjalnych klientów znajduje się na określonym terytorium – w mieście, województwie lub kraju. Co więcej, korzystanie z wielu źródeł powoduje, że profil potencjalnego kupującego jest znacznie bardziej precyzyjny niż ten stworzony za pomocą klasycznych metod.

Praktycznym zastosowaniem podglądania sieciowej aktywności użytkowników en masse jest usługa sprawdzania ponad 500 mln tweetów publikowanych codziennie na Twitterze oferowana przez ­Salesforce. com. Korzystają z niej m.in. takie korporacje jak Dell czy Gatorade, a służy im ona do wczesnego rozpoznawania problemów dotyczących danej marki, usługi bądź konkretnego produktu. Polski ­Comarch pracuje nad nieco podobnym systemem, który dzięki analizie portali społecznościowych i wyszukiwaniu kluczowych informacji także pozwoli na ocenę danej marki czy produktu. System będzie radził sobie z analizą treści wypowiedzi i na tej podstawie pokaże, jaki produkt wzbudził uznanie internautów, a jaki jest przez nich krytykowany. Sercem rozwiązania jest tzw. silnik analizy sentymentu.

– Tego typu rozwiązania mają spore znaczenie dla firm, które inwestują w marketing internetowy i sprzedają w sieci – mówi Michał Stadnicki z Comarchu.

Procesory graficzne i koszule

Tomasz Wieczorek z Della mówi, że przeciętny zjadacz chleba przez lata stykał się z problematyką Big  ­ Data pośrednio, np. przeszukując internetową skrzynkę pocztową. Wkrótce jednak to rozwiązanie będzie wykorzystywane przez większość serwisów i aplikacji. Niedawno pojawił się np. mobilny system firmy ­ Cortexica, dzięki któremu konsumenci mogą odnaleźć w internecie niemal dowolny produkt, a następnie szybko ­ ustalić, gdzie można go kupić. Aby skorzystać z systemu, trzeba mieć telefon komórkowy lub tablet wyposażony w aparat fotograficzny i odpowiednią aplikację. Wyobraźmy sobie, że ktoś, kto ma taki zestaw, mija na ulicy osobę ubraną w koszulkę o niebanalnym wzornictwie, która bardzo mu się spodobała. Usługobiorca fotografuje tę osobę i wtedy aplikacja zaczyna działać, czyli przeszukiwać bazę pod kątem tego właśnie sfotografowanego produktu. Po zakończeniu procesu właściciel aparatu otrzymuje listę sklepów internetowych, które mają w ofercie sfotografowaną część garderoby. Cortexica stosuje sprzęt wykorzystujący procesory graficzne i złożone algorytmy rozpoznawania obrazu, dzięki którym przeszukiwanie bazy danych zawierającej miliony pozycji przebiega niemal bez opóźnień.

Big Data czy Big Brother?

Oczywiście Big Data interesują się wojskowi i inne służby mundurowe. Robotyzacja amerykańskiej armii sprawiła np., że pojawiła się konieczność szybkiej analizy informacji pochodzących z obserwacji wykonywanych przez setki czy nawet tysiące fruwających po świecie dronów. Każdego dnia komputery armii muszą przeanalizować około 800 godz. filmów nakręconych przez bezzałogowe samoloty. Rozwiązanie Big Data daje nieznane wcześniej możliwości w kontekście analizy potencjalnych zagrożeń.

Amerykańska Narodowa Agencja Wywiadowcza (NSA) czy niemiecka Federalna Służba Wywiadowcza (BND) prowadzą regularny monitoring mediów społecznościowych. Wystarczy zmienić kategorie analizy, a narzędzia dostarczające informacji marketingowcom zamieniają się w narzędzia przydatne wywiadowcom. Poza tym istnieją też autorskie projekty, których ­ celem jest wczesne ostrzeganie o nadchodzących ­ zagrożeniach czy służące prognozowaniu i wczesnemu ostrzeganiu przed klęskami żywiołowymi.

– Algorytmy analizują zachowania, a odstępstwo od normy inicjuje wygenerowanie sygnału ostrzegawczego umożliwiającego podjęcie działań zapobiegawczych – mówi Paweł Kozyra, prawnik zajmujący się nowymi technologiami.

Od przybytku głowa boli

Świat wirtualny ma to do siebie, że nadmiar informacji często uniemożliwia ich skuteczną interpretację. Repozytoria informatyczne różnych instytucji są często przepełnione – niekiedy tak bardzo, że trudno zrobić z nich użytek. Dziwne? Nie w świetle wyników pewnego międzynarodowego badania przeprowadzonego przez CIMA (Chartered Institute of Management Accountants) i AICPA (American Institute of Certified Public Accountants), w którym uczestniczyło 2 tys. ­ finansistów ze szczebla kierowniczego. Pokazało ono, że 86% firm nie radzi sobie z przekształcaniem zawartości szybko pęczniejących baz na wartościowe analizy biznesowe. Istnieją tylko dwa racjonalne rozwiązania tego problemu – usunięcie danych z nośników lub zastosowanie metod Big Data. Z oczywistych względów przedsiębiorcy decydują się na to drugie.

Z całą pewnością bazy informatyczne spęcznieją w niedalekiej przyszłości do trudnych do wyobrażenia rozmiarów. Co gorsza, dane w repozytoriach będą coraz bardziej rozproszone, a to od ich szybkiego przetworzenia będzie w dużej mierze zależało powodzenie lub porażka przedsięwzięć gospodarczych, militarnych czy antyterrorystycznych. Tymczasem w zaśmieconym różnymi mniej lub bardziej potrzebnymi informacjami elektronicznym świecie przybędzie wkrótce kolejny czynnik, który przyczyni się do zwiększenia rozmiarów cyfrowego wszechświata. Chodzi o tzw. internet rzeczy, który, wg badań firmy analitycznej IDC, będzie wielkim źródłem strumieni bitów. Internet rzeczy tworzą miliardy przedmiotów codziennego użytku wyposażone w identyfikatory oraz możliwość automatycznego rejestrowania, raportowania i otrzymywania danych. Może to być np. czujnik w bucie mierzący szybkość poruszania się właściciela lub sensor na moście śledzący wzorce ruchu pojazdów.

Według wspomnianego już IDC liczba urządzeń lub przedmiotów, które można by połączyć z internetem, zbliża się obecnie do 200 mld. Już obecnie z globalną siecią łączy się około 14 mld urządzeń, a wysyłane przez nie strumienie pakietów stanowią 2% światowych danych. Analitycy przewidują, że za sześć lat urządzeń tych będzie 32 mld i będą one generować 10% nowych danych na świecie. Oczywiście, to tylko prognozy, trzeba jednak pamiętać, że podobne estymacje dotyczące środowisk informatycznych były w przeszłości zazwyczaj niedoszacowane, a nie przeszacowane.

Co ciekawe, ilość danych rośnie szybciej niż możliwości ich przechowywania. Dostępna na świecie pojemność systemów składowania, czyli niewykorzystane bajty, na wszystkich nośnikach rośnie wolniej niż cyfrowy wszechświat. W 2013 r. wszystkie macierze dyskowe mogły pomieścić zaledwie 33% światowych danych i jest niemal pewne, że proporcja ta w przyszłości będzie się tylko pogarszała. Mimo że większość informacji cyfrowych ma charakter nietrwały – przykładem może być np. cyfrowa telewizja – część warta przechowania także stale się zwiększa.