Big Data ante portas DOI:10.15199/13.2016.2.5
Big Data jest jednym z najważniejszych wyzwań współczesnej
nformatyki. Wobec zmasowanego napływu wielkich ilości informacji
obecnych czasach pochodzących z różnych źródeł, konieczne
jest wprowadzanie nowych technik analizy danych oraz rozwiązań
technologicznych.
Słowa kluczowe: Big Data.Masowość to pojęcie, które na informatyce przełomu XX
i XXI w. odcisnęło największe chyba piętno. Kiedy na rynek
wchodziły pierwsze komputery osobiste nikt nie był w stanie
przewidzieć jak zmieni się codzienność mniej więcej dekadę
później kiedy nowa rzesza użytkowników osobistych komputerów
zaczęli korzystać z sieci internet. Nawet wtedy niewielu
zrozumiało, że to masowość była hasłem łączącym doniosłość
obu tych wydarzeń, i że to masowość będzie rozdawać
karty i zmieniać rzeczywistość świata przez następnych kilka
dekad.
Potęgą komputerów osobistych było to, że były on wystarczająco
niezawodne i wystarczająco tanie by "zejść pod
strzechy". Stały się one narzędziem codziennej pracy wielu
osób. Internet swoją siłę również zawdzięcza temu, że korzysta
z niego duży odsetek społeczeństw. To dzięki masowości
użytkowników internetu łatwo nam znaleźć tam znajomych
(bo Ci znajomi tam są) czy łatwo znaleźć dostawców poszukiwanych
przez nas usług (bo Ci dostawcy już tam są).
Uboczne skutki rewolucji cyfrowej
Masowa cyfrowa rewolucja ma jednak swój skutek uboczny.
Jest nim gwałtowny przyrost powstających danych. W minionych
wiekach wzrost liczby informacji wynikał tylko ze
stworzenia jakiegoś nowego dzieła (np. tekstu, utworu) lub
skopiowania istniejącego. XIX wiek przyniósł radio, nagrania
dźwięku, obrazu i telegramy powiększając ślad informacyjny
jaki zostawiały po sobie kolejne pokolenia. Komputery osobiste
i internet spowodowały że danych i informacji zaczęło
nagle przybywać w masowej skali. Każde urządzenie tworzy
logi swojego działania, komputery komunikują się między
sobą, użytkownicy używają komputerów do tworzenia
nowych danych, którymi są [...]
Hadoop, narzędzie technologii Big Data i jego aplikacje DOI:10.15199/13.2016.3.7
Big Data jest jednym z najważniejszych wyzwań współczesnej
nformatyki. Wobec zmasowanego napływu wielkich ilości informacji
obecnych czasach pochodzących z różnych źródeł, konieczne
jest wprowadzanie nowych technik analizy danych oraz rozwiązań
technologicznych. Ważnym narzędziem w Big Data jest oprogramowanie
Hadoop.
Słowa kluczowe: Big Data, Hadoop, NoSql, MapReduce, przetwarzanie
równoległe.Big Data jest pojęciem powstałym w ostatnich latach. Dotyczy
ono wielkich zbiorów danych, bardzo szybko i w sposób ciągły
gromadzonych, a przy tym niezwykle różnorodnych . Ich przetwarzanie
wymaga specyficznych metod i narzędzi programistycznych.
Tym bardziej, że zbiory Big Data zawierają zwykle dane,
których nie można obrabiać metodami statystycznymi ze względu
na możliwość utraty jednostkowych, ale ważnych zdarzeń.
Najbardziej pożądane aspekty w przetwarzaniu zbiorów
Big Data to ich integracja, spójność, niezawodność, prostota,
terminowość. Takie przetwarzanie jest niezbędne dla sprawnego
wykorzystywania do zarządzania i podejmowania decyzji,
poszukiwania i odkrywania ogromnej ilości danych pochodzących
ze źródeł heterogenicznych. Liczba narzędzi obsługi
zbiorów Big Data bardzo szybko rośnie. Tu zostaną wymienione
jedynie najważniejsze.
Hadoop
Apache Hadoop to platforma programistyczna (ang. framework),
która służy tworzeniu aplikacji. Definiuje ona strukturę
aplikacji oraz ogólny mechanizm jej działania, a także dostarcza
zestaw komponentów i bibliotek ogólnego przeznaczenia
do wykonywania określonych zadań. Programista tworzy
aplikację, rozbudowując i dostosowując poszczególne komponenty
do wymagań realizowanego projektu, tworząc w ten
sposób gotową aplikację.
Frameworki bywają zwykle mylone z bibliotekami programistycznymi
choć może być zestawem bibliotek; framework
kieruje pracą wszystkich elementów programu (w tym i bibliotek),
ma funkcję zarządczą. Biblioteka jest tylko jednym
z narzędzi wykorzystywanym we frameworku. Przepł[...]
Big Data czyli analiza korelacji DOI:10.15199/13.2016.5.5
Big Data jest jednym z najważniejszych wyzwań współczesnej informatyki.
Wobec zmasowanego napływu wielkich ilości informacji
obecnych czasach pochodzących z różnych źródeł, konieczne
jest wprowadzanie nowych technik analizy danych oraz rozwiązań
technologicznych. Technologia Big Data dopiero się rodzi.
Słowa kluczowe: Big Data.Górnym ograniczeniem wielkości możliwego do zanalizowania
zbioru stanowi wielkość pamięci masowej systemu komputerowego,
na którym taką analizę będzie się prowadzić.
Pierwszy nowożytny dysk twardy, którego powstanie zapoczątkowało
de facto epokę danych cyfrowych, stworzono
w IBM w roku 1956. Pojemność tego dysku wynosiła 3,75 MB.
Dzisiejsze dyski twarde wykorzystywane w komputerach osobistych
mają pojemności liczone w terabajtach (TB), a więc
milionach megabajtów.
Nastąpił więc znaczny wzrost potencjalnej pojemności
dysków twardych, jednak zapotrzebowanie na pojemności
rośnie znacznie szybciej. Co prawda na największym dysku
twardym komputera klasy PC o pojemności rzędu 2 TB możliwe
jest zapisanie danych z ponad pięciu lat pomiaru np. światła
w jednym pomieszczeniu. Ale przy analizie danych dla stu
pokoi, możliwy czas zbierania danych skraca się do 19 dni.
Wielkie dane
Rozwój technologii powoduje gwałtowny wrost ilości produkowanych
danych. Wielki Zderzacz Hadronów (LHC) zbudowany
w ośrodku CERN w pobliżu Genewy generuje rocznie
30 petabajtów (PB) danych, czyli 30 miliardów megabajtów.
Silniki samolotu Boeing 787 generują średnio pół terabajta danych
na jeden lot (informacje te pozwalają zapobiegać kosztownym
naprawom przez usuwanie drobnych odstępstw od
normy zanim silnik zostanie unieruchomiony na ziemi, a tym
bardziej w powietrzu). Podane przykłady odnoszą się wyłącznie
do świata niewirtualnego, w którym gwałtowny przyrost
danych dopiero nastąpi wraz z popularyzacją Internetu Rzeczy.
W świecie wirtualnym przyrost danych jest jeszcze bardziej
gwałtowny i trwa już ponad dziesięć lat.
Pierwszym ogra[...]
Zastosowania technologii Big Data DOI:10.15199/13.2016.6.29
Omówiono niektóre z zastosowań technologii Big Data, która jest
jednym z najważniejszych wyzwań współczesnej informatyki. Wobec
zmasowanego napływu wielkich ilości informacji obecnych
czasach pochodzących z różnych źródeł, konieczne jest wprowadzanie
nowych technik i technologii analizy.
Słowa kluczowe: Big Data.Big Data w praktyce stosuje się już w wielu krajach, w wielu
branżach i do wielu modeli biznesowych [1, 2, 3]. Dla przedstawienia
najistotniejszych przykładów zastosowań zostały
one zgrupowane według kryterium korzyści, jakie dane zastosowanie
niesie. Poniżej zostaną pokrótce omówione dwie
grupy przykładów, prezentujących Big Data jako narzędzie:
● Służące wzrostowi wydajności procesów biznesowych,
całej organizacji czy też wydajności z punktu widzenia klienta,
● Redefiniujące istniejące branże lub tworzące nowe
branże zmieniające rynek.
Big Data jako narzędzie służące wzrostowi
wydajności
Najbardziej oczywiste i jednocześnie najczęstsze zastosowanie
Big Data to poprawa wydajności. Dwa przykłady dotyczą
modelu biznesu, w którym firma chce zapewnić wzrost wydajności
swoim klientom, zaś dwa następne pokazują wzrost
wydajności wewnętrznych procesów biznesowych. Ponadto
zostaną przedstawione przykłady mechanizmów Big Data
w przewidywaniu cen biletów lotniczych, przewidywaniu opóźnień
na lotniskach spowodowanych pogodą, przewidywaniu
potrzeb płatniczych osób płacących kartami oraz przewidywaniu
potrzeb zakupowych klientów sieci hipermarketów.
Farecast
Farecast to założona w 2004 r. przez Orena Etzioni usługa,
której celem było przewidywanie zmian cen biletów na połączenia
lotnicze pomiędzy lotniskami w Stanach Zjednoczonych.
Od kwietnia 2014 r. o usłudze tej należy mówić już
w czasie przeszłym, ponieważ od momentu wykupienia Forecast
w 2008 r. przez Microsoft usługa nie była rozwijana, aż do
finalnego jej wyłączenia w roku 2014.
Farecast było pierwszą usługą, która szerokiemu gronu
odbiorców nie zajmującyc[...]
Niektóre problemy technologii Big Data DOI:10.15199/13.2016.11.18
Omówiono niektóre z problemy związane z rozwojem technologii Big
Data, która jest jednym z najważniejszych wyzwań współczesnej informatyki.
Słowa kluczowe: Big Data.Big Data, a więc przetwarzanie z duża szybkością wielkich ilości
różnorodnych danych jest technologią, bez jakiej na przykład
oczekiwany Internet Rzeczy nie może działać w powszechnej
skali. Ta technologia sieciowa, a zwłaszcza Internet Wszechrzeczy
jest nowym dla nas wyzwaniem wymaga bowiem nowych
rozwiązań informatycznych i nowego podejścia w projektowaniu
oprogramowania. Rodzi też szereg problemów, które wcześniej
czy później trzeba będzie rozwiązać.
Problemy natury technicznej
Wśród problemów natury technicznej wyróżnić należy zagadnienia
związane z anonimizacją danych i możliwością ich reidentyfikacji
(czyli takim przetworzeniem danych, aby uniemożliwić
identyfikację występujących w dokumentach osób fizycznych),
a także problemy związane przechowywaniem i przetwarzaniem
olbrzymich zbiorów danych.
Anonimizacja danych to proces polegający na usunięciu ze
zbioru danych informacji pozwalających na identyfikację konkretnej
osoby. Informacjami takimi są imię, nazwisko, adres, numer
IP, numer telefonu, itp. W klasycznych zbiorach danych - lub ściślej
- w czasach, w których zbiory danych nie były wszechobecne,
ochrona takich danych była wystarczająca.
W obowiązującej w Polsce Ustawie o Ochronie Danych Osobowych
ochroną objęte są dane osobowe wg definicji: "wszelkie
informacje dotyczące zidentyfikowanej lub możliwej do zidentyfikowania
osoby fizycznej". Anonimizacja powinna być zatem
procesem, prowadzącym do uniemożliwienia identyfikacji każdej
osoby fizycznej. Czy jednak jeżeli usuniemy ze zbioru danych
wyżej wskazane informacje uzyskamy ten cel? Jeśli w zbiorze
pozostanie chociażby adres e-mail to cel nie zostanie osiągnięty.
Jakkolwiek osoba używająca adresu andrzej669@gmail.com
nie może zostać zidentyfikowana tylko na podstawie takiej nazwy
skrzynki, to już użyt[...]
Problemy hydrauliczne cyrkulacji ciepłej wody w instalacjach z rur miedzianych
Omówiono niedociągnięcia normy PN-92/B-1706 dotyczące instalacji ciepłej wody. Podano wartości orientacyjne współczynników przepływu Kvs i współczynniki oporów miejscowych Ldw, jak również nomogram je[...]
Straty ciśnienia na zaworach prostych stosowanych w instalacjach sanitarnych
1. Wstęp W dotychczasowej praktyce projektowej straty ciśnienia na zaworach prostych (zaporowych, przelotowych) określano za pomocą współczynnika oporu miejscowego L, podawanego w literaturze, zwłaszc[...]
Straty ciśnienia na zaworach prostych stosowanych w instalacjach sanitarnych
Osady ściekowe wykazują wysokie walory glebotwórcze i nawozowe. Dominującym kryterium przyrodniczego wykorzystania osadów jako cennego nawozu organicznego jest zawartość składników pokarmowych i subst[...]
Ekoetykietowanie wyrobów
Idea wprowadzenia oznaczeń ekologicznych na produktach powstała w latach siedemdziesiątych ubiegłego wieku. Obecnie rozbudowane systemy ekooznaczeń funkcjonują już w wielu krajach. Etykietowanie poleg[...]
Stereotyp rozpływu mocy (prądu przemiennego w elementarnej sieci)
Na przykładzie elementarnego połączenia źródło - odbiorca w sieci AC zwraca się uwagę na zawodność istniejącego założenia kierunku rozpływu mocy. Abstrakt. Following an example of connection source - [...]