Co to jest Big data

325

Big Data to termin, który odnosi się do dużych, zmiennych i zróżnicowanych zbiorów danych, które są trudne do przetworzenia i przeanalizowania, ale również cenne, ponieważ mogą one prowadzić do nowej wiedzy.

“Big Data” to popularne określenie szybkiego wzrostu i dostępności danych, zarówno ustrukturyzowanych, jak i nieustrukturyzowanych. Jednak to nie wielkość danych jest najważniejsza. Bardziej szczegółowe analizy z wykorzystaniem dużych danych mogą prowadzić do bardziej pewnych decyzji i zmian w strategii biznesowej.

Z tego artykułu dowiesz się:

  • Historia Big data
  • Potencjał technologii
  • Kto używa Big daty
  • Jak to działa

Historia i teraźniejszość big data

Podczas gdy termin “duże dane” sam w sobie jest stosunkowo nowy, gromadzenie i przechowywanie dużych ilości informacji do celów analitycznych jest praktykowane od dłuższego czasu. Koncepcja wielkich danych została przedstawiona na początku XXI wieku, kiedy to Doug Laney, analityk z branży, przedstawił popularną już dziś definicję, według której dane masowe to trzy “V”: volume, czyli ilość, velocity, czyli szybkość, i variety, czyli różnorodność.

Ilość. Organizacje gromadzą dane z różnych źródeł: transakcje biznesowe, media społecznościowe, dane z czujników, dane wymieniane między urządzeniami. W przeszłości przechowywanie tych danych było problemem, ale teraz nowe technologie (takie jak Hadoop) znacznie to ułatwiły.

Szybkość. Dane są tworzone i dostarczane niezwykle szybko i muszą być przetwarzane z zachowaniem odpowiedniego reżimu czasowego. Tagi RFID, czujniki i inteligentne liczniki wymagają ogromnej ilości danych do przetwarzania w czasie zbliżonym do rzeczywistego.

Różnorodność. Dane są dostępne w różnych formatach – od ustrukturyzowanych, numerycznych danych w tradycyjnych bazach danych po niestrukturyzowane dokumenty tekstowe, pocztę elektroniczną, wideo, audio, dane zawarte w znacznikach czasopism lub transakcje finansowe.

Gdy w SAS mówimy o danych masowych, brane są pod uwagę dwa dodatkowe wymiary:

Zmienność (variability) . Oprócz rosnącego tempa przepływu danych i ich rosnącej różnorodności, przepływy danych mogą podlegać dużym wahaniom okresowym. Czy którykolwiek z tematów jest szczególnie popularny w mediach społecznościowych? Czasami trudno jest zarządzać przepływem danych w szczycie dziennym, sezonowym lub wywołanym przez zdarzenie. Jest to jeszcze trudniejsze w przypadku danych nieustrukturyzowanych.

Złożoność (complexity). Dane docierają do nas z wielu różnych źródeł. Łączenie, dopasowywanie, oczyszczanie i przekształcanie danych w różne systemy jest zadaniem wymagającym dużego nakładu pracy. Jednak łączenie i zestawianie relacji, hierarchii i różnych relacji między danymi jest niezbędne. W przeciwnym razie strumienie danych mogą łatwo wymknąć się spod kontroli.

Potencjał big data

Ilość danych wytwarzanych i przechowywanych w skali globalnej jest niemal niewyobrażalna i dodatkowo stale rośnie. Oznacza to niewykorzystany potencjał informacji istotnych dla biznesu – wciąż analizowany jest tylko niewielki procent danych. Co to oznacza dla biznesu? Jak można lepiej wykorzystać strumienie informacji, które znajdują się w zasięgu organizacji na co dzień?

Dlaczego big data są ważne?

Wartość “Biga Data” nie zależy od tego, ile danych posiadamy, ale od tego, jak je wykorzystujemy. Na przykład, możemy używać danych z wielu źródeł aby: 1) zmniejszyć koszty, 2) skrócić czas, 3) stworzyć nową ofertę produktową, 4) podjąć lepsze decyzje. Jeśli połączymy dane masowe z zaawansowaną analityką, możemy wspierać operacje biznesowe takie jak:

  • Określić przyczyny awarii, usterek, usterek, defektów w czasie zbliżonym do rzeczywistego.
  • Generowanie kuponów w miejscu zakupów, bazując na zwyczajach zakupowych klienta.
  • Przeliczanie ryzyka całego portfela w ciągu minut.
  • Wykrycie oszukańczego zachowania, zanim znacząco wpłynie ono na Twoją organizację.

Kto używa big data?

Big Data wpływa na rozwój organizacji praktycznie w każdym sektorze rynku. Zobacz, jak różne branże korzystają z takich inicjatyw.

Banki, a Big Data

W bankowości strumienie danych pochodzące z wielu źródeł dają możliwość odkrycia nowej wiedzy i innowacyjnych sposobów zarządzania masowymi danymi. Z jednej strony kluczowe jest zrozumienie klienta i zwiększenie jego zadowolenia z oferowanych mu usług, z drugiej zaś zminimalizowanie ryzyka i ograniczenie potencjalnych nadużyć oraz zapewnienie zgodności z regulacjami instytucji nadzorczych. Duże dane pozwalają na zdobycie kompleksowej wiedzy, ale tylko wtedy, gdy instytucje finansowe przejdą na wyższy poziom wykorzystania zaawansowanej analityki.

Edukacja , a Big Data

Osoby odpowiedzialne za edukację mogą wnieść istotny wkład w rozwój systemu edukacji i programów nauczania poprzez wiedzę pochodzącą z analizy dużych zbiorów danych. Analiza dużych zbiorów danych może zidentyfikować zagrożenia dla uczniów, pomóc uczniom w wyborze właściwej ścieżki oraz poprawić ocenę i wsparcie dla nauczycieli.

Sektor publiczny , a Big Data

Instytucje publiczne mogą wykorzystywać masową analizę danych w celu poprawy zarządzania, optymalizacji kosztów, poprawy jakości usług dla obywateli i zapobiegania przestępczości. Oczywiście zasadnicze znaczenie mają tutaj wymogi dotyczące przejrzystości i ochrony prywatności obywateli.

Ochrona zdrowia , a Big Data

W przypadku opieki zdrowotnej wszystko musi być zrobione szybko i dokładnie, często z zachowaniem zasad przejrzystości i bezpieczeństwa wymaganych przez szczegółowe przepisy. Efektywne zarządzanie dużymi danymi pozwala świadczeniodawcom służby zdrowia odkrywać nieznane relacje i poprawiać obsługę pacjentów.

Produkcja , a Big Data

Przedsiębiorstwa mogą poprawić jakość produktów, zwiększyć wydajność produkcji i zmniejszyć straty poprzez dostarczanie informacji z dużych zbiorów danych, co ma kluczowe znaczenie dla sukcesu na dzisiejszym wysoce konkurencyjnym rynku. Coraz więcej producentów pracuje w trybie kultury analitycznej, aby szybciej rozwiązywać problemy i podejmować właściwe decyzje biznesowe.

Handel detaliczny , a Big Data

Budowanie trwałych relacji z klientami ma ogromne znaczenie dla rozwoju branży detalicznej, a jednym ze sposobów osiągnięcia tego celu jest właściwe zarządzanie Big Data. Przedsiębiorcy potrzebują optymalnych sposobów dotarcia do swoich klientów, najbardziej efektywnych sposobów zarządzania swoimi transakcjami oraz, co jest strategicznie ważne, sposobów odzyskania utraconych możliwości sprzedaży. Big Data pozostaje w centrum wszystkich tych działań.

“Należy pamiętać, że główna wartość Big Data nie pochodzi z danych w ich surowej postaci, ale z wyników ich przetwarzania i analizy prowadzącej do wniosków, produktów i usług pochodzących z analizy. Rewolucyjne zmiany w dużych technologiach przetwarzania danych i podejściach do zarządzania wymagają równie rewolucyjnych zmian w wykorzystaniu danych w organizacji w celu wspierania podejmowania decyzji i rozwoju innowacyjnych produktów i usług..”Thomas H. Davenport in  Big Data in Big Companies

Jak to działa

Zanim zaczniesz się zastanawiać, jak wykorzystać potencjał “Biga Data” do rozwoju swojej firmy, sprawdź skąd pochodzą te dane. Zazwyczaj duże źródła danych dzielimy na trzy kategorie:

Dane strumieniowe

Kategoria ta zawiera dane otrzymywane przez systemy komputerowe z Internetu lub podłączonych urządzeń. Możliwe jest analizowanie takich danych w ruchu – kiedy nadejdzie i decydowanie, które dane powinny być przechowywane, które z nich nie są ważne, a które wymagają dalszej analizy.

Dane z mediów społecznościowych

Takie dane są coraz bardziej atrakcyjnym zbiorem informacji, szczególnie dla zastosowań marketingowych, sprzedażowych i obsługi klienta. Często są one nieustrukturyzowane lub tylko częściowo ustrukturyzowane, co sprawia, że ich wykorzystanie w aplikacjach analitycznych stanowi wyzwanie.

Dane dostępne publicznie

Duże zbiory danych są również dostępne ze źródeł publicznych, takich jak organizacje rządowe lub agencje UE.

Po zidentyfikowaniu wszystkich dostępnych źródeł danych, które mogą mieć wartość dla organizacji, należy rozważyć decyzje, które należy podjąć, aby skutecznie wykorzystać ich potencjał.

W jaki sposób składować i zarządzać danymi

Przechowywanie danych mogło być problemem kilka lat temu, ale obecnie dostępne są stosunkowo tanie rozwiązania, które mogą być najlepszą strategią dla każdej organizacji.

Jak wiele danych analizować

Wiele organizacji nie wyklucza żadnych danych ze swoich analiz, co jest obecnie możliwe dzięki zastosowaniu wysokowydajnej technologii obliczeniowej ( high-performance computing ), takiej jak przetwarzanie siatki obliczeniowej czy analiza w pamięci. Innym podejściem jest wcześniejsze ustalenie, jeszcze przed analizą, który podzbiór danych jest istotny.

Jak wykorzystać wyniki analiz

Im więcej posiadamy wiedzy, tym większe jest zaufanie, z jakim możemy podejmować decyzje biznesowe. Rozsądne podejście polega na budowaniu strategii w oparciu o posiadane informacje.

Ostatnim krokiem na drodze do wykorzystania dużych danych w Twojej organizacji jest wybór odpowiednich technologii, które pomogą w optymalnym wykorzystaniu dużej analizy danych. Należy się nad tym zastanowić:

  • Tani i pojemny storage
  • Szybkie procesory
  • Dostępne platformy open source, takie jak Hadoop
  • Przetwarzanie równoległe, klastry obliczeniowe, MPP, wirtualizację, duże środowiska grid, szybkość połączenia i transferu
  • Przetwarzanie w chmurze i inne opcje architektoniczne