Wprowadzenie do Apache Spark

TensorFlow – darmowa biblioteka uczenia maszynowego dla każdego.

15 stycznia 2018

Most asked questions on Google in 2017

17 stycznia 2018

16 stycznia 2018

Przetwarzanie danych Apache Spark - big data

{„content”: „

Apache Spark to platforma open-source do przetwarzania dużych ilości danych, oparta na szybkości, łatwości użycia i zaawansowanej analityce. Została pierwotnie opracowana na Uniwersytecie Kalifornijskim w Berkeley w 2009 roku. Jest to największy projekt open-source do przetwarzania danych.n

Logo Apache Spark

Historia Sparka

Od momentu uruchomienia Apache Spark został szybko zaadaptowany przez przedsiębiorstwa z różnych branż. Giganci internetowi, tacy jak Netflix, Yahoo i eBay, wdrożyli Sparka na masową skalę, wspólnie przetwarzając wiele petabajtów danych. Spark szybko stał się największą społecznością open-source w dziedzinie big data, z ponad 1000 współpracowników z ponad 250 organizacji.

Spark jest przeznaczony do nauki z danych. Analitycy danych zazwyczaj wykorzystują uczenie maszynowe (machine learning) – zestaw technik i algorytmów, które potrafią uczyć się z danych. Algorytmy te są często iteracyjne, a zdolność Sparka do buforowania zestawu danych w pamięci znacznie przyspiesza takie wielokrotne przetwarzanie danych. To sprawia, że Spark jest idealnym mechanizmem przetwarzania do implementacji takich algorytmów. Spark zawiera również bibliotekę MLlib, która dostarcza rosnący zestaw algorytmów uczenia maszynowego (machine learning) dla typowych technik nauki z danych: klasyfikacji, regresji, filtrowania grupowego, klasteryzacji i redukcji wymiarowości.

„}

Zalety Apache Spark

Prędkość

Zaprojektowany od podstaw z myślą o wydajności, Spark może być 100 razy szybszy niż Hadoop w przetwarzaniu danych na dużą skalę, dzięki wykorzystaniu pamięci i innych optymalizacji. Spark jest również szybki, gdy dane są przechowywane na dysku, i obecnie posiada światowy rekord w sortowaniu na dużą skalę na dysku.

Łatwość użycia

Spark posiada łatwe w użyciu interfejsy API do obsługi dużych zbiorów danych. Obejmuje to kolekcję ponad 100 operatorów do transformacji danych oraz znane interfejsy API ramek danych do manipulowania danymi półstrukturalnymi.

Zunifikowany silnik

Spark dostarczany jest z bibliotekami wyższego poziomu, w tym z obsługą zapytań SQL, danych strumieniowych, uczenia maszynowego i przetwarzania wykresów. Te standardowe biblioteki zwiększają produktywność programistów i mogą być płynnie łączone w celu tworzenia złożonych przepływów pracy.

„}}

Funkcje Spark

Spark wznosi „MapReduce” na wyższy poziom. Dzięki możliwościom, takim jak przechowywanie danych w pamięci i przetwarzanie w czasie rzeczywistym, wydajność może być kilkukrotnie wyższa niż w przypadku innych technologii obsługujących duże zbiory danych. Spark wspiera i pomaga w optymalizacji kroków w przepływach pracy przetwarzania danych. Zapewnia wyższy poziom API w celu poprawy produktywności programistów oraz spójny model architektoniczny dla rozwiązań Big Data. Spark przechowuje wyniki pośrednie w pamięci, zamiast zapisywać je na dysku, co jest bardzo przydatne, zwłaszcza gdy trzeba wielokrotnie pracować na tym samym zbiorze danych. Został zaprojektowany jako silnik wykonawczy, który działa zarówno w pamięci, jak i na dysku. Operatory Sparka wykonują operacje zewnętrzne, gdy dane nie mieszczą się w pamięci. Spark może być używany do przetwarzania zestawów danych większych niż wydzielona pamięć w klastrze.

Spark spróbuje przechowywać tyle danych, ile ma pamięci, a następnie przeleje je na dysk. Może przechowywać część zbioru danych w pamięci, a inne dane na dysku. Dzięki temu przechowywaniu danych w pamięci Spark ma przewagę wydajnościową.

Inne funkcje Sparka:

Obsługuje więcej niż tylko funkcje mapowania i redukcji.
Optymalizuje arbitralne wykresy operatorów.
Ocena zapytań big data, co pomaga w optymalizacji całego przetwarzania danych.
Zapewnia zwięzłe i spójne interfejsy API w językach Scala, Java i Python.
Oferuje interaktywną powłokę dla języków Scala i Python. Nie jest to jeszcze dostępne w Javie.

Spark jest napisany w języku programowania Scala i działa w środowisku Java Virtual Machine (JVM). Obecnie obsługuje następujące języki do tworzenia aplikacji za pomocą Sparka: Scala, Java, Python, Clojure i R.

Szeroka gama bibliotek Sparka oraz możliwość obliczania danych z wielu różnych typów przechowywania danych sprawia, że Spark może być używany do rozwiązywania wielu różnych problemów w wielu branżach. Firmy z branży reklamy cyfrowej wykorzystują je do przechowywania baz danych kampanii online i projektowania kampanii dostosowanych do konkretnych klientów. Firmy finansowe wykorzystują je do konsumpcji danych finansowych i uruchamiania modeli w celu ukierunkowania działań inwestycyjnych. Firmy produkujące towary konsumpcyjne wykorzystują je do agregowania danych klientów i prognozowania trendów, w celu kierowania decyzjami dotyczącymi zapasów i dostrzegania nowych możliwości rynkowych.

Wprowadzenie do Apache Spark

TensorFlow – darmowa biblioteka uczenia maszynowego dla każdego.

Most asked questions on Google in 2017

TensorFlow – darmowa biblioteka uczenia maszynowego dla każdego.

Most asked questions on Google in 2017

Historia Sparka

Zalety Apache Spark

Prędkość

Łatwość użycia

Zunifikowany silnik

Funkcje Spark

Inne funkcje Sparka:

greenlogic

Related posts

Metryki, które mają znaczenie: Jak ocenić wydajność chatbotów opartych na AI

Cloud FinOps i Green IT – Jak zoptymalizować koszty i zbudować zrównoważone operacje chmurowe