Statystyka a Data Science. Statystyka z uwzględnieniem nauki o danych.Statystyka a Data Science. Statystyka z uwzględnieniem nauki o danych.Statystyka a Data Science. Statystyka z uwzględnieniem nauki o danych.Statystyka a Data Science. Statystyka z uwzględnieniem nauki o danych.
  • Usługi
  • Klienci
  • Blog
  • Praca
  • O firmie
  • Kontakt
polski
  • angielski
✕

Statystyka a Data Science. Statystyka z uwzględnieniem nauki o danych.

1 maja 2020
blank

Małe lub duże decyzje prawie wszyscy podejmujemy codziennie. Poświęcamy im znaczną ilość czasu i wysiłku, aby podjąć te właściwe. Sztuka podejmowania decyzji jest właśnie taka – wybór planu działania w obliczu niepewności. Istnieją dwa sposoby podjęcia decyzji. Jednym z nich jest intuicyjny sposób, w którym podejmuje się decyzję na podstawie „przeczucia”. Druga to metoda wykorzystująca dane lub informacje. Jest ona logicznym i naukowym sposobem osiągnięcia właściwego podejścia z dostępnymi danymi. To ilościowe podejście do podejmowania decyzji jest istotą Data Science.

Nauka danych oraz statystyka

Statystyka polega na łączeniu liczb z tymi pytaniami, aby ewoluowały. Ustanowienie powiązań ilościowych z pytaniami w dużej mierze jakościowymi stanowi sedno statystyki. Jest to również to zbiór zasad i parametrów służących do uzyskiwania informacji w celu podejmowania decyzji w obliczu niepewności. Data Science to idealny punkt, który idealnie leży w programowaniu komputerowym, statystykach i dziedzinie, w której przeprowadzana jest analiza. Analitycy danych rozwiązują problemy i pomagają komuś podjąć decyzję na podstawie dostępnych danych. Co zatem robią, aby to osiągnąć?

  • Definiują opis problemu
  • Zbierają odpowiedni rodzaj danych do przeprowadzenia analizy
  • Eksplorują dane
  • Stosują różne techniki, aby wyciągać wnioski z danych
  • Potwierdzają wnioski i prognozy

Aby wykonać wszystkie powyższe czynności, Data Scientist musi mieć rzetelne wyobrażenie na temat dziedziny, do której należy zgłoszenie problemu. Analityk danych powinien być w stanie uzyskać dane, oczyścić je, odczytać, przeprowadzić analizy i zastosować metody uzyskania odpowiedzi w dość krótkim czasie. W tym celu muszą posiadać umiejętności programowania komputerowego. Wszystkie wymienione kroki nie są wykonywane bezpośrednio przez naukowca danych, ale z komputera, poinstruowanego przez niego.

Głębsze zanurzenie w świecie statystyki

Biorąc pod uwagę tradycyjną statystykę, ma ona trzy ważne parametry czyli średnią, medianę i liczbę modalną. Idea centralnej tendencji polega na tym, że może istnieć jedna wartość, która możliwie najlepiej opisuje dane. Spójrzmy na to bardziej szczegółowo.

  • Opisowe statystyki. Metody te opisują nam dane w postaci tabel i wykresów. W rzeczywistości staramy się zbadać dane, aby dowiedzieć się, gdzie leży odpowiedź na pytanie.
  • Próbkowanie w statystyce. W statystyce próbkowanie jest niezwykle ważne. W jeden sposób sama statystyka odnosi się do określonego parametru próbki, za pomocą którego możemy dokonać oszacowania lub prognozy populacji.
    • Proste losowe pobieranie próbek. Każdy element w populacji ma równe szanse na włączenie do próby. Losowe próbki są zwykle dość reprezentatywne, ponieważ nie faworyzują niektórych członków.
    • Złożone losowe pobieranie próbek. Populacja jest najpierw dzielona na grupy. Ogólna próbka składa się z niektórych elementów z każdej grupy. Następnie elementy z każdej grupy wybierane są losowo. Warstwowa próbka gwarantuje, że elementy z każdej grupy będą reprezentowane w próbce, więc ta metoda próbkowania jest dobra, gdy chcemy mieć niektóre elementy z każdej grupy.
    • Losowe pobieranie prób klastra. Populacja jest najpierw dzielona na grupy lub klastry. Ogólna próbka składa się z każdego elementu z niektórych klastrów. Grupy są wybierane losowo. Próbka skupienia pobiera każdego członka z niektórych grup, więc dobrze jest, gdy każda grupa odzwierciedla całą populację. Należy również pamiętać, że nieprawidłowe metody próbkowania doprowadzą do wypaczonych lub stronniczych wyników. Aby dać pretekst do uczenia maszynowego, aby wyszkolić konkretny algorytm uczenia maszynowego, pobieramy przykładowe dane i trenujemy algorytm na podstawie próbki. W takim przypadku skuteczność algorytmu uczenia maszynowego zasadniczo zależy od jakości przykładowych danych. Nieprawidłowy typ próbki (np. Próbka wygody) może prowadzić do niepoprawnych prognoz.
  • Statystyki wnioskowania. Jest to właściwie wnioskowanie statystyczne, w którym możemy wnioskować na temat dużego zestawu danych na podstawie „testowania” małej populacji danych. W sytuacjach praktycznych wnioskowanie statystyczne może obejmować oszacowanie parametru populacji lub podjęcie decyzji o wartości parametru. To drugie polega na zadaniu „hipotetycznego” pytania na temat populacji danych i znalezieniu odpowiedzi poprzez przetestowanie niewielkiej próbki danych.

To tylko wierzchołek góry lodowej. Następnym poziomem są statystyki, które służą do przewidywania wyników, i wtedy wkraczamy w świat uczenia maszynowego.

Do tej pory korzystaliśmy z danych z przeszłości, aby rozumieć, wnioskować i przewidywać przyszłość. Aby sobie z tym poradzić, musimy zrozumieć inny ważny temat zwany teorią prawdopodobieństwa, która mówi o prawdopodobieństwie wystąpienia zdarzenia. Dlatego ważne jest nie tylko to, co wydarzyło się w przeszłości, ale także prawdopodobieństwo powtórzenia tego w przyszłości.

Udostępnij
0
Piotr Chmiel
Piotr Chmiel
W branży IT od kilku lat, głównie zajmuję się SEO. Z dnia na dzień pogłębiam swoją wiedzę z obszaru IT tj. : Tworzenie stron, Wordpress, Machine Learning, SEO, Big Data itp. itd. Prywatnie amator koszykarz, basista, szachista i kucharz.

Podobne publikacje

blank
20 czerwca 2022

W jaki sposób aktualizacja rdzenia google z maja 2022 wpłynie na Twoją stronę?


Dowiedz się więcej
blank
14 stycznia 2022

Trendy Big Data i Data Science w 2022


Dowiedz się więcej
blank
14 września 2021

Przyszłość przetwarzania języka naturalnego – NLP


Dowiedz się więcej

Szukaj na blogu

✕

Kategorie

  • Ecommerce
  • SEO
  • Software development
blank
Personalization, Recommendations, Messaging & User Testing in a Single Platform with a Single Tag implementation
Greenlogic Logo

Greenlogic - PolandPOLSKA
ul. Krupnicza 13
50-075 Wrocław
+48 505 020 036
[email protected]

Greenlogic - AustraliaAUSTRALIA
10a Mitford Street
3182 St. Kilda Melbourne
+61 490 235 843
[email protected]

Software House

  • Tworzenie oprogramowania
    • Aplikacje dedykowane Java
    • Machine learning
    • Big data dla ecommerce
    • Tworzenie stron internetowych WordPress
    • Sklepy internetowe WordPress + Woocommerce
    • Front end development
  • Projektowanie
    • Projektowanie usług
    • Projektowanie serwisów internetowych
    • Projektowanie aplikacji mobilnych (PWA)
    • Projektowanie i optymalizacja UX

Agencja Ecommerce

  • Badania i analiza danych
    • Doradztwo transakcyjne eCommerce
    • Analityka internetowa
    • Analiza on-page / off-page SEO
    • Badania UI / UX
  • Zwiększanie sprzedaży
    • Optymalizacja konwersji (CRO)
    • White Hat SEO
    • Content marketing
    • Online marketing

Greenlogic

  • O firmie
  • Blog
  • Polityka prywatności
  • Praca
  • Kontakt
© 2009- Greenlogic - Software House & Agencja Ecommerce

Sąd Rejonowy dla Wrocławia-Fabrycznej VI Wydział Gospodarczy KRS nr 0000602965. Kapitał zakładowy 50.000 zł opłacony w całości.

polski
  • polski
  • angielski