Małe lub duże decyzje prawie wszyscy podejmujemy codziennie. Poświęcamy im znaczną ilość czasu i wysiłku, aby podjąć te właściwe. Sztuka podejmowania decyzji jest właśnie taka – wybór planu działania w obliczu niepewności. Istnieją dwa sposoby podjęcia decyzji. Jednym z nich jest intuicyjny sposób, w którym podejmuje się decyzję na podstawie „przeczucia”. Druga to metoda wykorzystująca dane lub informacje. Jest ona logicznym i naukowym sposobem osiągnięcia właściwego podejścia z dostępnymi danymi. To ilościowe podejście do podejmowania decyzji jest istotą Data Science.
Statystyka polega na łączeniu liczb z tymi pytaniami, aby ewoluowały. Ustanowienie powiązań ilościowych z pytaniami w dużej mierze jakościowymi stanowi sedno statystyki. Jest to również to zbiór zasad i parametrów służących do uzyskiwania informacji w celu podejmowania decyzji w obliczu niepewności. Data Science to idealny punkt, który idealnie leży w programowaniu komputerowym, statystykach i dziedzinie, w której przeprowadzana jest analiza. Analitycy danych rozwiązują problemy i pomagają komuś podjąć decyzję na podstawie dostępnych danych. Co zatem robią, aby to osiągnąć?
Aby wykonać wszystkie powyższe czynności, Data Scientist musi mieć rzetelne wyobrażenie na temat dziedziny, do której należy zgłoszenie problemu. Analityk danych powinien być w stanie uzyskać dane, oczyścić je, odczytać, przeprowadzić analizy i zastosować metody uzyskania odpowiedzi w dość krótkim czasie. W tym celu muszą posiadać umiejętności programowania komputerowego. Wszystkie wymienione kroki nie są wykonywane bezpośrednio przez naukowca danych, ale z komputera, poinstruowanego przez niego.
Biorąc pod uwagę tradycyjną statystykę, ma ona trzy ważne parametry czyli średnią, medianę i liczbę modalną. Idea centralnej tendencji polega na tym, że może istnieć jedna wartość, która możliwie najlepiej opisuje dane. Spójrzmy na to bardziej szczegółowo.
To tylko wierzchołek góry lodowej. Następnym poziomem są statystyki, które służą do przewidywania wyników, i wtedy wkraczamy w świat uczenia maszynowego.
Do tej pory korzystaliśmy z danych z przeszłości, aby rozumieć, wnioskować i przewidywać przyszłość. Aby sobie z tym poradzić, musimy zrozumieć inny ważny temat zwany teorią prawdopodobieństwa, która mówi o prawdopodobieństwie wystąpienia zdarzenia. Dlatego ważne jest nie tylko to, co wydarzyło się w przeszłości, ale także prawdopodobieństwo powtórzenia tego w przyszłości.