
Adversarial Machine Learning – introduction
24 kwietnia 2020
Tokenizers, or how do machines read?
8 maja 2020
- Definiują opis problemu
- Zbierają odpowiednie dane do przeprowadzenia analizy
- Eksplorują dane
- Wykorzystują różne techniki do wyciągania wniosków z danych
- Potwierdzają wnioski i prognozy
Aby wykonać wszystkie powyższe czynności, Data Scientist musi mieć solidne zrozumienie dziedziny, do której należy zgłaszany problem. Data Scientist powinien być w stanie pozyskać dane, oczyścić je, odczytać, przeanalizować i zastosować metodę rozwiązania w stosunkowo krótkim czasie. Aby to zrobić, musi posiadać umiejętności programowania komputerowego. Wszystkie wymienione kroki nie są wykonywane bezpośrednio przez Data Scientista, lecz przez komputer przez niego zaprogramowany.
Głębsze zanurzenie w świat statystyki
Biorąc pod uwagę tradycyjną statystykę, posiada ona trzy ważne parametry, takie jak średnia, mediana i modalna wartość (dominanta). Ideą tendencji centralnej jest to, że może istnieć jedna wartość, która najlepiej opisuje dane. Przyjrzyjmy się temu bardziej szczegółowo.
- Statystyka opisowa. Metody te opisują dane w formie tabel i wykresów. W rzeczywistości próbujemy badać dane, aby odkryć, gdzie leży odpowiedź.
- Próbkowanie w statystyce. W statystyce próbkowanie jest niezwykle ważne. W pewnym sensie sama statystyka odnosi się do konkretnego parametru próbki, na podstawie którego możemy oszacować lub prognozować populację.
- Proste próbkowanie losowe. Każdy element w populacji ma równe szanse na włączenie do próby. Próby losowe są zazwyczaj dość reprezentatywne, ponieważ nie faworyzują żadnych konkretnych członków.
- Warstwowe próbkowanie losowe. Populacja jest najpierw dzielona na grupy. Ogólna próba składa się z niektórych elementów z każdej grupy. Następnie elementy z każdej grupy są wybierane losowo. Próba warstwowa zapewnia, że elementy z każdej grupy będą reprezentowane w próbie, więc ta metoda próbkowania jest dobra, gdy chcemy mieć elementy z każdej grupy.
- Próbkowanie losowe w wariantach grupowych (klasterowe). Populacja jest najpierw dzielona na grupy lub klastry. Ogólna próba składa się z każdego elementu z określonych klastrów. Grupy są wybierane losowo. Próba skupiona obejmuje każdego członka z określonych grup, więc jest dobra, jeśli każda grupa odzwierciedla całą populację. Należy również pamiętać, że nieprawidłowe metody próbkowania prowadzą do wyników zniekształconych lub stronniczych. Aby dać podstawę do trenowania określonego algorytmu uczenia maszynowego, pobieramy dane próbki i trenujemy algorytm na ich podstawie. W tym przypadku skuteczność algorytmu uczenia maszynowego zależy zasadniczo od jakości danych próbki. Nieprawidłowy typ próbki, taki jak próbka wygodna, może prowadzić do nieprawidłowych przewidywań.
- Statystyka wnioskowania (inferencyjna). Jest to w rzeczywistości wnioskowanie statystyczne, gdzie możemy wyciągać wnioski o dużym zbiorze danych na podstawie testowania małej populacji danych. W praktycznych sytuacjach wnioskowanie statystyczne może obejmować oszacowanie parametru populacji lub podjęcie decyzji o wartości parametru. To ostatnie polega na zadawaniu „hipotetycznego” pytania dotyczącego populacji danych i znajdowaniu odpowiedzi poprzez testowanie małej próbki danych.
To dopiero wierzchołek góry lodowej. Kolejny poziom to statystyka do przewidywania wyników, i wtedy wchodzimy w świat uczenia maszynowego.
Do tej pory wykorzystywaliśmy dane z przeszłości, aby zrozumieć, wnioskować i przewidywać przyszłość. Aby sobie z tym poradzić, musimy zrozumieć inny ważny temat, zwany teorią prawdopodobieństwa, która dotyczy prawdopodobieństwa wystąpienia zdarzenia. Dlatego ważne jest nie tylko to, co wydarzyło się w przeszłości, ale także prawdopodobieństwo powtórzenia się tego w przyszłości.
Każdego dnia podejmujemy małe lub duże decyzje. Poświęcamy im znaczną ilość czasu i wysiłku, aby podjąć te właściwe. Sztuka podejmowania decyzji to właśnie to – wybór planu działania w obliczu niepewności. Istnieją dwa sposoby podejmowania decyzji. Jeden z nich to intuicyjny sposób, oparty na „przeczuciu”. Drugi to metoda, która wykorzystuje dane lub informacje. Jest to logiczne i naukowe podejście do osiągnięcia właściwych wniosków z dostępnych danych. To ilościowe podejście do podejmowania decyzji leży u podstaw Data Science.
Data Science i statystyka
Statystyka polega na wiązaniu liczb z pytaniami, aby umożliwić ich ewolucję. Ustanawianie ilościowych powiązań z w dużej mierze jakościowymi pytaniami leży u podstaw statystyki. Jest to również zestaw zasad i parametrów do pozyskiwania informacji w celu podejmowania decyzji w obliczu niepewności. Data Science to idealny punkt, który idealnie łączy się z programowaniem komputerowym, statystyką i dziedziną, w której przeprowadzana jest analiza. Analitycy danych rozwiązują problemy i pomagają w podejmowaniu decyzji w oparciu o dostępne dane. Co zatem robią, aby to osiągnąć?
- Definiują opis problemu
- Zbierają odpowiednie dane do przeprowadzenia analizy
- Eksplorują dane
- Wykorzystują różne techniki do wyciągania wniosków z danych
- Potwierdzają wnioski i prognozy
Aby wykonać wszystkie powyższe czynności, Data Scientist musi mieć solidne zrozumienie dziedziny, do której należy zgłaszany problem. Data Scientist powinien być w stanie pozyskać dane, oczyścić je, odczytać, przeanalizować i zastosować metodę rozwiązania w stosunkowo krótkim czasie. Aby to zrobić, musi posiadać umiejętności programowania komputerowego. Wszystkie wymienione kroki nie są wykonywane bezpośrednio przez Data Scientista, lecz przez komputer przez niego zaprogramowany.
Głębsze zanurzenie w świat statystyki
Biorąc pod uwagę tradycyjną statystykę, posiada ona trzy ważne parametry, takie jak średnia, mediana i modalna wartość (dominanta). Ideą tendencji centralnej jest to, że może istnieć jedna wartość, która najlepiej opisuje dane. Przyjrzyjmy się temu bardziej szczegółowo.
- Statystyka opisowa. Metody te opisują dane w formie tabel i wykresów. W rzeczywistości próbujemy badać dane, aby odkryć, gdzie leży odpowiedź.
- Próbkowanie w statystyce. W statystyce próbkowanie jest niezwykle ważne. W pewnym sensie sama statystyka odnosi się do konkretnego parametru próbki, na podstawie którego możemy oszacować lub prognozować populację.
- Proste próbkowanie losowe. Każdy element w populacji ma równe szanse na włączenie do próby. Próby losowe są zazwyczaj dość reprezentatywne, ponieważ nie faworyzują żadnych konkretnych członków.
- Warstwowe próbkowanie losowe. Populacja jest najpierw dzielona na grupy. Ogólna próba składa się z niektórych elementów z każdej grupy. Następnie elementy z każdej grupy są wybierane losowo. Próba warstwowa zapewnia, że elementy z każdej grupy będą reprezentowane w próbie, więc ta metoda próbkowania jest dobra, gdy chcemy mieć elementy z każdej grupy.
- Próbkowanie losowe w wariantach grupowych (klasterowe). Populacja jest najpierw dzielona na grupy lub klastry. Ogólna próba składa się z każdego elementu z określonych klastrów. Grupy są wybierane losowo. Próba skupiona obejmuje każdego członka z określonych grup, więc jest dobra, jeśli każda grupa odzwierciedla całą populację. Należy również pamiętać, że nieprawidłowe metody próbkowania prowadzą do wyników zniekształconych lub stronniczych. Aby dać podstawę do trenowania określonego algorytmu uczenia maszynowego, pobieramy dane próbki i trenujemy algorytm na ich podstawie. W tym przypadku skuteczność algorytmu uczenia maszynowego zależy zasadniczo od jakości danych próbki. Nieprawidłowy typ próbki, taki jak próbka wygodna, może prowadzić do nieprawidłowych przewidywań.
- Statystyka wnioskowania (inferencyjna). Jest to w rzeczywistości wnioskowanie statystyczne, gdzie możemy wyciągać wnioski o dużym zbiorze danych na podstawie testowania małej populacji danych. W praktycznych sytuacjach wnioskowanie statystyczne może obejmować oszacowanie parametru populacji lub podjęcie decyzji o wartości parametru. To ostatnie polega na zadawaniu „hipotetycznego” pytania dotyczącego populacji danych i znajdowaniu odpowiedzi poprzez testowanie małej próbki danych.
To dopiero wierzchołek góry lodowej. Kolejny poziom to statystyka do przewidywania wyników, i wtedy wchodzimy w świat uczenia maszynowego.
Do tej pory wykorzystywaliśmy dane z przeszłości, aby zrozumieć, wnioskować i przewidywać przyszłość. Aby sobie z tym poradzić, musimy zrozumieć inny ważny temat, zwany teorią prawdopodobieństwa, która dotyczy prawdopodobieństwa wystąpienia zdarzenia. Dlatego ważne jest nie tylko to, co wydarzyło się w przeszłości, ale także prawdopodobieństwo powtórzenia się tego w przyszłości.


