ENSEMBLE LEARNING. Co to jest i na czym polega?

5 tips on how to improve Keyword Research

4 listopada 2018

Deep learning in images recognition

4 listopada 2018

Ensemble learning, czyli metody grupujące, to technika uczenia maszynowego, która łączy kilka podstawowych modeli, aby stworzyć jeden optymalny model predykcyjny.

Ensemble learning w dużej mierze wykorzystuje drzewa decyzyjne do zdefiniowania definicji i praktyczności metod zespołowych (należy jednak pamiętać, że metody zespołowe dotyczą nie tylko drzew decyzyjnych). Drzewo decyzyjne określa wartość predykcyjną na podstawie serii pytań i warunków. Proste drzewo decyzyjne definiuje dwie decyzje. Drzewo bierze pod uwagę kilka czynników, biorąc pod uwagę każdy czynnik, albo podejmując decyzję, albo zadając kolejne pytanie. Kiedy tworzysz drzewa decyzyjne, musisz wziąć pod uwagę kilka czynników:

Na jakich funkcjach podejmujemy decyzje?
Jaki jest próg klasyfikacji każdego pytania w odpowiedzi „tak” lub „nie”?

„}}}

Metody zespołowe pozwalają nam rozważyć próbkę drzew decyzyjnych, obliczyć, których funkcji użyć lub jakie pytania zadać przy każdym podziale i stworzyć ostateczny predyktor na podstawie zagregowanych wyników próbkowanych drzew decyzyjnych.

Powszechnie stosowane algorytmy uczenia zespołowego

Metody zespołowe można podzielić na dwie grupy:

– sekwencyjne metody zespołowe, w których bazowi uczący (elementarni uczniowie) są generowani sekwencyjnie. Podstawową motywacją metod sekwencyjnych jest wykorzystanie zależności między bazowymi uczącymi. Ogólną wydajność można zwiększyć, nadając wcześniej słabo oznaczonym przykładom wyższą wagę.

– równoległe metody zespołowe, w których bazowi uczący (elementarni uczniowie) są generowani równolegle. Podstawową motywacją metod równoległych jest wykorzystanie niezależności między bazowymi uczącymi, ponieważ błąd można radykalnie zmniejszyć poprzez uśrednianie.

Większość metod zespołowych wykorzystuje jeden podstawowy algorytm uczenia do wytwarzania jednorodnych bazowych uczących, tj. uczących tego samego typu, prowadząc do jednorodnych zespołów.

Istnieją również metody, które wykorzystują niejednorodnych uczących, tj. uczących różnych typów, prowadząc do niejednorodnych zespołów. Aby metody zespołowe były dokładniejsze niż którykolwiek z ich indywidualnych członków, bazowi uczący muszą być możliwie jak najdokładniejsi i jak najbardziej zróżnicowani.

Głosowanie i uśrednianie

Głosowanie i uśrednianie to dwie najprostsze metody zespołowe. Obie są łatwe do zrozumienia i wdrożenia. Głosowanie jest wykorzystywane do klasyfikacji, a uśrednianie do regresji.

W obu metodach pierwszym krokiem jest utworzenie wielu modeli klasyfikacji lub regresji za pomocą pewnego zbioru danych treningowych. Każdy model bazowy można utworzyć, używając różnych podziałów tego samego zbioru danych treningowych i tego samego algorytmu, lub używając tego samego zbioru danych z różnymi algorytmami, lub dowolnej innej metody.

Metody można podzielić na:

Głosowanie większościowe

Każdy model dokonuje przewidywań (głosów) dla każdej instancji testowej, a ostateczna prognoza wyników to taka, która otrzyma ponad połowę głosów. Jeśli żadna z prognoz nie osiągnie ponad połowy głosów, możemy powiedzieć, że metoda zespołowa nie mogła uzyskać stabilnej prognozy dla tej instancji. Chociaż jest to często stosowana technika, można spróbować najbardziej głosowanej prognozy (nawet jeśli jest to mniej niż połowa głosów) jako ostatecznej prognozy. W niektórych artykułach można zobaczyć, że ta metoda nazywa się „wielokrotnym głosowaniem”.

Głosowanie ważone

W przeciwieństwie do głosowania większością, gdzie każdy model ma takie same prawa, możemy zwiększyć znaczenie jednego lub więcej modeli. W głosowaniu ważonym liczymy prognozy lepszych modeli wiele razy. Znalezienie odpowiedniego zestawu wag należy do Ciebie.

Proste uśrednianie

W trybie prostego uśredniania obliczane są średnie prognozy dla każdego wystąpienia testowego zbioru danych. Metoda ta często zmniejsza nadmierne dopasowanie i tworzy łagodniejszy model regresji.

Uśrednianie ważone

Uśrednianie ważone to nieznacznie zmodyfikowana wersja prostego uśredniania, gdzie prognozy każdego modelu są mnożone przez wagę, a następnie obliczana jest ich średnia.

Bagging

Bagging, czyli agregacja bootstrapowa (Bootstrap aggregating), jest jednym z najwcześniejszych, najbardziej intuicyjnych i być może najprostszych algorytmów zespołowych, o zaskakująco dobrych wynikach. Różnorodność klasyfikatorów uzyskuje się za pomocą replik bootstrapowych danych treningowych. Oznacza to, że różne podzbiory danych treningowych są losowo pobierane – ze zwracaniem – z całego zbioru danych treningowych. Każdy podzbiór danych treningowych jest używany do trenowania innego klasyfikatora tego samego typu. Poszczególne klasyfikatory są następnie łączone, podejmując decyzję w drodze prostego głosowania większościowego. Dla każdej instancji klasa wybrana przez większość klasyfikatorów jest decyzją zespołu. Ponieważ zbiory danych treningowych mogą się znacznie pokrywać, można zastosować dodatkowe środki w celu zwiększenia różnorodności, takie jak użycie podzbioru danych treningowych do trenowania każdego klasyfikatora lub użycie względnie słabych klasyfikatorów.

Lasy losowe

Zbiór drzew decyzyjnych to Las Losowy. Lasy losowe wykonują wewnętrzny bagging. Las losowy tworzy kilka drzew, czasem tysiące, i oblicza najlepszy możliwy model dla danego zbioru danych. Zamiast rozważać wszystkie funkcje podczas dzielenia węzła, algorytm Lasu Losowego wybiera najlepszą funkcję z podzbioru wszystkich funkcji. Powoduje to większe odchylenie w przypadku mniejszej wariancji, co daje znacznie lepszy model.

Wzmocnienie

Podobnie jak w przypadku baggingu, wzmocnienie również tworzy grupę klasyfikatorów poprzez transformację sygnału danych, która jest następnie łączona w drodze głosowania większościowego. Jednakże, w fazie wzmacniania, resampling jest strategicznie dostosowywany, aby zapewnić najbardziej informatywne dane treningowe dla każdego kolejnego klasyfikatora.
W rzeczywistości, każda iteracja wzmacniania tworzy trzy słabe klasyfikatory.

Stacking

Zespół klasyfikatorów jest najpierw trenowany przy użyciu próbek danych treningowych, w których pobierane są dane początkowe. Podstawową ideą jest uczenie się, czy dane treningowe zostały prawidłowo nauczone. Na przykład, jeśli dany klasyfikator błędnie nauczył się określonego regionu przestrzeni cech, a w konsekwencji błędnie klasyfikuje instancje z tego regionu, to następny klasyfikator może być w stanie nauczyć się tego zachowania, i z nauczonymi zachowaniami innych klasyfikatorów, może poprawić takie niewłaściwe szkolenie.

Uczenie przyrostowe

Uczenie przyrostowe odnosi się do zdolności algorytmu uczącego się na podstawie nowych danych, które mogą stać się dostępne po tym, jak klasyfikator (lub model) został już wygenerowany z wcześniej dostępnego zbioru danych. Algorytm jest nazywany algorytmem uczenia przyrostowego, jeśli generuje sekwencję hipotez dla sekwencji danych treningowych (lub instancji), w której bieżąca hipoteza opisuje wszystkie dotychczas obserwowane dane, ale zależy tylko od poprzednich hipotez i bieżących danych treningowych. Dlatego algorytm uczenia przyrostowego musi uczyć się nowych informacji i zachować wcześniej zdobytą wiedzę, nie mając dostępu do wcześniej przeglądanych danych.
Powszechnie stosowane podejście do uczenia się z dodatkowych danych – odrzucenie istniejącego klasyfikatora i ponowne szkolenie nowego ze starymi i nowymi danymi połączonymi razem nie spełnia definicji uczenia przyrostowego, ponieważ powoduje katastrofalne zapomnienie wszystkich wcześniej poznanych informacji i wykorzystuje wcześniejsze dane.

Błąd podczas korygowania kodów wyjściowych

Błędy w korekcji kodów wyjściowych (ECOC) są powszechnie stosowane w teorii informacji do korekcji odwróceń bitów spowodowanych przez głośne kanały komunikacyjne lub uczenia maszynowego do konwersji klasyfikatorów binarnych, takich jak maszyny wektorowe, w wiele klasyfikatorów poprzez dekompozycję problemu wieloklasowego na kilka problemów dwuklasowych.

Wnioski

Celem każdego problemu uczenia maszynowego jest znalezienie jednego modelu, który najlepiej przewiduje nasze pożądane wyniki. Zamiast tworzyć jeden model i mieć nadzieję, że ten model jest najlepszym lub najdokładniejszym predyktorem, jaki możemy stworzyć, metody grupowe biorą pod uwagę niezliczone modele i pozwalają na uśrednianie tych modeli w celu uzyskania jednego końcowego modelu. Ważne jest, aby pamiętać, że drzewa decyzyjne nie są jedyną formą metod grupowych, obecnie najpopularniejszych i najważniejszych w data science.

Oprócz tych metod, powszechne jest stosowanie zestawów głębokiego uczenia poprzez trenowanie różnorodnych i dokładnych klasyfikatorów. Różnorodność można osiągnąć poprzez różne architektury, hiperparametry i techniki treningowe.

Metody grupowe odniosły bardzo duże sukcesy w ustalaniu rekordowej wydajności na trudnych zbiorach danych i należą do grupy zwycięzców konkursów z Kaggle data sciences. Wybór odpowiednich zespołów jest bardziej sztuką niż prostą nauką.

While ensemble methods can aid us in machine learning by developing sophisticated algorithms and obtaining results with high accuracy, it’s often not preferred in industries where interpretability is more important. Nevertheless, the effectiveness of these methods is undeniable, and their benefits in appropriate applications can be enormous. In fields such as healthcare, even the smallest improvement in the accuracy of machine learning algorithms can be truly valuable.

ENSEMBLE LEARNING. Co to jest i na czym polega?

5 tips on how to improve Keyword Research

Deep learning in images recognition

5 tips on how to improve Keyword Research

Deep learning in images recognition

Powszechnie stosowane algorytmy uczenia zespołowego

Głosowanie i uśrednianie

Bagging

Lasy losowe

Wzmocnienie

Stacking

Uczenie przyrostowe

Błąd podczas korygowania kodów wyjściowych

Wnioski

greenlogic

Related posts

Powstanie chińskich robotów AI: Wyzwania w ruchu, percepcji i podejmowaniu decyzji

Metryki, które mają znaczenie: Jak ocenić wydajność chatbotów opartych na AI