
Real-time sign language detection
6 listopada 2020
Strona produktu sklepu e-commerce
20 listopada 2020
Metody zespołowe to modele predykcyjne, które łączą przewidywania z dwóch lub więcej innych modeli. Metody uczenia zespołowego są popularne i stosowane, gdy najważniejszy jest najlepszy wynik projektu modelowania predykcyjnego.
Jednak nie zawsze są najbardziej odpowiednią techniką do zastosowania, a początkujący w dziedzinie stosowanego uczenia maszynowego spodziewają się, że zespoły lub specyficzna metoda zespołowa są zawsze najlepszą metodą do zastosowania. Oferują dwie konkretne korzyści w projekcie modelowania predykcyjnego i ważne jest, aby wiedzieć, jakie są te korzyści i jak je mierzyć, aby upewnić się, że zastosowanie zespołu jest właściwą decyzją dla projektu.
Uczenie zespołowe
Jest to model uczenia maszynowego, który łączy prognozy z dwóch lub więcej modeli. Modele zespołowe, zwane członkami zespołu, mogą być tego samego typu lub różnego typu i mogą być uczone lub nie z tych samych danych treningowych. Przewidywania dokonywane przez członków zespołu mogą być łączone za pomocą statystyk, takich jak moda lub średnia, lub za pomocą bardziej wyrafinowanych metod, które uczą się, jak ufać każdemu członkowi i w jakich warunkach.
Badania zespołowe nabrały prawdziwego rozmachu w latach 90. XX wieku, kiedy opublikowano artykuły na temat najpopularniejszych i najczęściej stosowanych metod. Pod koniec XXI wieku zespoły zostały częściowo zaakceptowane z powodu ich ogromnego sukcesu w konkursach uczenia maszynowego, takich jak Nagroda Netflixa i późniejsze konkursy na Kaggle. Metody zespołowe znacznie zwiększają koszt i złożoność obliczeń. Ten wzrost wynika z wiedzy specjalistycznej i czasu potrzebnego do trenowania i utrzymywania wielu modeli, a nie tylko jednego modelu.
Dlaczego powinniśmy rozważyć stosowanie metod zespołowych?
Istnieją dwa główne powody, dla których powinieneś używać metod zespołowych zamiast jednego modelu, i są one ze sobą powiązane.
- Wydajność – zespół może tworzyć lepsze prognozy i dostarczać lepsze wyniki niż jakikolwiek pojedynczy model składowy.
- Odporność – zespół ogranicza rozrzut lub dyspersję prognoz i wydajności modelu.
Metody zespołowe są wykorzystywane do osiągania lepszych wyników predykcyjnych w przypadku problemu modelowania predykcyjnego niż pojedynczy model predykcyjny. Sposób, w jaki się to osiąga, można rozumieć jako model, który redukuje składową wariancję błędu wariancji poprzez dodanie obciążenia. Istnieje inna ważna i mniej omawiana korzyść z pracy zespołowej, którą jest poprawiona odporność lub niezawodność średniej wydajności modelu. Są to oba ważne problemy z projektem uczenia maszynowego i czasami możesz preferować jedną lub obie właściwości modelu.
Poprawa odporności
W projekcie modelowania predykcyjnego często oceniamy wiele modeli modelowania lub strumieni i wybieramy ten, który działa dobrze lub lepiej jako nasz ostateczny model. Algorytm lub potok jest następnie dopasowywany do wszystkich dostępnych danych i używany do prognozowania nowych danych.
Średnia dokładność lub błąd modelu jest podsumowaniem oczekiwanych wyników, podczas gdy w rzeczywistości niektóre modele działały lepiej, a niektóre gorzej na różnych podzbiorach danych. Spojrzenie na minimalne i maksymalne wyniki wydajności modelu daje wyobrażenie o najgorszej i najlepszej wydajności, jakiej można oczekiwać od modelu, i może to nie być akceptowalne dla aplikacji.
Najprostszym zespołem jest wielokrotne dopasowanie modelu do zbiorów danych uczących i łączenie prognoz za pomocą statystyk podsumowujących, takich jak średnia regresji lub moda klasyfikacji. Co ważne, każdy model musi być nieco inny ze względu na stochastyczny algorytm uczenia, różnice w składzie zbioru danych uczących lub różnice w samym modelu.
To zmniejsza rozrzut prognoz dokonywanych przez model. Średnia wydajność będzie prawdopodobnie taka sama, chociaż najgorsze i najlepsze wyniki będą bliskie średniej wydajności. W rezultacie wygładza to oczekiwaną wydajność modelu. Metoda zespołowa może, ale nie musi, poprawić wydajność modelowania dla każdego pojedynczego członka, co zostanie omówione bardziej szczegółowo, ale przynajmniej powinna zmniejszyć rozrzut w średniej wydajności modelu.
Odchylenie, wariancja i zespoły
Modele uczenia maszynowego do klasyfikacji i regresji uczą się funkcji mapujących z danych wejściowych do wyjściowych. To mapowanie jest nauczane na podstawie przykładów z dziedziny problemu, zbioru danych uczących i jest oceniane na danych, które nie są używane w procesie uczenia, czyli na zbiorze danych testowych.
Błędy popełniane przez model uczenia maszynowego są często opisywane przez dwie cechy: odchylenie i wariancję. Odchylenie jest miarą tego, jak dokładnie model może uchwycić funkcję rzutowania między danymi wejściowymi a wyjściowymi. Uwzględnia sztywność modelu: siłę założeń, jakie model ma co do postaci funkcyjnej danych wejściowych i wyjściowych.
Wariancja modelu to stopień, w jakim zmienia się jego wydajność, gdy dopasowuje się do różnych danych treningowych. Uwzględnia wpływ specyfiki danych na model. Zmienność i wariancja wydajności modelu są ze sobą powiązane. Redukcję odchylenia często można łatwo osiągnąć poprzez zwiększenie wariancji. Odwrotnie, redukcję wariancji można łatwo osiągnąć poprzez zwiększenie odchylenia. Wykorzystanie metod zespołowych do zmniejszenia wariancji błędów predykcyjnych skutkuje kluczową korzyścią z używania zespołów w celu poprawy wydajności predykcyjnej.
Poprawa wydajności
Zmniejszenie elementu wariancji błędu prognozy poprawia wydajność przewidywania. Wyraźnie wykorzystujemy uczenie zespołowe, aby znaleźć lepsze wyniki predykcyjne, takie jak mniejszy błąd regresji lub wysoka dokładność klasyfikacji. Jest to główne zastosowanie metod uczenia w zespołach i korzyści pokazane przez zastosowanie zespołów przez większość zwycięzców konkursów uczenia maszynowego.
Zespół używany w ten sposób powinien być przyjęty tylko wtedy, gdy osiąga średnio lepsze wyniki niż jakikolwiek inny członek zespołu. Jeśli tak nie jest, zamiast tego użyj elementu wspierającego, który działa lepiej. Jest możliwe, a nawet powszechne, że wydajność zespołu nie będzie lepsza niż najlepszego członka zespołu w danym momencie. Może się tak zdarzyć, jeśli zespół ma jeden najlepszy model, a pozostali członkowie nie oferują żadnych korzyści, lub zespół nie jest w stanie efektywnie wykorzystać ich wkładu.
Możliwe jest również, że zespół wypadnie gorzej niż najlepszy członek zespołu. Jest to również powszechne w przypadku każdego najlepiej działającego modelu, którego prognozy są pod wpływem jednego lub więcej słabych wyników innych modeli, a zespół nie jest w stanie efektywnie wykorzystać ich wkładu.
Dlatego ważne jest, aby przetestować zestaw metod zespołowych i dopracować ich zachowanie, tak jak robimy to z każdym indywidualnym modelem uczenia maszynowego.


