Metody zespołowe (ensemble methods) to modele predykcyjne, które łączą przewidywania z dwóch lub więcej innych modeli. Metody uczenia się w zespole są popularne, a stosowane są, gdy najważniejszy jest najlepszy wynik projektu modelowania predykcyjnego.
Niemniej jednak nie zawsze są one najwłaściwszą techniką do wykorzystania, a początkujący w dziedzinie stosowanego uczenia maszynowego oczekują, że zespoły lub określona metoda zespołowa są zawsze najlepszą metodą do wykorzystania. Oferują dwie konkretne korzyści w projekcie modelowania predykcyjnego i ważne jest, aby wiedzieć, jakie są te korzyści i jak je zmierzyć, aby upewnić się, że użycie zespołu jest właściwą decyzją dotyczącą projektu.
Jest to model uczenia maszynowego, który łączy prognozy z dwóch lub więcej modeli. Modele wchodzące w skład zespołu, nazywane członkami zespołu, mogą być tego samego typu lub różnych typów i mogą być uczone lub nie na tych samych danych szkoleniowych. Przewidywania dokonane przez członków zespołu mogą być łączone za pomocą statystyk, takich jak tryb lub średnia, lub za pomocą bardziej wyrafinowanych metod, które uczą się, jak bardzo ufać każdemu członkowi i w jakich warunkach.
Badania nad metodami zespołowymi naprawdę nabrały tempa w latach 90. XX, gdy opublikowano artykuły na temat najpopularniejszych i powszechnie stosowanych metod. Pod koniec XXI wieku przyjęcie zespołów podniosło się częściowo ze względu na ich ogromny sukces w konkursach uczenia maszynowego, takich jak nagroda Netflix i późniejsze konkursy na Kaggle. Metody zespołowe znacznie zwiększają koszt i złożoność obliczeń. Wzrost ten wynika z wiedzy fachowej i czasu potrzebnego do wyszkolenia i utrzymania wielu modeli, a nie jednego modelu.
Istnieją dwa główne powody, dla których warto używać metod zespołowych zamiast jednego modelu i są one powiązane.
Metody zespołowe są używane do osiągnięcia lepszych wyników predykcyjnych w przypadku problemu związanego z modelowaniem predykcyjnym niż pojedynczy model predykcyjny. Sposób, w jaki to jest osiągane, można rozumieć jako model zmniejszający składową wariancji błędu prognozowania poprzez dodanie obciążenia. Jest jeszcze jedna ważna i mniej dyskutowana korzyść płynąca z metod zespołowych, to poprawiona odporność lub niezawodność średniej wydajności modelu. Są to oba ważne problemy dotyczące projektu uczenia maszynowego i czasami możemy preferować jedną lub obie właściwości z modelu.
W projekcie modelowania predykcyjnego często oceniamy wiele modeli lub potoków modelowania i wybieramy ten, który działa dobrze lub najlepiej jako nasz model ostateczny. Algorytm lub potok jest następnie dopasowywany do wszystkich dostępnych danych i używany do prognozowania nowych danych.
Średnia dokładność lub błąd modelu to podsumowanie oczekiwanych wyników, podczas gdy w rzeczywistości niektóre modele działały lepiej, a niektóre modele działały gorzej na różnych podzbiorach danych. Przyjrzenie się minimalnym i maksymalnym wynikom wydajności modelu daje wyobrażenie o najgorszej i najlepszej wydajności, jakiej można oczekiwać od modelu, a to może być nie do zaakceptowania w przypadku aplikacji.
Najprostszym zespołem jest wielokrotne dopasowanie modelu do zestawów danych uczących i połączenie prognoz przy użyciu statystyki podsumowującej, takiej jak średnia dla regresji lub tryb klasyfikacji. Co ważne, każdy model musi być nieco inny ze względu na algorytm uczenia stochastycznego, różnicę w składzie zbioru danych uczących lub różnice w samym modelu.
Zmniejszy to rozrzut przewidywań wykonanych przez model. Średnia wydajność będzie prawdopodobnie mniej więcej taka sama, chociaż wyniki w najgorszym i najlepszym przypadku zostaną zbliżone do średniej wydajności. W efekcie wygładza oczekiwaną wydajność modelu. Metoda zespołowa może, ale nie musi, poprawić wydajność modelowania w stosunku do dowolnego pojedynczego składowego członka, co zostanie omówione bardziej szczegółowo, ale przynajmniej powinien zmniejszyć rozrzut w średniej wydajności modelu.
Modele uczenia maszynowego do klasyfikacji i regresji uczą się funkcji mapowania od danych wejściowych do wyjściowych. To mapowanie jest uczone na podstawie przykładów z domeny problemu, zestawu danych szkoleniowych i jest oceniane na danych nieużywanych podczas uczenia, czyli testowym zestawie danych.
Błędy popełnione przez model uczenia maszynowego są często opisywane za pomocą dwóch właściwości: odchylenia i wariancji. Odchylenie jest miarą tego, jak blisko model może uchwycić funkcję odwzorowania między danymi wejściowymi i wyjściowymi. Uwzględnia sztywność modelu: siłę założenia, jaki model ma na temat funkcjonalnej formy odwzorowania danych wejściowych i wyjściowych.
Wariancja modelu to ilość zmian wydajności modelu, gdy jest on dopasowany do różnych danych szkoleniowych. Uwzględnia wpływ specyfiki danych na model. Odchylenie i wariancja wydajności modelu są ze sobą powiązane. Zmniejszenie odchylenia można często łatwo osiągnąć poprzez zwiększenie wariancji. I odwrotnie, zmniejszenie wariancji można łatwo osiągnąć, zwiększając odchylenie. Korzystanie z metod zespołowych w celu zmniejszenia właściwości wariancji błędów prognozowania prowadzi do kluczowej korzyści z używania zbiorów do poprawy wydajności predykcyjnej.
Zmniejszenie elementu wariancji błędu prognozowania poprawia wydajność predykcji. Wyraźnie używamy ensemble learningu, aby szukać lepszych wyników predykcyjnych, takich jak mniejszy błąd regresji lub wysoka dokładność klasyfikacji. Jest to główne zastosowanie metod uczenia się w zespołach i korzyści wykazane dzięki wykorzystaniu zestawów przez większość zwycięzców konkursów uczenia maszynowego.
Stosowany w ten sposób zespół powinien być adoptowany tylko wtedy, gdy osiąga średnio lepsze wyniki niż jakikolwiek inny członek zespołu. Jeśli tak nie jest, zamiast tego należy użyć elementu wspierającego, który działa lepiej. Jest możliwe, a nawet powszechne, że występ zespołu nie wypadnie lepiej niż najlepszy występujący członek zespołu. Może się tak zdarzyć, jeśli zespół ma jeden najlepszy model, a pozostali członkowie nie oferują żadnych korzyści lub zespół nie jest w stanie skutecznie wykorzystać ich wkładu.
Możliwe jest również, że zespół wypadnie gorzej niż najlepszy członek zespołu. To również jest powszechne w przypadku każdego modelu o najlepszych wynikach, którego prognozy są pogarszane przez jeden lub więcej słabych wyników innych modeli, a zespół nie jest w stanie skutecznie wykorzystać ich wkładu.
W związku z tym ważne jest, aby przetestować zestaw metod zespołowych i dostroić ich zachowanie, tak jak robimy to w przypadku każdego indywidualnego modelu uczenia maszynowego.