Klasyfikacja niezrównoważona dotyczy zadań klasyfikacyjnych, w których liczba przykładów w każdej klasie jest nierównomiernie rozłożona. Zazwyczaj niezrównoważone zadania klasyfikacji to zadania klasyfikacji binarnej, w których większość przykładów w zestawie danych uczących należy do klasy normalnej, a mniejszość przykładów należy do klasy nienormalnej.
Algorytmy modelowania predykcyjnego klasyfikacji są oceniane na podstawie ich wyników. Dokładność klasyfikacji to popularna miara używana do oceny wydajności modelu na podstawie przewidywanych etykiet klas. Dokładność klasyfikacji nie jest idealna, ale jest dobrym punktem wyjścia do wielu zadań klasyfikacyjnych.
Zamiast etykiet klas, niektóre zadania mogą wymagać przewidywania prawdopodobieństwa przynależności do klasy dla każdego przykładu. Zapewnia to dodatkową niepewność w przewidywaniu, które aplikacja lub użytkownik może następnie zinterpretować.
Istnieją cztery główne typy zadań klasyfikacyjnych, z którymi możesz się spotkać; oni są:
Liczba przykładów należących do każdej klasy może być nazywana rozkładem klas. Niezrównoważona klasyfikacja odnosi się do problemu z modelowaniem predykcyjnym klasyfikacji, w którym liczba przykładów w zestawie danych szkoleniowych dla każdej etykiety klasy nie jest zrównoważona. To znaczy, gdy rozkład klas nie jest równy lub bliski równości, a zamiast tego jest odchylony lub skośny. Niezrównoważona klasyfikacja to problem z modelowaniem predykcyjnym klasyfikacji, w którym rozkład przykładów w klasach nie jest równy.
Istnieją 3 główne problemy wynikające z danych o nierównym rozkładzie klas. Są one następujące:
Problem z maszyną. Algorytmy uczenia maszynowego są zbudowane w celu minimalizacji błędów. Ponieważ prawdopodobieństwo wystąpienia przypadków należących do klasy większości jest znacząco wysokie w niezrównoważonym zbiorze danych, algorytmy z większym prawdopodobieństwem klasyfikują nowe obserwacje do klasy większości.
Wewnętrzny problem. W prawdziwym życiu koszt fałszywie negatywnego wyniku jest zwykle znacznie wyższy niż fałszywie dodatniego, jednak algorytmy ML nakładają karę na oba te wyniki przy podobnej wadze.
Problem ludzki. Powszechne praktyki w wielu branżach są często ustalane przez ekspertów, a nie badania empiryczne. To z pewnością nie jest optymalne rozwiązanie.
Istnieją dwa różne podejścia do rozwiązywania kwestii niezrównoważonych danych: podejście na poziomie algorytmu i podejście na poziomie danych.
Podejście algorytmiczne – algorytmy ML w równym stopniu karzą fałszywie dodatnie i fałszywie ujemne wyniki. Sposobem na przeciwdziałanie temu jest modyfikacja samego algorytmu w celu zwiększenia wydajności predykcyjnej na klasie mniejszościowej. Można to zrealizować za pomocą uczenia się opartego na rozpoznawaniu lub uczenia się z uwzględnieniem kosztów.
Podejście oparte na danych – polega na ponownym próbkowaniu danych w celu złagodzenia skutków spowodowanych brakiem równowagi klas. Podejście oparte na danych zyskało powszechną akceptację wśród praktyków, ponieważ jest bardziej elastyczne i pozwala na wykorzystanie najnowszych algorytmów. Dwie najczęstsze techniki to pobieranie zbyt dużej i zbyt małej próbki.
Wiele problemów klasyfikacyjnych może mieć poważny brak równowagi w rozkładzie klas, niemniej jednak przyjrzenie się typowym domenom problemowym, które są z natury niezrównoważone, sprawi, że idee i wyzwania związane z brakiem równowagi klasowej staną się konkretne.
Każda z dziedzin problemowych reprezentuje całą dziedzinę badań, w której określone problemy z każdej domeny można ująć w ramy i zbadać jako niezrównoważone modelowanie predykcyjne klasyfikacji. Podkreśla to multidyscyplinarny charakter klasyfikacji niezrównoważonej klasowo i dlaczego tak ważne jest, aby praktykujący uczenie maszynowe był świadomy problemu i umiejętnie go rozwiązał. W obliczu niezrównoważonych zestawów danych nie ma jednego rozwiązania, które poprawiłoby dokładność modelu predykcyjnego. Być może trzeba będzie wypróbować wiele metod, aby znaleźć najbardziej odpowiednie techniki pobierania próbek dla zbioru danych. W zależności od cech niezrównoważonego zbioru danych, najskuteczniejsze techniki będą się różnić. Podczas porównywania modeli należy wziąć pod uwagę odpowiednie parametry oceny.