Wprowadzenie do klasyfikacji niezrównoważonej. Przykłady, problemy, wyzwania i rozwiązaniaWprowadzenie do klasyfikacji niezrównoważonej. Przykłady, problemy, wyzwania i rozwiązaniaWprowadzenie do klasyfikacji niezrównoważonej. Przykłady, problemy, wyzwania i rozwiązaniaWprowadzenie do klasyfikacji niezrównoważonej. Przykłady, problemy, wyzwania i rozwiązania
  • Usługi
  • Klienci
  • Blog
  • Praca
  • O firmie
  • Kontakt
polski
  • angielski
✕

Wprowadzenie do klasyfikacji niezrównoważonej. Przykłady, problemy, wyzwania i rozwiązania

31 lipca 2020
blank

Klasyfikacja niezrównoważona dotyczy zadań klasyfikacyjnych, w których liczba przykładów w każdej klasie jest nierównomiernie rozłożona. Zazwyczaj niezrównoważone zadania klasyfikacji to zadania klasyfikacji binarnej, w których większość przykładów w zestawie danych uczących należy do klasy normalnej, a mniejszość przykładów należy do klasy nienormalnej.

Modelowanie predykcyjne klasyfikacji

Algorytmy modelowania predykcyjnego klasyfikacji są oceniane na podstawie ich wyników. Dokładność klasyfikacji to popularna miara używana do oceny wydajności modelu na podstawie przewidywanych etykiet klas. Dokładność klasyfikacji nie jest idealna, ale jest dobrym punktem wyjścia do wielu zadań klasyfikacyjnych.

Zamiast etykiet klas, niektóre zadania mogą wymagać przewidywania prawdopodobieństwa przynależności do klasy dla każdego przykładu. Zapewnia to dodatkową niepewność w przewidywaniu, które aplikacja lub użytkownik może następnie zinterpretować.

Istnieją cztery główne typy zadań klasyfikacyjnych, z którymi możesz się spotkać; oni są:

  • Klasyfikacja binarna
  • Klasyfikacja wieloklasowa
  • Klasyfikacja wieloznakowa
  • Niezrównoważona klasyfikacja

Problemy z niezrównoważoną klasyfikacją

Liczba przykładów należących do każdej klasy może być nazywana rozkładem klas. Niezrównoważona klasyfikacja odnosi się do problemu z modelowaniem predykcyjnym klasyfikacji, w którym liczba przykładów w zestawie danych szkoleniowych dla każdej etykiety klasy nie jest zrównoważona. To znaczy, gdy rozkład klas nie jest równy lub bliski równości, a zamiast tego jest odchylony lub skośny. Niezrównoważona klasyfikacja to problem z modelowaniem predykcyjnym klasyfikacji, w którym rozkład przykładów w klasach nie jest równy.

Wyzwania klasyfikacji niezrównoważanej

Istnieją 3 główne problemy wynikające z danych o nierównym rozkładzie klas. Są one następujące:

Problem z maszyną. Algorytmy uczenia maszynowego są zbudowane w celu minimalizacji błędów. Ponieważ prawdopodobieństwo wystąpienia przypadków należących do klasy większości jest znacząco wysokie w niezrównoważonym zbiorze danych, algorytmy z większym prawdopodobieństwem klasyfikują nowe obserwacje do klasy większości.

Wewnętrzny problem. W prawdziwym życiu koszt fałszywie negatywnego wyniku jest zwykle znacznie wyższy niż fałszywie dodatniego, jednak algorytmy ML nakładają karę na oba te wyniki przy podobnej wadze.

Problem ludzki. Powszechne praktyki w wielu branżach są często ustalane przez ekspertów, a nie badania empiryczne. To z pewnością nie jest optymalne rozwiązanie.

Rozwiązania

Istnieją dwa różne podejścia do rozwiązywania kwestii niezrównoważonych danych: podejście na poziomie algorytmu i podejście na poziomie danych.

Podejście algorytmiczne – algorytmy ML w równym stopniu karzą fałszywie dodatnie i fałszywie ujemne wyniki. Sposobem na przeciwdziałanie temu jest modyfikacja samego algorytmu w celu zwiększenia wydajności predykcyjnej na klasie mniejszościowej. Można to zrealizować za pomocą uczenia się opartego na rozpoznawaniu lub uczenia się z uwzględnieniem kosztów.

Podejście oparte na danych – polega na ponownym próbkowaniu danych w celu złagodzenia skutków spowodowanych brakiem równowagi klas. Podejście oparte na danych zyskało powszechną akceptację wśród praktyków, ponieważ jest bardziej elastyczne i pozwala na wykorzystanie najnowszych algorytmów. Dwie najczęstsze techniki to pobieranie zbyt dużej i zbyt małej próbki.

  • Nadmierne pobieranie próbek zwiększa liczbę członków klasy mniejszościowej w zbiorze szkoleniowym. Zaletą nadmiernego próbkowania jest to, że żadne informacje z pierwotnego zestawu uczącego nie są tracone, ponieważ wszystkie obserwacje z klas mniejszości i większości są zachowane. Z drugiej strony jest podatny na overfitting.
  • Niedobór, w przeciwieństwie do nadmiernego pobierania próbek, ma na celu zmniejszenie liczby próbek większościowych, aby zrównoważyć rozkład klas. Ponieważ usuwa obserwacje z pierwotnego zbioru danych, może odrzucić przydatne informacje.

Przykłady niezrównoważonej klasyfikacji

Wiele problemów klasyfikacyjnych może mieć poważny brak równowagi w rozkładzie klas, niemniej jednak przyjrzenie się typowym domenom problemowym, które są z natury niezrównoważone, sprawi, że idee i wyzwania związane z brakiem równowagi klasowej staną się konkretne.

  • Wykrywanie oszustw
  • Przewidywanie roszczeń
  • Domyślna prognoza
  • Przewidywanie rezygnacji
  • Wykrywanie spamu
  • Wykrywanie anomalii
  • Wykrywanie wartości odstających
  • Wykrywanie wtargnięcia
  • Przewidywanie konwersji

Każda z dziedzin problemowych reprezentuje całą dziedzinę badań, w której określone problemy z każdej domeny można ująć w ramy i zbadać jako niezrównoważone modelowanie predykcyjne klasyfikacji. Podkreśla to multidyscyplinarny charakter klasyfikacji niezrównoważonej klasowo i dlaczego tak ważne jest, aby praktykujący uczenie maszynowe był świadomy problemu i umiejętnie go rozwiązał. W obliczu niezrównoważonych zestawów danych nie ma jednego rozwiązania, które poprawiłoby dokładność modelu predykcyjnego. Być może trzeba będzie wypróbować wiele metod, aby znaleźć najbardziej odpowiednie techniki pobierania próbek dla zbioru danych. W zależności od cech niezrównoważonego zbioru danych, najskuteczniejsze techniki będą się różnić. Podczas porównywania modeli należy wziąć pod uwagę odpowiednie parametry oceny.

Udostępnij
0
Piotr Chmiel
Piotr Chmiel
W branży IT od kilku lat, głównie zajmuję się SEO. Z dnia na dzień pogłębiam swoją wiedzę z obszaru IT tj. : Tworzenie stron, Wordpress, Machine Learning, SEO, Big Data itp. itd. Prywatnie amator koszykarz, basista, szachista i kucharz.

Podobne publikacje

blank
20 czerwca 2022

W jaki sposób aktualizacja rdzenia google z maja 2022 wpłynie na Twoją stronę?


Dowiedz się więcej
blank
14 stycznia 2022

Trendy Big Data i Data Science w 2022


Dowiedz się więcej
blank
14 września 2021

Przyszłość przetwarzania języka naturalnego – NLP


Dowiedz się więcej

Szukaj na blogu

✕

Kategorie

  • Ecommerce
  • SEO
  • Software development
blank
Personalization, Recommendations, Messaging & User Testing in a Single Platform with a Single Tag implementation
Greenlogic Logo

Greenlogic - PolandPOLSKA
ul. Krupnicza 13
50-075 Wrocław
+48 505 020 036
[email protected]

Greenlogic - AustraliaAUSTRALIA
10a Mitford Street
3182 St. Kilda Melbourne
+61 490 235 843
[email protected]

Software House

  • Tworzenie oprogramowania
    • Aplikacje dedykowane Java
    • Machine learning
    • Big data dla ecommerce
    • Tworzenie stron internetowych WordPress
    • Sklepy internetowe WordPress + Woocommerce
    • Front end development
  • Projektowanie
    • Projektowanie usług
    • Projektowanie serwisów internetowych
    • Projektowanie aplikacji mobilnych (PWA)
    • Projektowanie i optymalizacja UX

Agencja Ecommerce

  • Badania i analiza danych
    • Doradztwo transakcyjne eCommerce
    • Analityka internetowa
    • Analiza on-page / off-page SEO
    • Badania UI / UX
  • Zwiększanie sprzedaży
    • Optymalizacja konwersji (CRO)
    • White Hat SEO
    • Content marketing
    • Online marketing

Greenlogic

  • O firmie
  • Blog
  • Polityka prywatności
  • Praca
  • Kontakt
© 2009- Greenlogic - Software House & Agencja Ecommerce

Sąd Rejonowy dla Wrocławia-Fabrycznej VI Wydział Gospodarczy KRS nr 0000602965. Kapitał zakładowy 50.000 zł opłacony w całości.

polski
  • polski
  • angielski