Uczenie maszynowe jest dziedziną badań i dotyczy algorytmów uczących się na przykładach. Klasyfikacja to zadanie wymagające użycia algorytmów uczenia maszynowego, które uczą się, jak przypisywać etykietę klasy do przykładów z dziedziny problemowej. Istnieje wiele różnych rodzajów zadań klasyfikacyjnych, które można napotkać w uczeniu maszynowym i specjalistycznych podejściach do modelowania, które można zastosować do każdego z nich.
W uczeniu maszynowym klasyfikacja odnosi się do problemu modelowania predykcyjnego, w którym etykieta klasy jest przewidywana dla danego przykładu danych wejściowych. Z punktu widzenia modelowania klasyfikacja wymaga zestawu danych szkoleniowych z wieloma przykładami danych wejściowych i wyjściowych, z których można się uczyć.
Model użyje zestawu danych szkoleniowych i obliczy, jak najlepiej odwzorować przykłady danych wejściowych na określone etykiety klas. Zestaw danych szkoleniowych musi być wystarczająco reprezentatywny dla problemu i zawierać wiele przykładów każdej etykiety klasy.
Klasyfikacyjne algorytmy modelowania predykcyjnego są oceniane na podstawie ich wyników. Dokładność klasyfikacji jest popularnym miernikiem używanym do oceny wydajności modelu na podstawie przewidywanych etykiet klas. Dokładność klasyfikacji nie jest idealna, ale jest dobrym punktem wyjścia dla wielu zadań klasyfikacyjnych.
Klasyfikacja binarna odnosi się do zadań klasyfikacyjnych, które mają dwie etykiety klas.
Przykłady obejmują:
Zazwyczaj zadania klasyfikacji binarnej obejmują jedną klasę, która jest stanem normalnym, a drugą klasę, która jest stanem nienormalnym. Klasie dla stanu normalnego przypisuje się etykietę klasy 0, a klasie o stanie nienormalnym przypisuje się etykietę klasy 1. Powszechne jest modelowanie zadania klasyfikacji binarnej za pomocą modelu, który przewiduje rozkład prawdopodobieństwa Bernoulliego dla każdego przykładu.
Niektóre algorytmy są specjalnie zaprojektowane do klasyfikacji binarnej i nie obsługują natywnie więcej niż dwóch klas; przykłady obejmują regresję logistyczną i maszyny wektorowe wsparcia.
Klasyfikacja wielu klas odnosi się do zadań klasyfikacyjnych, które mają więcej niż dwie etykiety klas.
Przykłady obejmują:
W przeciwieństwie do klasyfikacji binarnej, klasyfikacja wieloklasowa nie ma pojęcia normalnych i nienormalnych wynikach. Zamiast tego przykłady klasyfikuje się jako należące do jednej z szeregu znanych klas.
Liczba etykiet klas może być bardzo duża w przypadku niektórych problemów. Na przykład model może przewidzieć zdjęcie jako należące do jednej z tysięcy lub dziesiątek tysięcy twarzy w systemie rozpoznawania twarzy.
Problemy związane z przewidywaniem sekwencji słów, takie jak modele tłumaczenia tekstu, można również uznać za specjalny rodzaj klasyfikacji wieloklasowej. Każde słowo w sekwencji przewidywanych słów obejmuje klasyfikację wieloklasową, w której rozmiar słownika określa liczbę możliwych klas, które można przewidzieć i które mogą mieć wielkość dziesiątek lub setek tysięcy słów.
Wiele algorytmów używanych do klasyfikacji binarnej może być używanych do klasyfikacji wielu klas.
Algorytmy zaprojektowane do klasyfikacji binarnej można dostosować do użytku w przypadku problemów wieloklasowych.
Wiąże się to ze stosowaniem strategii dopasowania wielu binarnych modeli klasyfikacji dla każdej klasy w porównaniu do wszystkich innych klas lub jednego modelu dla każdej pary klas.
Klasyfikacja wielu etykiet odnosi się do zadań klasyfikacji, które mają dwie lub więcej etykiet klasy, w których dla każdego przykładu można przewidzieć jedną lub więcej etykiet klasy.
Jest ona odmienna od klasyfikacji binarnej i klasyfikacji wielu klas, w których dla każdego przykładu przewidziana jest etykieta pojedynczej klasy.
Powszechne jest modelowanie zadań klasyfikacji wieloznakowej za pomocą modelu, który przewiduje wiele wyników, przy czym każde wyjście przyjmuje się jako rozkład prawdopodobieństwa Bernoulliego. Zasadniczo jest to model, który tworzy wiele predykcji klasyfikacji binarnej dla każdego przykładu.
Algorytmy klasyfikacji stosowane do klasyfikacji binarnej lub wieloklasowej nie mogą być stosowane bezpośrednio do klasyfikacji wieloznakowej.
Innym podejściem jest użycie osobnego algorytmu klasyfikacji do przewidywania etykiet dla każdej klasy.
Niezrównoważona klasyfikacja odnosi się do zadań klasyfikacyjnych, w których liczba przykładów w każdej klasie jest nierównomiernie rozłożona.
Zazwyczaj niezrównoważone zadania klasyfikacyjne to zadania klasyfikacji binarnej, w których większość przykładów w zbiorze danych szkoleniowych należy do klasy normalnej, a niewielka część przykładów należy do klasy nienormalnej.
Przykłady obejmują:
Problemy te są modelowane jako zadania klasyfikacji binarnej, chociaż mogą wymagać specjalistycznych technik.
Do zmiany składu próbek w zbiorze danych szkoleniowych można zastosować wyspecjalizowane techniki poprzez niepełne próbkowanie klasy większościowej lub nadmierne próbkowanie klasy większościowej.
Klasyfikacja i grupowanie, są głównymi ideami stojącymi za wieloma innymi technikami i tematami w uczeniu maszynowym. Zdolność do klasyfikowania i rozpoznawania niektórych rodzajów danych pozwala informatykom poszerzać wiedzę i aplikacje w innych obszarach uczenia maszynowego, takich jak widzenie komputerowe, przetwarzanie języka naturalnego, głębokie uczenie się, budowanie predykcyjnych modeli ekonomicznych, rynkowych i pogodowych i innych.