Przykłady Advesarial Machine Learningu (AML) stanowią dane wejściowe do modeli uczenia maszynowego, które atakujący celowo zaprojektował, aby spowodować błąd w modelu. Jak działają przykłady AML na różnych mediach i dlaczego zabezpieczenie systemów przed nimi może być trudne?
Advesarial Machine Learning to technika stosowana w uczeniu maszynowym w celu oszukiwania lub wprowadzania w błąd modelu przy użyciu złośliwych danych wejściowych. Podczas gdy AML może być wykorzystywane w różnych aplikacjach, technika ta jest najczęściej stosowana do przeprowadzenia ataku lub spowodowania awarii w systemie uczenia maszynowego. To samo wystąpienie ataku można łatwo zmienić, aby działało na wielu modelach różnych zestawów danych lub architektur.
AML można podzielić na atak, gdzie atakujący zna wewnętrzne działanie używanego modelu, oraz na ataki, gdzie atakujący zna tylko dane wyjściowe modelu. Modele uczenia maszynowego są szkolone przy użyciu dużych zestawów danych dotyczących przedmiotu, o którym się uczy. Szkodliwy atak, taki jak przeciwdziałanie uczenia maszynowego, może zostać wykorzystany przeciwko temu algorytmowi uczenia maszynowego, wykorzystując dane wejściowe algorytmów do błędnej interpretacji tych danych, powodując, że cały system następnie błędnie identyfikuje znaki stopu, gdy zostanie wdrożony w dowolnej praktyce lub produkcja.
Ataki AML można zaklasyfikować jako dane błędnej klasyfikacji lub zatrucie danych. Dane wejściowe do błędnej klasyfikacji są bardziej powszechnym wariantem, w którym atakujący ukrywają złośliwą zawartość w filtrach algorytmu uczenia maszynowego. Celem tego ataku jest błędne sklasyfikowanie określonego zestawu danych przez system. Do tego celu można wykorzystać ataki trojana typu backdoor po wdrożeniu systemu. Zatrucie danych ma miejsce, gdy osoba atakująca próbuje zmodyfikować proces uczenia maszynowego poprzez umieszczenie niedokładnych danych w zbiorze danych, co powoduje, że dane wyjściowe są mniej dokładne. Celem tego rodzaju ataku jest utrudnienie procesu uczenia maszynowego i zminimalizowanie przydatności algorytmu. Tradycyjne techniki zwiększania niezawodności modeli uczenia maszynowego, na ogół nie zapewniają praktycznej obrony. Jak dotąd tylko dwie metody zapewniły znaczącą obronę.
Szkolenie adwersatywne: Jest to rozwiązanie siłowe, w którym po prostu generujemy wiele przeciwników i wyraźnie szkolimy model, aby nie dał się oszukać każdemu z nich. Implementacja szkolenia przeciwników o otwartym kodzie źródłowym i jej użycie zilustrowano w poniższym samouczku.
Defensywna destylacja: Jest to strategia, w której uczymy model wyprowadzać prawdopodobieństwa różnych klas, a nie trudne decyzje o tym, którą klasę wyprowadzić. Prawdopodobieństwa są dostarczane przez wcześniejszy model, przeszkolony w tym samym zadaniu przy użyciu twardych etykiet klasy. Tworzy to model, którego powierzchnia jest wygładzana w kierunkach, w których przeciwnik zwykle próbuje wykorzystać, co utrudnia im wykrycie drobnych poprawek wejściowych, które prowadzą do nieprawidłowej kategoryzacji. Jednak nawet te wyspecjalizowane algorytmy można łatwo złamać, przekazując atakującemu większą siłę obliczeniową.
Obecnie nie ma konkretnego sposobu obrony przed AML, istnieje jednak kilka technik, które mogą zapobiec atakowi tego typu. Takie techniki obejmują trening przeciwnika, destylację obronną. Szkolenie przeciwnika jest procesem, w którym przykłady wystąpień przeciwnika są wprowadzane do modelu i oznaczane jako groźne. Ten proces może być przydatny w zapobieganiu dalszym atakom polegającym na uczeniu maszynowym, ale wymaga dużej konserwacji.
Ma to na celu uelastycznienie algorytmu uczenia maszynowego, ponieważ jeden model przewiduje wyniki innego modelu, który został wcześniej przeszkolony. Takie podejście może identyfikować nieznane zagrożenia. Podobna jest myśl do generatywnych sieci współzawodniczących (GAN), które tworzą razem dwie sieci neuronowe w celu przyspieszenia procesów uczenia maszynowego – w założeniu, że dwa modele uczenia maszynowego są używane razem.
Kiedy myślimy o badaniu bezpieczeństwa AI, zwykle myślimy o niektórych z najtrudniejszych problemów w tej dziedzinie – w jaki sposób możemy zapewnić, że wyrafinowani uczący się wzmacniacze, którzy są znacznie bardziej inteligentni niż ludzie, zachowują się w sposób zamierzony przez ich projektantów?
Przeciwne przykłady pokazują nam, że nawet proste nowoczesne algorytmy, zarówno do nauki nadzorowanej, jak i wzmacniającej, mogą już zachowywać się w zaskakujący sposób, czego nie zamierzamy.
Trudno jest się bronić, ponieważ trudno jest zbudować teoretyczny model procesu tworzenia przykładowych AML. Są to rozwiązania problemu optymalizacji, który jest nieliniowy i nie wypukły dla wielu modeli ML, w tym sieci neuronowych. Ponieważ nie mamy dobrych narzędzi teoretycznych do opisywania rozwiązań tych skomplikowanych problemów związanych z optymalizacją, bardzo trudno jest przedstawić argument teoretyczny, że obrona wykluczy zestaw przykładowych ataków. Również trudno się obronić, ponieważ wymagają modeli uczenia maszynowego do uzyskania dobrych wyników dla każdego możliwego wkładu. Przez większość czasu modele uczenia maszynowego działają bardzo dobrze, ale działają tylko na bardzo małą liczbę wszystkich możliwych danych wejściowych, które mogą napotkać. Ważnym obszarem badawczym jest zaprojektowanie obrony, która może chronić przed potężnym, adaptacyjnym atakującym.
Przyjrzeliśmy się różnym rodzajom ataków, a także metodom obrony przed tymi atakami. Jest to zdecydowanie coś, o czym należy pamiętać, wdrażając modele uczenia maszynowego. Zamiast ślepo ufać modelom, że przyniosą prawidłowe wyniki, musimy wystrzegać się tych ataków i zawsze zastanowić się dwa razy, zanim zaakceptujemy decyzje podjęte przez te modele.
AML pokazuje, że wiele współczesnych algorytmów uczenia maszynowego można złamać w zaskakujący sposób. Te niepowodzenia uczenia maszynowego pokazują, że nawet proste algorytmy mogą zachowywać się zupełnie inaczej niż zamierzają ich projektanci. Zachęcamy badaczy uczących się od maszyn do angażowania się i opracowywania metod zapobiegania, w celu wypełnienia luki między tym, co zamierzają projektanci, a tym, jak zachowują się algorytmy.