Na podstawie https://ai.googleblog.com/2020/10/developing-real-time-automatic-sign.html
W dzisiejszych czasach, gdzie wiele firm stosuje wideokonferencje, warto , aby były one dostępne dla każdego. W tym dla osób, które komunikują się ze światem za pomocą języka migowego. Większość aplikacji do wideokonferencji pokazuje obraz tych osób, które w tym momencie mówią. Dlatego osoby używające języka migowego nie mają jak się przebić by być na ekranie . Włączenie wykrywania języka migowego w czasie rzeczywistym podczas wideokonferencji jest trudne, ponieważ aplikacje muszą przeprowadzać klasyfikację przy użyciu źródła wideo o dużej objętości jako wejścia, co powoduje, że zadanie jest trudne obliczeniowo. Po części ze względu na te wyzwania badania dotyczące wykrywania języka migowego są ograniczone.
Google przedstawia model wykrywania języka migowego w czasie rzeczywistym i pokazuje, w jaki sposób można go wykorzystać do zapewnienia systemów wideokonferencyjnych i mechanizmu identyfikacji osoby jako aktywny mówca.
Aby umożliwić rozwiązanie działające w czasie rzeczywistym dla różnych aplikacji do wideokonferencji, Google zaprojektowało lekki model, który byłby łatwy w użyciu i który można użyć na zwykłym laptopie. Poprzednie próby integracji modeli do aplikacji wideokonferencyjnych po stronie klienta pokazały, jak ważny jest lekki model, który zużywa mniej cykli procesora, aby zminimalizować wpływ na jakość połączeń. Aby zmniejszyć wymiarowość wejściową, Google wyodrębniło z wideo informacje, których potrzebuje model, aby przeprowadzić klasyfikację każdej klatki.
Ponieważ język migowy obejmuje ciało i ręce użytkownika, Google zaczyna od modelu szacowania pozy, PoseNet. Zmniejsza to znacznie dane wejściowe z całego obrazu HD do niewielkiego zestawu punktów orientacyjnych na ciele użytkownika, w tym oczu, nosa, ramion, dłoni itp. PoseNet używa tych punktów orientacyjnych do obliczania przepływu optycznego między klatkami, który określa ilościowo ruch użytkownika do użycia przez model bez zachowywania informacji specyficznych dla użytkownika. Każda pozycja jest znormalizowana na podstawie szerokości ramion osoby, aby mieć pewność, że model opiekuje się osobą podpisującą się w pewnym zakresie odległości od aparatu. Przepływ optyczny jest następnie normalizowany przez liczbę klatek wideo przed przekazaniem do modelu.
Aby przetestować to podejście, Google użyło korpusu niemieckiego języka migowego (DGS), który zawiera długie filmy przedstawiające podpisywanie osób i zawiera adnotacje dotyczące zakresu, które wskazują, w których ramkach ma miejsce podpisywanie. Jako punkt odniesienia wytrenowano model regresji liniowej, aby przewidywać, kiedy dana osoba podpisuje się przy użyciu danych przepływu optycznego. Ta linia bazowa osiągnęła około 80% dokładności, wykorzystując tylko ~ 3 μs (0,000003 sekundy) czasu przetwarzania na klatkę. Uwzględniając przepływ optyczny 50 poprzednich klatek jako kontekst modelu liniowego, jest w stanie osiągnąć 83,4%.
Aby uogólnić użycie kontekstu, użyto architektury pamięci długookresowej (LSTM), która zawiera pamięć z poprzednich etapów czasowych, ale bez retrospekcji. Korzystając z jednowarstwowego LSTM, a następnie warstwy liniowej, model osiąga dokładność do 91,5% przy 3,5 ms (0,0035 sekundy) czasu przetwarzania na klatkę.
Gdy Google miał już działający model wykrywania języka migowego, wymyślili sposób na jego użycie do wyzwalania funkcji aktywnego głośnika w zastosowaniach do wideokonferencji. Opracowano lekką prezentację internetową w czasie rzeczywistym, wykrywającą język migowy, która łączy się z różnymi aplikacjami do wideokonferencji i może ustawić użytkownika jako „mówcę”, gdy ten podpisuje. To demo wykorzystuje PoseNet do szybkiego szacowania pozycji człowieka i modeli wykrywania języka migowego, co umożliwia niezawodną pracę w czasie rzeczywistym.
Kiedy model wykrywania języka migowego ustali, że użytkownik podpisuje, przekazuje ultradźwiękowy ton audio przez wirtualny kabel audio, który może zostać wykryty przez dowolną aplikację do wideokonferencji. Dźwięk jest przesyłany z częstotliwością 20 kHz, co zwykle znajduje się poza zasięgiem słyszalności dla ludzi. Ponieważ aplikacje do wideokonferencji zwykle wykrywają „głośność” dźwięku jako mowę, a nie tylko wykrywają mowę, powoduje to, że aplikacja myśli, że mówi użytkownik.
Google uważa, że aplikacje do wideokonferencji powinny być dostępne dla każdego. Pokazali w jaki sposób można wykorzystać model, aby umożliwić osobom używającym języka migowego wygodniejsze korzystanie z wideokonferencji.
Rozpoznawanie języka migowego jest trudnym problemem, jeśli weźmiemy pod uwagę wszystkie możliwe kombinacje gestów, które system tego rodzaju musi rozumieć i tłumaczyć. Mając to na uwadze, prawdopodobnie najlepszym sposobem rozwiązania tego problemu jest podzielenie go na prostsze problemy, a przedstawiony tutaj system odpowiadałby możliwemu rozwiązaniu jednego z nich.
System nie działał zbyt dobrze, ale wykazano, że można go zbudować jako pierwszoosobowy system tłumaczenia na język migowy, używając tylko kamer i sieci neuronowych. Następnym krokiem jest analiza rozwiązania i zbadanie sposobów ulepszenia systemu. Pewne ulepszenia mogą przynieść gromadzenie większej ilości danych wysokiej jakości, wypróbowanie bardziej splotowych architektur sieci neuronowych lub przeprojektowanie systemu wizyjnego.