Rozpoznawanie mowy i sztuczna inteligencja (AI)

Technical SEO – included by the audit

15 listopada 2019

Czym jest Data Science

27 listopada 2019

20 listopada 2019

Smartfony, głośniki, samochody, roboty, komputery i wiele innych urządzeń mobilnych otaczają nas każdego dnia. Z każdym nowym modelem są coraz bardziej udoskonalone. Systemy te wykonują skomplikowane czynności, które kiedyś były kojarzone tylko z ludzkością. Realizują funkcje rozpoznawania mowy, uczenia się czy rozumowania.

Sztuczna Inteligencja (AI) jest wszędzie, robiąc ogromną różnicę w naszym codziennym życiu. Naśladuje czynności ludzkiego mózgu, stosując je w technologii.

Jak to właściwie działa?

Pierwszym krokiem w rozpoznawaniu mowy jest konwersja wypowiedzianych słów na sygnał elektroniczny, który może być podzielony na kategorie i przetworzony na działanie. Początkowo konwersja dźwięku na ten sygnał odbywa się za pomocą mikrofonu. Następnie jest on konwertowany na dane cyfrowe, które komputer może zrozumieć, za pomocą przetwornika analogowo-cyfrowego.

Rozpoznawanie mowy to technologia identyfikacji ludzkiej mowy, którą system przekształci na tekst. Jest ona przedmiotem ciągłych ulepszeń i kombinacji, tak aby odciążyć nas od czynności poprzez dotykanie myszy lub klawiatury. Wystarczy, że wprowadzimy komendę werbalnie, a natychmiast otrzymamy odpowiedź.

Poprzez rozpoznawanie mowy możemy wyróżnić dwie główne kategorie. Pierwsza to zależność od mówiącego, druga to styl rozpoznawania.

Zależność od mówiącego dzieli się na system:

• zależny, gdy systemy są „uczone” rozpoznawania głosu osoby lub osób, które je szkoliły,

• niezależny, może rozpoznawać mowę każdego przeszkolonego użytkownika, zgodnie z ogólnym słownictwem.

O systemie zależnym możemy usłyszeć w rozpoznawaniu głosu. To technologia, która identyfikuje osobę na podstawie jej głosu.

Styl rozpoznawania mowy klasyfikujemy jako:

• izolowany, oznacza to, że mówca musi zatrzymywać się między słowami lub poleceniami. Identyfikacja słów 0.96s i mniej.

• połączony, rozpoznawanie fraz o długości 1.92s,

• ciągły, system rozpoznaje głos, którego używamy na co dzień.

Inteligentne urządzenia

Firmy technologiczne, takie jak Amazon, Apple i Google, od lat z sukcesem wdrażają technologię rozpoznawania mowy w swoich urządzeniach. Inteligentne głośniki to jedno z takich narzędzi. Rozumieją i wykonują instrukcje podane przez właścicieli, dzięki technikom przetwarzania języka naturalnego. Wyróżnia się poszczególne modele głośników wraz z funkcjonalnością asystentów osobistych, takich jak Siri, Alexa i inni.

Aplikacje na urządzenia mobilne

Czasami jesteśmy tak pochłonięci pracą, że mamy obie ręce zajęte lub nie możemy wprowadzić długiej frazy w wyszukiwarce telefonu, bo prowadzimy samochód. Jedną z funkcji, które daje nam sztuczna inteligencja, jest rozpoznawanie mowy. Z pomocą przychodzi nam inteligentny asystent, dostępny na urządzenia mobilne i nie tylko. Należą do nich Alexa, Cortana, Google Assistant, a nawet Siri. To tylko niektóre z nich. Użytkownicy komunikują się z urządzeniem głosowo, także pisemnie. Oprogramowanie analizuje ludzką mowę i dostosowuje ją do odpowiedniej komendy. Wirtualny asystent potrafi prowadzić rozmowy, wyszukiwać informacje w Internecie, odpowiadać na dziwaczne pytania i wiele więcej.

Alexa

Amazon umożliwił integrację funkcji Alexy w urządzeniach różnych producentów, takich jak Whirlpool, LG i kilku tysięcy innych marek. Obecnie obsługuje ponad 30 000 umiejętności.

Google Assistant

Uważany za najinteligentniejszego asystenta. Jest dostępny na urządzeniach takich jak telefony z systemem Android lub iOS, smartwatche, laptopy Pixelbook, smart TV/ekrany z systemem Android oraz samochody z automatycznym wsparciem dla Androida. Ciekawostką jest, że w pierwszym kwartale 2018 roku Google sprzedało podobno 3,2 miliona swoich urządzeń Home i Home Mini, przewyższając urządzenia Echo zasilane Alexą o 2,5 miliona.

Cortana

Wirtualny asystent debiutowy opublikowany przez Microsoft w październiku 2017 roku.

Siri

Inteligentny asystent osobisty, który jest częścią systemów operacyjnych Apple – iOS, watchOS, tvOS, HomePod i macOS. Jego pierwsza edycja została wydana w październiku 2011 roku.

Wiele pozytywów

Jak wiadomo, z wirtualnym asystentem spotykamy się na każdym kroku. Dzięki tej technologii możemy na chwilę zapomnieć o problemie. Urządzenie ma wbudowaną funkcję przypomnień i śledzenia poleceń. Ponadto pomogą nam zaplanować dzień, skontaktują nas ze znajomymi i przypomną o ważnych spotkaniach. Ułatwiają w codziennych sytuacjach, na przykład odnajdą nieznaną nam lokalizację. Użytkownicy mogą wpisywać polecenia do Google Asystenta, gdy jest cicho w miejscach, takich jak biblioteki.

Google oferuje narzędzie do rozpoznawania mowy oparte na sztucznej inteligencji Cloud Speech-to-Text, które ułatwia programistom konwersję dźwięku na tekst, wykorzystując algorytmy głębokiego uczenia sieci neuronowych. Narzędzie działa w 120 językach i umożliwia sterowanie głosowe, transkrypcję dźwięku z call center, przetwarzanie strumieniowania w czasie rzeczywistym lub nagrywanie dźwięku. Cortana na komputerach Microsoftu może zarządzać wiadomościami e-mail użytkownika. Siri zapewnia poufność i bezpieczeństwo informacji, dzięki czemu wyszukiwania i zapytania nie są zbierane w celu sprzedaży reklamodawcom. Warto również wspomnieć o programach do konwersji mowy na tekst. Aplikacje oferują nagrywanie pojedynczych słów, a także dłuższych wypowiedzi. Dzięki nim zaoszczędzimy cenny czas i zwiększymy produktywność. Są doskonałym rozwiązaniem dla osób, które wolno piszą na klawiaturze. Można by dużo wspomnieć. Obecnie aplikacje AI cieszą się dużą popularnością.

Nadchodzące trudności

Istnieje wiele przeszkód, które uniemożliwiają urządzeniu rozpoznawanie i interpretowanie mowy. Należą do nich czynniki fizjologiczne i środowiskowe oraz wiele innych. Trudno jest odróżnić poszczególne słowa, jeśli szum mowy nakłada się na szum tła. Warto przypomnieć, że w 2017 roku wskaźnik błędów słów w technologii głosowej Microsoftu został odnotowany przez firmę na poziomie 5,1%, podczas gdy Google zmniejszyło swój wskaźnik do 4,9%. Innym problemem jest brak rozpoznawania języka polskiego przez niektóre aplikacje. Obecnie Google Assistant zasłynął na początku 2019 roku polską wersją. Ponadto używanie skrótów i slangu nie zawsze skutkuje zrozumieniem przez komputer.

Zalety AI

Ze sztuczną inteligencją mamy do czynienia na każdym kroku. Pomaga nam w codziennych czynnościach i rewelacyjnie wykonuje zadania specjalne. Można by powiedzieć, że sztuczna inteligencja „podaje nam rękę”. Obecnie AI odgrywa kluczową rolę jako urządzenie do codziennego użytku (telefony, roboty kuchenne), ale nie tylko.

Jako przykład AI podam Wam humanoidalnego robota Sophię. Została obdarzona sztuczną inteligencją, aby uczyć się i dostosowywać do ludzkich zachowań oraz współpracować z ludźmi. Oprogramowanie Sophii zostało zaprojektowane w 2015 roku przez SingularityNET. Została pierwszą obywatelką-robotem w Arabii Saudyjskiej i udzieliła wielu wywiadów na całym świecie.

Ryzyko

Ale czy nie powinniśmy się bać? Czy wbudowana technologia może zwrócić się przeciwko nam? Czy mamy nad nią pełną władzę? Te kwestie rodzą pytania o wycieki danych, ochronę prywatności. Należy jednak pamiętać, że oddajemy kontrolę nad aspektami życia w zamian za oferowaną wygodę. Technologia jest stale wdrażana i udoskonalana. I dobrze. Kto chciałby, żeby szympans zobaczył zdjęcie Afroamerykanina po wyszukaniu słowa „szympans”? Można by również wymienić ryzyka takie jak cyberataki, mniej bezpieczne dane prywatne, złe wybory dokonywane przez maszyny i technologie czy utrata umiejętności. To tylko kilka z kłopotliwych przykładów sztucznej inteligencji.

Czy warto?

Ta technologia staje się fundamentalną częścią naszego życia. Ryzyko istnieje i zawsze będzie. W końcu maszyny wciąż się uczą, dostosowują do naszego funkcjonowania, dzięki czemu mogą być bardziej spersonalizowane dla użytkownika. To dopiero początek ekspansji tych technologii. Korzystając ze sztucznej inteligencji, ważne jest, aby pamiętać, że systemy te są złożone, imponujące i dokładne, ale nie doskonałe.

greenlogic