
Dane w sporcie. Czym jest Sport Science i analityka sportowa?
10 grudnia 2019
Big Data, Data Science i analiza danych
2 stycznia 2020
Najnowsza aktualizacja algorytmu Google BERT, czyli Bidirectional Encoder Representations from Transformers, jest przedstawiana przez Google jako największa zmiana w algorytmie od pięciu lat. Google, ogłaszając ją, powiedziało, że wpłynie ona na aż 10% wyników wyszukiwania. W mediach pojawia się wiele niesprawdzonych informacji na temat nowej aktualizacji algorytmu Google. Czym dokładnie jest BERT, jak działa i dlaczego jest ważny dla naszej pracy jako SEO?
\n\n\n\nCzym jest BERT?
\n\n\n\nNajnowsza aktualizacja algorytmu Google – BERT, pomaga Google lepiej rozumieć język naturalny, zwłaszcza w wyszukiwaniu konwersacyjnym. BERT to wstępnie wytrenowany model języka naturalnego bez nadzoru. BERT może przewyższyć najczęstsze zadania NLP po dokładnym dostrojeniu, stając się zasadniczo rakietowym ulepszaczem przetwarzania i rozumienia języka naturalnego. BERT jest dwukierunkowy, co oznacza, że analizuje słowa przed i po jednostkach oraz kontekst wstępnie wytrenowany na Wikipedii, aby zapewnić lepsze zrozumienie języka.
\n\n\n\nAlgorytm BERT (dwukierunkowe reprezentacje koderów z transformatorów) to algorytm głębokiego uczenia, związany z przetwarzaniem języka naturalnego. Pomaga maszynie zrozumieć, co oznaczają słowa w zdaniu, ale ze wszystkimi niuansami kontekstu. BERT znacznie przyspieszył zrozumienie języka naturalnego bardziej niż cokolwiek innego, a przejście Google na otwarte źródła BERT prawdopodobnie na zawsze zmieni przetwarzanie języka naturalnego. Społeczności uczenia maszynowego Machine Learning i NLP są bardzo podekscytowane BERT-em, ponieważ wymaga on wiele wysiłku, aby móc prowadzić badania w dziedzinie języka naturalnego. Został wstępnie wytrenowany na wielu słowach – i to na całej angielskiej Wikipedii, która ma 2500 milionów słów.
\n\n\n\nCo potrafi BERT?
\n\n\n\nSą rzeczy, które łatwo rozumiemy, a których maszyny, w tym wyszukiwarki, nie są w stanie zrozumieć. Poniżej przedstawiamy kwestie, z którymi nowy algorytm już sobie radzi.
\n\n\n\nProblem ze słowami
\n\n\n\nProblem ze słowami polega na tym, że są one wszędzie. Jest coraz więcej treści. Słowa są problematyczne, ponieważ wiele z nich jest dwuznacznych, wielokątnych i synonimicznych. BERT został zaprojektowany, aby pomóc rozwiązać dwuznaczne zdania i frazy, które składają się z wielu słów o dużej liczbie znaczeń.
\n\n\n\nDwuznaczność i polisemia
\n\n\n\nPrawie każde inne słowo w wielu językach ma kilka znaczeń. W wyszukiwaniu głosowym wygląda to jeszcze gorzej, ponieważ każde może być inaczej rozumiane przez różne akcenty. Nie jest to dla nas wielkie wyzwanie, ponieważ mamy zdrowy rozsądek i kontekst, więc możemy zrozumieć wszystkie inne słowa otaczające kontekst sytuacji lub rozmowy – ale wyszukiwarki i maszyny nie.
\n\n\n\nKontekst słowa
\n\n\n\nSłowo nie ma znaczenia, chyba że jest użyte w określonym kontekście. Znaczenie słowa dosłownie zmienia się w miarę rozwoju zdania ze względu na wiele części mowy, które mogą występować w danym kontekście. Im dłuższe zdanie, tym trudniej jest śledzić wszystkie części mowy w zdaniu.
\n\n\n\nJak działa BERT
\n\n\n\nWcześniejsze modele językowe tworzyły bezkontekstowe osadzanie słów. Zamiast tego BERT zapewnia „kontekst”. Aby lepiej zrozumieć, jak działa BERT, spójrzmy na znaczenie tego skrótu.
\n\n\n\nB – Dwukierunkowy (Bidirectional)
\n\n\n\nWcześniej wszystkie modele językowe były jednokierunkowe, więc mogły przesuwać okno kontekstu tylko w jednym kierunku. Większość modeli językowych jest jednokierunkowa. Mogą przechodzić przez okno kontekstu słów od lewej do prawej lub od prawej do lewej. Tylko w jednym kierunku, ale nie jednocześnie. BERT jest inny. BERT wykorzystuje dwukierunkowe modelowanie języka.
\n\n\n\nER – Reprezentacja Enkodera (Encoder Representation)
\n\n\n\nTo, co jest kodowane, jest dekodowane. To mechanizm wejścia i wyjścia.
\n\n\n\nT – Transformatory
\n\n\n\nBERT wykorzystuje „transformatory” i „modelowanie języka maskowanego”. Jednym z głównych problemów w zrozumieniu języka naturalnego w przeszłości było to, że nie był on w stanie zrozumieć, do jakiego kontekstu odnosiło się dane słowo. Tylko część uwagi transformatorów skupia się na zaimkach i wszystkich znaczeniach słów, które idą w parze, aby połączyć się z tym, z kim się rozmawia lub co jest mówione w danym kontekście. Modelowanie w języku maskowanym przestaje widzieć słowo docelowe. Kiedy maska jest nałożona, BERT odgaduje, jakie jest brakujące słowo. Jest to również część procesu dostrajania.
\n\n\n\nJak BERT wpłynie na wyszukiwanie?
\n\n\n\nBERT pomoże Google lepiej rozumieć język ludzki
\n\n\n\nZrozumienie przez BERT niuansów ludzkiego języka będzie miało ogromny wpływ na to, jak Google interpretuje zapytania, ponieważ ludzie oczywiście szukają dłuższych zapytań.
\n\n\n\nBERT pomoże skalować wyszukiwanie konwersacyjne
\n\n\n\nBERT będzie miał również ogromny wpływ na wyszukiwanie głosowe.
\n\n\n\nZmiany w międzynarodowym SEO
\n\n\n\nBERT ma zdolność monolingwalną, ponieważ wiele wzorców w jednym języku jest tłumaczonych na inne języki. Możliwe jest przeniesienie dużej części nauki na różne języki, nawet jeśli niekoniecznie w pełni rozumie sam język. Być może więc Google będzie w stanie lepiej rozumieć niuanse kontekstowe i dwuznaczne zapytania.
\n\n\n\nCzy powinniśmy optymalizować treści pod kątem BERT?
\n\n\n\nPrawdopodobnie nie. Google BERT to platforma do lepszego rozumienia. Nie ocenia treści jako takiej. Po prostu lepiej rozumie, co się w niej znajduje. Na przykład Google BERT może nagle zrozumieć więcej, a niektóre nadmiernie zoptymalizowane strony mogą nagle zostać dotknięte czymś innym niż Panda, ponieważ Google BERT nagle zdał sobie sprawę, że strona nie była do czegoś odpowiednia. Nie oznacza to, że musisz specjalnie optymalizować tekst pod kątem BERT, prawdopodobnie lepiej jest po prostu pisać naturalnie.
\n” } ] }

