BERT - nowa aktualizacja algorytmu Google

Dane w sporcie. Czym jest Sport Science i analityka sportowa?

10 grudnia 2019

Big Data, Data Science i analiza danych

2 stycznia 2020

17 grudnia 2019

Najnowsza aktualizacja algorytmu Google BERT, czyli Bidirectional Encoder Representations from Transformers, jest przedstawiana przez Google jako największa zmiana w algorytmie od pięciu lat. Google, ogłaszając ją, powiedziało, że wpłynie ona na aż 10% wyników wyszukiwania. W mediach pojawia się wiele niesprawdzonych informacji na temat nowej aktualizacji algorytmu Google. Czym dokładnie jest BERT, jak działa i dlaczego jest ważny dla naszej pracy jako SEO?

Czym jest BERT?

Najnowsza aktualizacja algorytmu Google – BERT, pomaga Google lepiej rozumieć język naturalny, zwłaszcza w wyszukiwaniu konwersacyjnym. BERT to wstępnie wytrenowany model języka naturalnego bez nadzoru. BERT może przewyższyć najczęstsze zadania NLP po dokładnym dostrojeniu, stając się zasadniczo rakietowym ulepszaczem przetwarzania i rozumienia języka naturalnego. BERT jest dwukierunkowy, co oznacza, że analizuje słowa przed i po jednostkach oraz kontekst wstępnie wytrenowany na Wikipedii, aby zapewnić lepsze zrozumienie języka.

Algorytm BERT (dwukierunkowe reprezentacje koderów z transformatorów) to algorytm głębokiego uczenia, związany z przetwarzaniem języka naturalnego. Pomaga maszynie zrozumieć, co oznaczają słowa w zdaniu, ale ze wszystkimi niuansami kontekstu. BERT znacznie przyspieszył zrozumienie języka naturalnego bardziej niż cokolwiek innego, a przejście Google na otwarte źródła BERT prawdopodobnie na zawsze zmieni przetwarzanie języka naturalnego. Społeczności uczenia maszynowego Machine Learning i NLP są bardzo podekscytowane BERT-em, ponieważ wymaga on wiele wysiłku, aby móc prowadzić badania w dziedzinie języka naturalnego. Został wstępnie wytrenowany na wielu słowach – i to na całej angielskiej Wikipedii, która ma 2500 milionów słów.

Co potrafi BERT?

Są rzeczy, które łatwo rozumiemy, a których maszyny, w tym wyszukiwarki, nie są w stanie zrozumieć. Poniżej przedstawiamy kwestie, z którymi nowy algorytm już sobie radzi.

Problem ze słowami

Problem ze słowami polega na tym, że są one wszędzie. Jest coraz więcej treści. Słowa są problematyczne, ponieważ wiele z nich jest dwuznacznych, wielokątnych i synonimicznych. BERT został zaprojektowany, aby pomóc rozwiązać dwuznaczne zdania i frazy, które składają się z wielu słów o dużej liczbie znaczeń.

Dwuznaczność i polisemia

Prawie każde inne słowo w wielu językach ma kilka znaczeń. W wyszukiwaniu głosowym wygląda to jeszcze gorzej, ponieważ każde może być inaczej rozumiane przez różne akcenty. Nie jest to dla nas wielkie wyzwanie, ponieważ mamy zdrowy rozsądek i kontekst, więc możemy zrozumieć wszystkie inne słowa otaczające kontekst sytuacji lub rozmowy – ale wyszukiwarki i maszyny nie.

Kontekst słowa

Słowo nie ma znaczenia, chyba że jest użyte w określonym kontekście. Znaczenie słowa dosłownie zmienia się w miarę rozwoju zdania ze względu na wiele części mowy, które mogą występować w danym kontekście. Im dłuższe zdanie, tym trudniej jest śledzić wszystkie części mowy w zdaniu.

Jak działa BERT

Wcześniejsze modele językowe tworzyły bezkontekstowe osadzanie słów. Zamiast tego BERT zapewnia „kontekst”. Aby lepiej zrozumieć, jak działa BERT, spójrzmy na znaczenie tego skrótu.

B – Dwukierunkowy (Bidirectional)

Wcześniej wszystkie modele językowe były jednokierunkowe, więc mogły przesuwać okno kontekstu tylko w jednym kierunku. Większość modeli językowych jest jednokierunkowa. Mogą przechodzić przez okno kontekstu słów od lewej do prawej lub od prawej do lewej. Tylko w jednym kierunku, ale nie jednocześnie. BERT jest inny. BERT wykorzystuje dwukierunkowe modelowanie języka.

ER – Reprezentacja Enkodera (Encoder Representation)

To, co jest kodowane, jest dekodowane. To mechanizm wejścia i wyjścia.

T – Transformatory

BERT wykorzystuje „transformatory” i „modelowanie języka maskowanego”. Jednym z głównych problemów w zrozumieniu języka naturalnego w przeszłości było to, że nie był on w stanie zrozumieć, do jakiego kontekstu odnosiło się dane słowo. Tylko część uwagi transformatorów skupia się na zaimkach i wszystkich znaczeniach słów, które idą w parze, aby połączyć się z tym, z kim się rozmawia lub co jest mówione w danym kontekście. Modelowanie w języku maskowanym przestaje widzieć słowo docelowe. Kiedy maska jest nałożona, BERT odgaduje, jakie jest brakujące słowo. Jest to również część procesu dostrajania.

Jak BERT wpłynie na wyszukiwanie?

BERT pomoże Google lepiej rozumieć język ludzki

Zrozumienie przez BERT niuansów ludzkiego języka będzie miało ogromny wpływ na to, jak Google interpretuje zapytania, ponieważ ludzie oczywiście szukają dłuższych zapytań.

BERT pomoże skalować wyszukiwanie konwersacyjne

BERT będzie miał również ogromny wpływ na wyszukiwanie głosowe.

Zmiany w międzynarodowym SEO

BERT ma zdolność monolingwalną, ponieważ wiele wzorców w jednym języku jest tłumaczonych na inne języki. Możliwe jest przeniesienie dużej części nauki na różne języki, nawet jeśli niekoniecznie w pełni rozumie sam język. Być może więc Google będzie w stanie lepiej rozumieć niuanse kontekstowe i dwuznaczne zapytania.

Czy powinniśmy optymalizować treści pod kątem BERT?

Prawdopodobnie nie. Google BERT to platforma do lepszego rozumienia. Nie ocenia treści jako takiej. Po prostu lepiej rozumie, co się w niej znajduje. Na przykład Google BERT może nagle zrozumieć więcej, a niektóre nadmiernie zoptymalizowane strony mogą nagle zostać dotknięte czymś innym niż Panda, ponieważ Google BERT nagle zdał sobie sprawę, że strona nie była do czegoś odpowiednia. Nie oznacza to, że musisz specjalnie optymalizować tekst pod kątem BERT, prawdopodobnie lepiej jest po prostu pisać naturalnie.

” } ] }

greenlogic

BERT – nowa aktualizacja algorytmu Google