Что такое обновление алгоритма поиска Google BERT?

Google BERT расшифровывается как Bidirectional Encoder репрезентации от трансформаторов и представляет собой обновление основного алгоритма поиска, направленное на улучшение понимания языка в Google.

 

BERT является одним из самых больших обновлений, сделанных Google со времен RankBrain в 2015 году и доказавших свою эффективность в понимании намерений поисковика, стоящего за поисковым запросом.

 

Как работает Google BERT?

 

Давайте разберемся, что может сделать BERT с помощью примерного запроса:

В данном случае цель обыска — выяснить, может ли кто-либо из членов семьи пациента получить рецепт от его имени.

 

Вот что Google вернулся до BERT:

 

Как видите, Google вернул неудовлетворительный результат поиска, так как не смог обработать значение слова «кто-то» в запросе.

 

Вот что Google вернул после того, как системы BERT были интегрированы в основной алгоритм:

 

После

 

Этот результат поиска точно отвечает на вопрос поисковика. Теперь Google понял значение слова «кто-то» в правильном контексте после обработки всего запроса.

 

Вместо того чтобы обрабатывать по одному слову за раз и не придавать большого значения таким словам, как «кто-то» в определенном контексте, BERT помогает Google обрабатывать каждое слово в запросе и назначает им маркер. В результате получаются гораздо более точные результаты поиска.

 

В другом примере это «учебник по математике для взрослых», где искатель хочет купить учебники по математике для взрослых:

 

Математическая практика

 

До BERT Google возвращал результаты, предполагающие наличие учебников для 6-8 классов, что неверно. Google предоставил такой ответ, потому что описание содержит фразу «молодой взрослый», но в нашем контексте «молодой взрослый» не имеет отношения к данному вопросу:

Практикуйтесь перед

 

После BERT Google способен правильно различать разницу между «молодым взрослым» и «взрослым» и исключает результаты с внеконтекстными совпадениями:

 

Что такое Google NLP и как она работает?

 

NLP означает Natural Language Processing (Обработка естественного языка), который представляет собой подмножество искусственного интеллекта и состоит из машинного обучения и лингвистики (изучение языка). Это то, что делает возможным общение между компьютерами и людьми на естественном языке.

 

NLP является технологией, лежащей в основе таких популярных языковых приложений, как:

 

    Перевести Google

    Microsoft Word

    Грамматика

    OK Гугл, Сири, Кортана и Алекса.

 

NLP — это основа, на которой работает Google BERT. API естественного языка Google состоит из следующих пяти сервисов.

1) Синтаксический анализ

 

Google разбивает запрос на отдельные слова и извлекает лингвистическую информацию по каждому из них.

 

Например, вопрос «Кто является отцом науки?» разбивается синтаксическим анализом на следующие разделы:

 

    Who tag = местоимение

    Тег (единственное текущее число) = единственное текущее число

    Тег = определитель

    Тег отца (существительное число) = единственное число

    тега = предлог

    Научный тег = существительное

 

2) Анализ настроений

 

Система анализа настроений Google присваивает запросу эмоциональный балл. Вот несколько примеров анализа настроений:

Анализ настроений

 

Пожалуйста, обратите внимание: Все приведенные выше значения и примеры взяты случайным образом. Это делается для того, чтобы вы поняли концепцию анализа настроений, выполняемого Google. Действительный алгоритм, используемый Google, отличается и конфиденциальен.

3) Анализ организации

 

В этом процессе Google собирает «сущности» из запроса и обычно использует Википедию в качестве базы данных для поиска сущностей в запросе.

 

Например, в запросе «Сколько лет Селене Гомез?» Google определяет «Селена Гомез» как объект и возвращает прямой ответ поисковой системе из Википедии:

4) Анализ настроений организации

 

Google идет еще дальше и определяет настроения в общем документе, содержащем сущности. При обработке веб-страниц Google присваивает оценку настроений каждому объекту в зависимости от того, как они используются в документе. Скоринг аналогичен скорингу, полученному в ходе анализа настроений.

5) Текстовая классификация

 

Представьте себе наличие большой базы данных категорий и подкатегорий, таких как DMOZ (многоязычный каталог открытого содержания ссылок на World Wide Web). Когда DMOZ был активен, он классифицировал сайт по категориям и подкатегориям и еще больше подкатегорий.

Это то, что делает текстовая классификация. Google соответствует ближайшей подкатегории веб-страниц в зависимости от запроса, введенного пользователем.

 

Например, для таких запросов, как «дизайн бабочки», Google может определить различные подкатегории, такие как «современное искусство», «цифровое искусство», «художественный дизайн», «иллюстрация», «архитектура» и т.д., а затем выбрать наиболее близкую к ним подкатегорию.

 

По словам Гугла:

 

«Одна из самых больших проблем в области обработки естественного языка (NLP) заключается в нехватке данных для обучения. Поскольку NLP — это многоотраслевая область с множеством различных задач, большинство наборов данных, предназначенных для решения конкретных задач, содержат лишь несколько тысяч или несколько сотен тысяч примеров обучения, маркированных человеческим шрифтом».

 

Чтобы решить проблему нехватки учебных данных, Google пошел еще дальше и разработал Google AutoML Natural Language, который позволяет пользователям создавать индивидуальные модели машинного обучения. Модель BERT компании Google является продолжением Естественного языка Google AutoML.

Обратите внимание: модель Google BERT понимает контекст веб-страницы и предоставляет поисковику лучшие документы. Не думайте о BERT как о методе уточнения поисковых запросов; скорее, это также способ понимания контекста текста, содержащегося на веб-страницах.

 

Что такое BERT NLP?

 

BERT является моделью с открытым исходным кодом и является продолжением Google AutoML Natural Language, как описано выше. BERT — это метод, который будет использоваться для оптимизации NLP в течение многих лет.

 

Как подсказывает Гугл:

 

«Мы открыли новую технику для предварительного обучения NLP под названием Bidirectional Encoder репрезентации от трансформаторов, или BERT. С этим релизом любой желающий в мире может обучить свою собственную современную систему ответа на вопросы (или множество других моделей) примерно за 30 минут на одном облачном TPU, или за несколько часов на одном GPU».

 

BERT — это новая эра НЛП и, пожалуй, лучшее, что было создано до сих пор.

Тан Луонг, старший научный сотрудник Google Brain, написал об этом в твиттере перед запуском BERT:

BERT Помогает в ответах на запросы Google Process Conversational Queries

 

Обновление Google BERT (компонент Natural Language Processing) предназначено для обработки разговорных запросов и, как говорит гигант поисковой системы:

 

В частности, для более длительных, более разговорных запросов или поиска, где такие предлоги, как «for» и «to» имеют большое значение для смысла, поиск сможет понять контекст слов в вашем запросе. Вы можете искать таким образом, который кажется вам естественным.»

 

Предварительно подготовленные стратегии языкового представления, такие как «функциональная» и «тонкая настройка», показали, что улучшают многие задачи, связанные с обработкой естественного языка:

 

BERT улучшает стратегию «тонкой настройки» языкового представления. Она смягчает ранее использовавшееся ограничение однонаправленности, используя более новую «маскированную модель языка» (MLM), которая случайным образом маскирует некоторые слова из предложения и предсказывает исходный словарный запас слов, основанный только на его контексте.

 

Как было предложено в этом исследовании Google, озаглавленном «BERT: Предварительная подготовка глубоких двунаправленных трансформаторов для понимания языка»:

 

BERT — это первая модель представления на основе тонкой настройки, обеспечивающая высочайшую производительность на большом наборе задач на уровне предложений и токенов, превосходящая многие специфические архитектуры…..». Концептуально это просто и эмпирически мощно. Он получает новые современные результаты по одиннадцати задачам обработки естественного языка, включая повышение оценки GLUE до 80,5% (абсолютное улучшение на 7,7%), точность MultiNLI до 86,7% (абсолютное улучшение на 4,6%), вопрос SQuAD v1.1, отвечающий на тест F1 до 93,2 (абсолютное улучшение на 1,5 пункта) и SQuAD v2.0 Test F1 до 83,1″.

Это очень много технического языка, но суть в этом:

BERT — это мощное обновление существующих алгоритмов NLP, которые Google в настоящее время использует для обработки поисковых запросов с целью предоставления пользователю наилучших возможных результатов.

 

BERT выполняет 11 NLP-задач и повышает точность оценки каждой из них, что приводит к получению точных результатов поиска.

 

Трансформаторы: Реальная власть за Google BERT

 

Ядро функционирования BERT лежит в трансформаторе, который представляет собой новую архитектуру нейросетей для понимания языка. Он превосходит все предыдущие процессы моделирования языка и машинного перевода.

 

Теперь компания Google может обрабатывать слова в запросе с помощью трансформаторов и по словам Панду Наяка, научного сотрудника и вице-президента по поиску компании Google:

 

«Трансформаторы — это модели, которые обрабатывают слова по отношению ко всем другим словам в предложении, а не по очереди. Поэтому модели BERT могут рассматривать весь контекст слова, рассматривая слова до и после него, что особенно полезно для понимания смысла поисковых запросов».

 

В исследовательском докладе, озаглавленном «Внимание — это все, что вам нужно», доказано, что трансформаторы превосходят как повторяющиеся, так и извилистые модели академического перевода с английского на немецкий и с английского на французский языки:

 

BERT — это способ понять взаимосвязь между предложениями.

 

Модель BERT предназначена для понимания взаимосвязи между предложениями путем предварительной подготовки к выполнению очень простой задачи, созданной с использованием любого текстового корпуса (собрание письменных материалов в машиночитаемой форме, собранных с целью лингвистического исследования).

Как предлагает Google, приведенные два предложения — А и В — являются ли B фактическим следующим предложением после A в корпусе или просто случайным предложением? Например

 

BERT добавляет дополнительный слой искусственного мозга в архитектуру Google и, таким образом, способен идентифицировать связь между предложениями. Теперь он научился мыслить как человек и понимает как значение, так и взаимосвязь между словами в предложении или комбинации предложений.

 

Вопросы и ответы Google BERT FAQ

 

Вот некоторые из наиболее часто задаваемых вопросов о BERT (Двунаправленное кодирующее представление от трансформаторов).

 

Когда BERT выкатился?

 

BERT был запущен 24 октября 2019 года, как подтвердил Панду Наяк (вице-президент, Google Search) в этом блоге. Это развертывание предназначалось только для запросов на английском языке. Тем не менее, процесс внедрения все еще продолжается для других языков, таких как корейский, хинди и португальский.

 

Какое влияние оказывает Google BERT на мой сайт?

 

Google применил BERT как к ранжированию, так и к фрагментам в поиске. Это влияет на каждый десятый поиск в США на английском языке. Следовательно, если ваш сайт на английском языке, и вы нацелены на англоязычные запросы, то BERT, безусловно, повлияет на органическое присутствие вашего сайта.

BERT влияет на более длинные, более разговорные запросы, когда контекст слов в запросе трудно понять. Если вы получаете органический трафик на ваш сайт через поиск в длинных магазинах, вам необходимо внимательно следить за ним. Любые изменения в трафике по сравнению с длинными хвостовыми ключевыми словами могут быть вызваны алгоритмом BERT.

 

Я полагаю, что все сайты имеют определенный процент трафика, полученного в результате длительных поисков, поэтому обновление BERT может отразиться на этом трафике. Тем не менее, BERT не повлияет на ваш рейтинг для более коротких и важных ключевых слов.

 

(Пожалуйста, обратите внимание: изменения в органическом движении могут быть вызваны различными причинами, и BERT является лишь одним из таких факторов. Требуется всесторонний аудит содержания, чтобы определить реальные причины снижения органического трафика. Не просто предположить, что изменения в органическом движении происходят только из-за BERT.)

 

Следите за своим Google Analytics и разбивайте органический трафик по страницам. Если трафик на определенные страницы снизился после третьей недели октября, то BERT может повлиять на эти страницы.

Все, что вам нужно сделать, это убедиться, что ваша страница точно соответствует намерению поиска, по ключевым словам, которые вы ищете для ранжирования. Если вы сделаете это правильно, органический трафик вашего сайта будет оставаться безопасным от воздействия BERT.

 

Является ли BERT продолжением RankBrain?

 

Нет. BERT и RankBrain разные. Google применяет комбинацию алгоритмов для понимания контекста запроса. Для некоторых запросов, RankBrain может быть применен в то время, как для других BERT будет иметь приоритет. Там могут быть некоторые поиски, где и RankBrain и BERT будет применяться вместе, чтобы представить лучшие результаты пользователю.

 

Является ли BERT языковой моделью?

 

BERT — это метод предварительного языкового представления перед тренингом. В BERT модель языка общего назначения используется на большом текстовом корпусе (например, График знаний) для поиска ответов на вопросы пользователя.

 

Как именно работает BERT?

 

BERT — это понимание намерений, стоящих за поиском. Применяяя BERT, Google может понять взаимосвязь между словами в запросе и представить наиболее близкий результат поиска поисковику. Основная инновация BERT заключается в применении трансформатора, который является популярной моделью внимания к моделированию языка.

 

До BERT Google просматривал последовательность слов в запросе слева направо или справа налево.

 

После применения BERT компания Google обучила свои системы двунаправленному поиску ответов на запрос. Это означает, что Google теперь может рассматривать запрос в обоих направлениях (справа или слева за одну обработку). Пример двунаправленной обработки запросов:

В приведенном выше примере контекст слова «банк» в обоих предложениях различается. В первом предложении речь идет о берегу реки, во втором — о кредитно-финансовом учреждении. Для того чтобы понять реальное значение слова «банк» здесь, Google необходимо обрабатывать контекст слов перед словом «банк» в первом запросе и после слова «банк» во втором. Вот что такое двунаправленная обработка запросов. Google может обрабатывать запрос в обоих направлениях в зависимости от контекста.

 

BERT дает Google более глубокое понимание языкового контекста и двунаправленного потока, чем однонаправленные языковые модели. В данной работе обсуждается новая методика под названием Masked LM (MLM), которая лежит в основе BERT. Маска LM позволяет проводить двунаправленную подготовку в моделях, что до сих пор было невозможно.

Применяется ли BERT к запросам на другие языки (кроме английского)?

 

Да, это относится и к другим языкам, таким как хинди, корейский, португальский и другие. Google применяет BERT в двенадцати различных странах, но развертывание завершено только для поиска информации на английском языке. В ближайшие месяцы BERT будет продолжать оказывать влияние на запросы на других языках.

 

Обрабатывает ли BERT слова «стоп»?

 

Конечно! Ранее компания Google удаляла все «стоповые» слова из запроса перед его обработкой, но теперь она тщательно рассматривает все стоп-слова для понимания контекста запроса.

 

Стоп-слова — это короткие функциональные слова, которые раньше игнорировались поисковыми системами, так как они не добавляли смысловой ценности поиску. Некоторые примеры стоп-слов — это, на, на, на, на, что, что и т.д.

Но с такими обновлениями, как RankBrain и BERT, Google пошел еще дальше в понимании людей на языке, который им наиболее удобен, а не на языке, который наиболее удобен для машин. С запуском BERT девиз Google — стать самым точным механизмом ответа на вопросы — ближе, чем когда-либо.

 

Как я могу оптимизировать для BERT?

 

Единственное, что вы можете сделать, это убедиться, что содержимое ваших страниц соответствует замыслу поисковика. Вы ничего особенного не можете сделать для оптимизации BERT. Это то, что Дэнни Салливан, связной Гугл по поиску, написал в твиттере:

Google всегда делал особый акцент на БЕСПЛАТНОЕ содержание — и BERT является продолжением этого. Подготовьте отличный контент для вашей аудитории, и ваш сайт будет хорошо работать в поисках.

 

Ниже приведены некоторые способы подготовки БЕСПЛАТНОГО содержания:

 

    Напишите удобочитаемый текст. Оценки читабельности контента можно измерить с помощью таких инструментов, как Readable. Этот инструмент также рассчитывает баллы читабельности Flesch-Kincaid. Вы должны стремиться к баллу 8.

    Создавайте оригинальное и безошибочное содержимое.

    Четко определите свою тему.

    Добавлять соответствующие заголовки, подзаголовки и делить содержание на соответствующие параграфы.

    Сохраняйте содержимое доступным и действенным.

    Избегайте содержимого Zombie, так как это может ухудшить качество вашей веб-страницы.

    Избавьтесь от дублирующего содержимого и сохраните его свежим.

    Избегайте замаскирования во всех формах.

    Четко отображать информацию об авторе на вашем сайте, потому что опыт — отличный способ повысить доверие к вашему сайту.

    Разумно используйте ссылки и оптимизируйте свои изображения.

    Поддерживайте мобильность сайта.

    Проанализируйте поведение пользователей на вашем сайте и постоянно принимайте меры по улучшению вашего контента.

Чем BERT отличается от предыдущих моделей?

 

BERT — это метод предварительной подготовки, который применяется на обширных массивах данных для уточнения поискового запроса.

 

Является ли BERT 100% точным?

 

Нет, BERT не на 100% точен. Например, если вы ищете «какой штат находится к югу от Небраски», BERT угадает, что это «Южная Небраска», что является неточным.

Google все еще учится, а Rankbrain и BERT являются примерами алгоритмов, которые позволяют Google мыслить, как человек. В скором времени можно ожидать появления новых и усовершенствованных версий этого алгоритма.

 

Последние мысли

 

Google BERT — одно из самых больших обновлений, которое компания Google выпустила за последние годы. Это дало пользователям возможность искать на естественном языке вместо использования неестественных ключевых слов для получения наилучших результатов. Google избавляется от «ключевых слов» и делает поиск более гуманным.

 

Как SEO или маркетолог контента, вы не можете сделать ничего особенного, чтобы оптимизировать BERT. Если вы следовали всем указаниям Google в отношении содержания и писали свой контент для пользователя, то BERT не разочарует вас. Она направлена на то, чтобы вернуть поисковикам наилучшие результаты только после точного понимания их намерений.