Как работают поисковики. Как работают поисковые системы? Математическая модель используемая для ранжирования

Для Symbian 03.03.2020

Для Symbian

Здравствуйте, уважаемые читатели блога сайт. Занимаясь или, иначе говоря, поисковой оптимизацией, как на профессиональном уровне (продвигая за деньги коммерческие проекты), так и на любительском уровне (), вы обязательно столкнетесь с тем, что необходимо знать принципы работы в целом для того, чтобы успешно оптимизировать под них свой или чужой сайт.

Врага, как говорится, надо знать в лицо, хотя, конечно же, они (для рунета это Яндекс и ) для нас вовсе не враги, а скорее партнеры, ибо их доля трафика является в большинстве случаев превалирующей и основной. Есть, конечно же, исключения, но они только подтверждают данное правило.

Что такое сниппет и принципы работы поисковиков

Но тут сначала нужно будет разобраться, а что такое сниппет, для чего он нужен и почему его содержимое так важно для оптимизатора? В результатах поиска располагается сразу под ссылкой на найденный документ (текст которой берется уже писал):

В качестве сниппета используются обычно куски текста из этого документа. Идеальный вариант призван предоставить пользователю возможность составить мнение о содержимом страницы, не переходя на нее (но это, если он получился удачным, а это не всегда так).

Сниппет формируется автоматически и какие-именно фрагменты текста будут использоваться в нем решает , и, что важно, для разных запросов у одной и той же вебстраницы будут разные сниппеты.

Но есть вероятность, что именно содержимое тега Description иногда может быть использовано (особенно в Google) в качестве сниппета. Конечно же, это еще будет зависеть и от того , в выдаче которого он показывается.

Но содержимое тега Description может выводиться, например, при совпадении ключевых слов запроса и слов, употребленных вами в дескрипшине или в случае, когда алгоритм сам еще не нашел на вашем сайте фрагменты текста для всех запросов, по которым ваша страница попадает в выдачу Яндекса или Гугла.

Поэтому не ленимся и заполняем содержимое тега Description для каждой статьи. В WordPress это можно сделать, если вы используете описанный (а его использовать я вам настоятельно рекомендую).

Если вы фанат Джумлы, то можете воспользоваться этим материалом - .

Но сниппет нельзя получить из обратного индекса, т.к. там хранится информация только об использованных на странице словах и их положении в тексте. Вот именно для создания сниппетов одного и того же документа в разных поисковых выдачах (по разным запросам) наши любимые Яндекс и Гугл, кроме обратного индекса (нужного непосредственно для ведения поиска — о нем читайте ниже), сохраняют еще и прямой индекс , т.е. копию веб-страницы.

Сохраняя копию документа у себя в базе им потом довольно удобно нарезать из них нужные сниппеты, не обращаясь при этом к оригиналу.

Т.о. получается, что поисковики хранят в своей базе и прямой, и обратный индекс веб-страницы. Кстати, на формирование сниппетов можно косвенно влиять, оптимизируя текст веб-станицы таким образом, чтобы алгоритм выбирал в качестве оного именно тот фрагмент текста, который вы задумали. Но об этом поговорим уже в другой статье рубрики

Как работают поисковые системы в общих чертах

Суть оптимизации заключается в том, чтобы «помочь» алгоритмам поисковиков поднять страницы тех сайтов, которые вы продвигаете, на максимально высокую позицию в выдаче по тем или иным запросам.

Слово «помочь» в предыдущем предложении я взял в кавычки, т.к. своими оптимизаторскими действия мы не совсем помогаем, а зачастую и вовсе мешаем алгоритму сделать полностью релевантную запросу выдачу (о загадочных ).

Но это хлеб оптимизаторов, и пока алгоритмы поиска не станут совершенными, будут существовать возможности за счет внутренней и внешней оптимизации улучшить их позиции в выдаче Яндекса и Google.

Но прежде, чем переходить к изучению методов оптимизации, нужно будет хотя бы поверхностно разобраться в принципах работы поисковиков, чтобы все дальнейшие действия делать осознано и понимая зачем это нужно и как на это отреагируют те, кого мы пытаемся чуток обмануть.

Ясное дело, что понять всю логику их работы от и до у нас не получится, ибо многая информация не подлежит разглашению, но нам, на первых порах, будет достаточно и понимания основополагающих принципов. Итак, приступим.

Как же все-таки работают поисковые системы? Как ни странно, но логика работы у них всех, в принципе, одинаковая и заключается в следующем: собирается информация обо всех вебстраницах в сети, до которых они могут дотянуться, после чего эти данные хитрым образом обрабатываются для того, чтобы по ним удобно было бы вести поиск. Вот, собственно, и все, на этом статью можно считать завершенной, но все же добавим немного конкретики.

Во-первых, уточним, что документом называют то, что мы обычно называем страницей сайта. При этом он должен иметь свой уникальный адрес () и, что примечательно, хеш-ссылки не будут приводить к появлению нового документа (о том, ).

Во-вторых, стоит остановиться на алгоритмах (способах) поиска информации в собранной базе документов.

Алгоритмы прямых и обратных индексов

Очевидно, что метод простого перебора всех страниц, хранящихся в базе данных, не будет являться оптимальным. Этот метод называется алгоритмом прямого поиска и при том, что этот метод позволяет наверняка найти нужную информацию не пропустив ничего важного, он совершенно не подходит для работы с большими объемами данных, ибо поиск будет занимать слишком много времени.

Поэтому для эффективной работы с большими объемами данных был разработан алгоритм обратных (инвертированных) индексов. И, что примечательно, именно он используется всеми крупными поисковыми системами в мире. Поэтому на нем мы остановимся подробнее и рассмотрим принципы его работы.

При использовании алгоритма обратных индексов происходит преобразование документов в текстовые файлы, содержащие список всех имеющихся в них слов.

Слова в таких списках (индекс-файлах) располагаются в алфавитном порядке и рядом с каждым из них указаны в виде координат те места в вебстранице, где это слово встречается. Кроме позиции в документе для каждого слова приводятся еще и другие параметры, определяющие его значение.

Если вы вспомните, то во многих книгах (в основном технических или научных) на последних страницах приводится список слов, используемых в данной книге, с указанием номеров страниц, где они встречаются. Конечно же, этот список не включает вообще всех слов, используемых в книге, но тем не менее может служить примером построения индекс-файла с помощью инвертированных индексов.

Обращаю ваше внимание, что поисковики ищут информацию не в интернете , а в обратных индексах обработанных ими вебстраниц сети. Хотя и прямые индексы (оригинальный текст) они тоже сохраняют, т.к. он в последствии понадобится для составления сниппетов, но об этом мы уже говорили в начале этой публикации.

Алгоритм обратных индексов используется всеми системами, т.к. он позволяет ускорить процесс, но при этом будут неизбежны потери информации за счет искажений внесенных преобразованием документа в индекс-файл. Для удобства хранения файлы обратных индексов обычно хитрым способом сжимаются.

Математическая модель используемая для ранжирования

Для того, чтобы осуществлять поиск по обратным индексам, используется математическая модель, позволяющая упростить процесс обнаружения нужных вебстраниц (по введенному пользователем запросу) и процесс определения релевантности всех найденных документов этому запросу. Чем больше он соответствует данному запросу (чем он релевантнее), тем выше он должен стоять в поисковой выдаче.

Значит основная задача, выполняемая математической моделью — это поиск страниц в своей базе обратных индексов соответствующих данному запросу и их последующая сортировка в порядке убывания релевантности данному запросу.

Использование простой логической модели, когда документ будет являться найденным, если в нем встречается искомая фраза, нам не подойдет, в силу огромного количества таких вебстраниц, выдаваемых на рассмотрение пользователю.

Поисковая система должна не только предоставить список всех веб-страниц, на которых встречаются слова из запроса. Она должна предоставить этот список в такой форме, когда в самом начале будут находиться наиболее соответствующие запросу пользователя документы (осуществить сортировку по релевантности). Эта задача не тривиальна и по умолчанию не может быть выполнена идеально.

Кстати, неидеальностью любой математической модели и пользуются оптимизаторы, влияя теми или иными способами на ранжирование документов в выдаче (в пользу продвигаемого ими сайта, естественно). Матмодель, используемая всеми поисковиками, относится к классу векторных. В ней используется такое понятие, как вес документа по отношению к заданному пользователем запросу.

В базовой векторной модели вес документа по заданному запросу высчитывается исходя из двух основных параметров: частоты, с которой в нем встречается данное слово (TF — term frequency) и тем, насколько редко это слово встречается во всех других страницах коллекции (IDF — inverse document frequency).

Под коллекцией имеется в виду вся совокупность страниц, известных поисковой системе. Умножив эти два параметра друг на друга, мы получим вес документа по заданному запросу.

Естественно, что различные поисковики, кроме параметров TF и IDF, используют множество различных коэффициентов для расчета веса, но суть остается прежней: вес страницы будет тем больше, чем чаще слово из поискового запроса встречается в ней (до определенных пределов, после которых документ может быть признан спамом) и чем реже встречается это слово во всех остальных документах проиндексированных этой системой.

Оценка качества работы формулы асессорами

Таким образом получается, что формирование выдач по тем или иным запросам осуществляется полностью по формуле без участия человека. Но никакая формула не будет работать идеально, особенно на первых порах, поэтому нужно осуществлять контроль за работой математической модели.

Для этих целей используются специально обученные люди — , которые просматривают выдачу (конкретно той поисковой системы, которая их наняла) по различным запросам и оценивают качество работы текущей формулы.

Все внесенные ими замечания учитываются людьми, отвечающими за настройку матмодели. В ее формулу вносятся изменения или дополнения, в результате чего качество работы поисковика повышается. Получается, что асессоры выполняют роль такой своеобразной обратной связи между разработчиками алгоритма и его пользователями, которая необходима для улучшения качества.

Основными критериями в оценке качества работы формулы являются:

Точность выдачи поисковой системы — процент релевантных документов (соответствующих запросу). Чем меньше не относящихся к теме запроса вебстраниц (например, дорвеев) будет присутствовать, тем лучше
Полнота поисковой выдачи — процентное отношение соответствующих заданному запросу (релевантных) вебстраниц к общему числу релевантных документов, имеющихся во всей коллекции. Т.е. получается так, что во всей базе документов, которые известны поиску вебстраниц соответствующих заданному запросу будет больше, чем показано в поисковой выдаче. В этом случае можно говорить о неполноте выдаче. Возможно, что часть релевантных страниц попала под фильтр и была, например, принята за дорвеи или же еще какой-нибудь шлак.
Актуальность выдачи — степень соответствия реальной вебстраницы на сайте в интернете тому, что о нем написано в результатах поиска. Например, документ может уже не существовать или быть сильно измененным, но при этом в выдаче по заданному запросу он будет присутствовать, несмотря на его физическое отсутствие по указанному адресу или же на его текущее не соответствие данному запросу. Актуальность выдачи зависит от частоты сканирования поисковыми роботами документов из своей коллекции.

Как Яндекс и Гугл собирают свою коллекцию

Несмотря на кажущуюся простоту индексации веб-страниц тут есть масса нюансов, которые нужно знать, а в последствии и использовать при оптимизации (SEO) своих или же заказных сайтов. Индексация сети (сбор коллекции) осуществляется специально предназначенной для этого программой, называемой поисковым роботом (ботом).

Робот получает первоначальный список адресов, которые он должен будет посетить, скопировать содержимое этих страниц и отдать это содержимое на дальнейшую переработку алгоритму (он преобразует их в обратные индексы).

Робот может ходить не только по заранее данному ему списку, но и переходить по ссылкам с этих страниц и индексировать находящиеся по этим ссылкам документы. Т.о. робот ведет себя точно так же, как и обычный пользователь, переходящий по ссылкам.

Поэтому получается, что с помощью робота можно проиндексировать все то, что доступно обычно пользователю, использующему браузер для серфинга (поисковики индексируют документы прямой видимости, которые может увидеть любой пользователь интернета).

Есть ряд особенностей, связанных с индексацией документов в сети (напомню, что мы уже обсуждали ).

Первой особенностью можно считать то, что кроме обратного индекса, который создается из оригинального документа скачанного из сети, поисковая система сохраняет еще и его копию, иначе говоря, поисковики хранят еще и прямой индекс. Зачем это нужно? Я уже упоминал чуть ранее, что это нужно для составления различных сниппетов в зависимости от введенного запроса.

Сколько страниц одного сайта Яндекс показывает в выдаче и индексирует

Обращаю ваше внимание на такую особенность работы Яндекса, как наличие в выдаче по заданному запросу всего лишь одного документа с каждого сайта. Такого, чтобы в выдаче присутствовали на разных позициях две страницы с одного и того же ресурса, быть не могло до недавнего времени.

Это было одно из основополагающих правил Яндекса. Если даже на одном сайте найдется сотня релевантных заданному запросу страниц, в выдаче будет присутствовать только один (самый релевантный).

Яндекс заинтересован в том, чтобы пользователь получал разнообразную информацию, а не пролистывал несколько страниц поисковой выдачи со страницами одного и того же сайта, который этому пользователю оказался не интересен по тем или иным причинам.

Однако, спешу поправиться, ибо когда дописал эту статью узнал новость, что оказывается Яндекс стал допускать отображение в выдаче второго документа с того же ресурса, в качестве исключения, если эта страница окажется «очень хороша и уместна» (иначе говоря сильно релевантна запросу).

Что примечательно, эти дополнительные результаты с того же самого сайта тоже нумеруются, следовательно, из-за этого из топа выпадут некоторые ресурсы, занимающие более низкие позиции. Вот пример новой выдачи Яндекса:

Поисковики стремятся равномерно индексировать все вебсайты, но зачастую это бывает не просто из-за совершенно разного количества страниц на них (у кого-то десять, а у кого-то десять миллионов). Как быть в этом случае?

Яндекс выходит из этого положения ограничением количества документов, которое он сможет загнать в индекс с одного сайта.

Для проектов с доменным именем второго уровня, например, сайт, максимальное количество страниц, которое может быть проиндексировано зеркалом рунета, находится в диапазоне от ста до ста пятидесяти тысяч (конкретное число зависит от отношения к данному проекту).

Для ресурсов с доменным именем третьего уровня — от десяти до тридцати тысяч страниц (документов).

Если у вас сайт с доменом второго уровня (), а вам нужно будет загнать в индекс, например, миллион вебстраниц, то единственным выходом из этой ситуации будет создание множества поддоменов ().

Поддомены для домена второго уровня могут выглядеть так: JOOMLA.сайт. Количество поддоменов для второго уровня, которое может проиндексировать Яндекс, составляет где-то чуть более 200 (иногда вроде бы и до тысячи), поэтому таким нехитрым способом вы сможете загнать в индекс зеркала рунета несколько миллионов вебстраниц.

Как Яндекс относится к сайтам в не русскоязычных доменных зонах

В связи с тем, что Яндекс до недавнего времени искал только по русскоязычной части интернета, то и индексировал он в основном русскоязычные проекты.

Поэтому, если вы создаете сайт не в доменных зонах, которые он по умолчанию относит к русскоязычным (RU, SU и UA), то ждать быстрой индексации не стоит, т.к. он, скорее всего, его найдет не ранее чем через месяц. Но уже последующая индексация будет происходить с той же частотой, что и в русскоязычных доменных зонах.

Т.е. доменная зона влияет лишь на время, которое пройдет до начала индексации, но не будет влиять в дальнейшем на ее частоту. Кстати, от чего зависит эта частота?

Логика работы поисковых систем по переиндексации страниц сводится примерно к следующему:

найдя и проиндексировав новую страницу, робот заходит на нее на следующий день
сравнив содержимое с тем, что было вчера, и не найдя отличий, робот придет на нее еще раз только через три дня
если и в этот раз на ней ничего не изменится, то он придет уже через неделю и т.д.

Т.о. со временем частота прихода робота на эту страницу сравняется с частотой ее обновления или будет сопоставима с ней. Причем, время повторного захода робота может измеряться для разных сайтов как в минутах, так и в годах.

Такие вот они умные поисковые системы, составляя индивидуальный график посещения для различных страниц различных ресурсов. Можно, правда, принудить поисковики переиндексировать страничку по нашему желанию, даже если на ней ничего не изменилось, но об этом в другой статье.

Продолжим изучать принципы работы поиска в следующей статье, где мы рассмотрим проблемы, с которыми сталкиваются поисковики, рассмотрим нюансы . Ну, и многое другое, конечно же, так или иначе помогающее .

Удачи вам! До скорых встреч на страницах блога сайт

Вам может быть интересно

Rel Nofollow и Noindex - как закрыть от индексации Яндексом и Гуглом внешние ссылки на сайте
Учет морфология языка и другие проблемы решаемые поисковыми системами, а так же отличие ВЧ, СЧ и НЧ запросов
Траст сайта - что это такое, как его измерить в XTools, что на него влияет и как увеличить авторитетности своего сайта
СЕО терминология, сокращения и жаргон
Релевантность и ранжирование - что это такое и какие факторы влияют на положение сайтов в выдаче Яндекса и Гугла
Какие факторы поисковой оптимизации влияют на продвижение сайта и в какой степени
Поисковая оптимизация текстов - оптимальная частота употребления ключевых слов и его идеальная длина
Контент для сайта - как наполнение уникальным и полезным контентом помогает в современном продвижении сайтов
Мета теги title, description и keywords мешают продвижению
Апдейты Яндекса - какие бывают, как отслеживать ап Тиц, изменения поисковой выдачи и все другие обновления

Поисковая система — это база данных по определенной информации в интернете. Многие пользователи считают, что как только они вводят запрос в поисковую систему, тут же начинается сканирование всего интернета, но это совсем не так. Сканирование интернета происходит постоянно, многими программами, данные о сайтах заносятся в базу данных, где по определенным критериям все сайты и все их страницы распределяются в различного рода списки и базы данных. То есть это своего рода картотека данных, и поиск происходит не по интернету, а по этой картотеке.

Google — самая популярная поисковая система в мире.

Кроме поисковой системы, компания Google предлагает множество дополнительных сервисов, программ и аппаратного обеспечения, среди которых почтовый сервис , браузер Google Chrome , крупнейшая видеотека youtube и многие другие проекты. Компания Google уверено скупает многие проекты приносящие крупную прибыль. Большинство сервисов направлены не на прямого пользователя, а на заработок в интернете и интегрирована с уклоном на интересы европейских и американских пользователей.

Mail — поисковая система, популярная в основном из-за почтового сервиса.

Имеется множество дополнительных сервисов, ключевым из которых является почта Mail , на данный момент компании Mail принадлежит социальная сеть Одноклассники , собственная сеть «Мой мир», сервис Деньги-mail, множество онлайн игр, три практически одинаковых браузера с различными названиями. Во всех приложениях и сервисах очень много рекламного наполнения. Социальная сеть «ВКонаткте» блокирует прямые переходы в сервисы Mail, агрументируя большим количеством вирусов.

Википедия.

Википедия — поисковая справочная система.

Некоммерческая поисковая система, существующая на частные пожертвования, поэтому не наполняет страницы рекламой. Многоязычный проект, целью которого является создание полной справочной энциклопедии на всех языках мира. У нее нет определенных авторов, заполняется и управляется добровольцами со всех стран мира. Каждый пользователь может как написать, так и отредактировать статью.

Официальная страница — www.wikipedia.org.

Youtube — крупнейшая библиотека видеофайлов.

Видеохостинг с элементами социальной сети, где каждый пользователь может добавить видео. С момента приобретения их компанией Google Ink, отдельная регистрация для ютуба не требуется, достаточно зарегистрироваться в почтовом сервисе Google .

Официальная страница — youtube.com.

Yahoo! — вторая по значимости поисковая система в мире.

Имеются дополнительные сервисы, самым известным из которых является почта Yahoo. В рамках улучшения качества поисковой системы, Yahoo передает данные о пользователях и их запросах в компанию Microsoft. От этих данных формируется представление об интересах пользователей, а так же формируется рынок рекламного наполнения. Поисковая система Yahoo, так же как и , занимается поглощением других компаний, например, Yahoo принадлежат поисковой сервис Altavista и сайт электронной коммерции Alibaba.

Официальная страница — www.yahoo.com.

WDL — цифровая библиотека.

В библиотеке собираются книги предоставляющие культурную ценность в цифровом виде. Основная цель — повышение уровня культурного содержания интернета. Доступ к библиотеке осуществляется бесплатно.

Официальная страница — www.wdl.org/ru/.

Bing — поисковая система от компании Microsoft.

Официальная страница — www.baidu.com.

Поисковые системы России

Рамблер — «проамериканская» поисковая система.

Изначально создавался как медийный интернет-портал. Как и другие многие поисковые системы, имеет сервисы поиска по картинкам, видеофайлы, карты, прогноз погоды, новостной раздел и многое другое. Так же издатели предлагают бесплатный браузер Рамблер-Нихром .

Официальная страница — www.rambler.ru.

Nigma — интеллектуальная поисковая система.

Более удобная поисковая система из-за наличия множества фильтров и настроек. Интерфейс позволяет включать, либо исключать предлагаемые подобные значения в поиске для получения более качественных результатов. Так же, при получении результата поиска позволяет использовать информацию других крупных поисковиков.

Официальная страница — www.nigma.ru.

Aport — каталог товаров онлайн.

В прошлом поисковая система, но впоследсвии того, что разработки и нововведения были прекращены, быстро сдала позиции и . В настоящий момент Апорт является торговой площадкой, на которой представляются товары более 1500 фирм.

Официальная страница — www.aport.ru.

Спутник — национальная поисковая система и интернет-портал.

Создана компанией «Ростелеком». В настоящее время находится в стадии тестирования.

Официальная страница — www.sputnik.ru.

Metabot — развивающаяся поисковая система.

В задачах Metabot стоит создание поисковой системы по всем другим поисковым системам, создавая позиции выдачи результатов с учетом данных всего списка поисковых систем. То есть это поисковая система по поисковым системам.

Официальная страница — www.metabot.ru.

Работа поисковой системы приостановлена.

Официальная страница — www.turtle.ru.

KM — мультипортал.

Изначально сайт являлся мультипорталом с последующим внедрением поисковой системы. Поиск может проводиться как внутри сайта, так и по всем отслеженным сайтам рунета .

Официальная страница — www.km.ru.

Gogo — не работает, перенаправляет на поисковик .

Официальная страница — www.gogo.ru.

Российский мультипортал, не очень популярный, требует доработки. В поисковик включены новости, телевидение, игры, карта.

Официальная страница — www.zoneru.org.

Поисковая система не работает, разработчики предлагают воспользоваться поисковиком .

Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Как работает поисковая система – основные положения

Находить нужную информацию с помощью поисковика умеет любой более-менее опытный интернет-пользователь. Однако лишь немногие знают о том, как работают поисковые системы. Действительно, каким образом Google или Яндекс успевает за считанные доли секунды проанализировать запрос юзера и выбрать наиболее подходящие сайты из миллионов web-проектов, присутствующих в сети?
Чтобы понять принцип работы поисковых систем, нужно познакомиться с такими понятиями, как индексация и формирование выдачи. Фактически, роль поисковика сводится к анализу существующих в сети сайтов и к выводу информации, максимально соответствующей запросам интернет пользователя.

Больше видео на нашем канале - изучайте интернет-маркетинг с SEMANTICA

Как работает поисковик – индексация сайтов

Существуют поисковые боты, которые постоянно «гуляют» по сети, посещая все известные им сайты с определенной периодичностью. Обнаружив новый материал, робот добавляет его в свою индексную базу в виде простого текста. Каждая поисковая система располагает своеобразной «картотекой», в которой хранятся копии проиндексированных web-страниц.
Если робот посещает ранее проиндексированную страницу, то он сравнивает имеющуюся копию с текущим состоянием документа. При наличии существенных расхождений (если материал был обновлен) в индексную базу вносятся изменения.

Совет! Чем чаще обновляется сайт, тем чаще его будут посещать поисковые роботы. Это положительно отразится на индексации.

Формирование релевантной выдачи

Точные принципы работы поисковых систем сохраняются в строгом секрете. Более того – алгоритмы постоянно совершенствуются и изменяются. Однако вполне очевидно, что тематика документа определяется на основании анализа его семантики. Поисковики могут обращать внимание на следующие аспекты:

частота употребления ключевых запросов;
тематическое соответствие материала основной тематике сайта;
наличие синонимов ключевых фраз;
присутствие ключей в заголовках, метатегах и т.п.

Разумеется, поисковики принимают во внимание не только качество текста, но и многие другие параметры. Имеет значение траст сайта, возраст домена, состояние ссылочной базы. В последнее время большое значение приобрели поведенческие факторы (пользовательская активность – количество просмотренных страниц, комментарии и т.п.).

Как работают поисковики – ответ на запрос

На основании заведенного поискового запроса система производит анализ проиндексированных материалов. Затем робот формирует ссылки на сайты, наиболее полно отвечающие запросу юзера. Недавно в принцип работы поисковой системы были внесены некоторые изменения. Теперь роботы формируют выдачу с учетом пользовательских предпочтений.
Поясним на конкретном примере: есть два пользователя, один из которых интересуется кулинарными рецептами, а другой часто заказывает фастфуд на дом. Эти пользователи могут завести одинаковый запрос «вкусная пицца», но поисковик предоставит им ссылки на разные сайты. Первый получит перечень рецептов приготовления пиццы, а второй – адреса ресторанов, специализирующихся на доставке этого блюда.

В интернете, на различных сайтах пользователю предлагается большой объем разной информации. Для получения необходимых сведений, поиска ответов на вопросы созданы поисковые системы. Услышав это словосочетание, многие думают о Google, «Яндексе». Однако поисковых систем в интернете намного больше.

Что такое поисковая система

Поисковой системой принято считать программное обеспечение, которое состоит из базы данных документов. Пользователям предоставляется специальный интерфейс, который позволяет вводить нужные запросы и получать ссылки с подходящей информацией. На первые позиции в результатах поиска выходят всегда документы, максимально соответствующие тому, что ищет конкретный человек.

Поисковая выдача, которая формируется в соответствии с введенным запросом, обычно содержит разные типы результатов. В ней могут присутствовать интернет-страницы, видео- и аудиофайлы, картинки, pdf-файлы, конкретные товары (если поиск осуществляется по интернет-магазину).

Классификация поисковых систем

Существующие поисковые системы классифицируются на несколько видов. В первую очередь стоит назвать традиционные поисковики. У таких поисковых систем принципы работы ориентированы на поиск информации на огромном количестве существующих сайтов. Поисковые системы еще бывают на отдельных интернет-ресурсах:

в интернет-магазинах (для поиска нужных товаров);
на форумах и блогах (для поиска сообщений);
на информационных сайтах (для поиска статей на нужную тематику или новостей) и т. д.

Поисковые системы еще подразделяют с учетом географического признака. В такой классификации есть 3 группы поисковиков:

Глобальные. Поиск ведется по всему миру. Лидером в этой группе является поисковик Google. Ранее существовали такие поисковые системы, как Inktomi, AltaVista и др.
Региональные. Поиск осуществляется по стране или группе стран, которых объединяет один язык. Региональные поисковики широко распространены. Их пример в России - «Яндекс», Rambler.
Местные. Поиск ведется в конкретном городе. Пример такой поисковой системы - «Томск.ру».

Составляющие элементы поисковиков

В любом поисковике можно выделить 3 составляющих элемента, определяющих принципы работы поисковой системы:

робота (индексатора, спайдера, краулера);
базу данных;
обработчика запросов.

Робот - это специальная программа, предназначение которой заключается в формировании базы данных. В базе данных хранится и сортируется вся собираемая информация. Обработчик запросов, называемый также клиентом, работает с пользовательскими запросами. Он имеет доступ к базе данных. Не всегда клиент располагают на одном компьютере. Обработчик запросов бывает разнесен по нескольким физически не связанным электронно-вычислительным машинам.

Все существующие системы работают по единому принципу. Рассмотрим, к примеру, функционирование традиционных поисковиков, предназначенных для интернета. Функционирование робота схоже с действиями обычного пользователя. Эта программа периодически обходит все сайты, добавляет новые страницы и интернет-ресурсы в базу данных. Данный процесс именуется индексацией.

Когда пользователь в интернете в поисковую строку вводит определенный запрос, работать начинает клиент. Программа обращается к существующей базе данных и по ключевым словам формирует выдачу. Ссылки поисковая система предоставляет пользователю в определенной последовательности. Они сортируются по мере соответствия запросу, т. е. учитывается релевантность.

У каждого поисковика свой способ определения релевантности. Если пользователь отправит конкретный запрос в разные системы, то он получит не совсем одинаковые выдачи. Алгоритм определения релевантности хранится в секрете.

Подробнее о релевантности

Если говорить простыми словами, то релевантностью называется соответствие введенного в поиск слова или сочетания слов конкретным ссылкам в выдаче. На позиции документов в списке влияет несколько нюансов:

Наличие слов, введенных в поиск, в документах. Этот нюанс очевиден. Если в документе есть слова из введенного пользователем запроса, то это значит, что данный документ соответствует условиям поиска.
Частота вхождения слов. Чем чаще употребляются ключевые слова в документе, тем он будет выше в списке выдачи. Однако не все так просто. Слишком частое употребление слов может быть признаком некачественного контента для поисковой машины.

Алгоритм определения релевантности достаточно сложен. Несколько лет назад в выдачу могли попадать ссылки, содержащие нужные ключевые слова, но при этом не соответствующие им по содержанию. В настоящее время принципы работы поисковых систем усложнены. Теперь роботы могут анализировать полностью весь текст. В работу поисковиков заложен учет огромного количества различных факторов. Благодаря этому выдача формируется из наиболее качественных, релевантных ссылок.

Как правильно формулировать запросы

Еще в школе нас учили правильно задавать вопросы. От этого зависит то, какие ответы мы будем получать. Однако это правило не нужно соблюдать при использовании поисковых систем. Для современных поисковиков не играет никакой роли то, в каком числе или падеже пишет человек свой запрос. В любом случае выдача будет включать в себя одинаковые результаты.

Четкая формулировка вопроса поисковым системам не нужна. Пользователю нужно только правильно подбирать ключевые слова. Рассмотрим пример. Нам нужно найти текст песни «День без тебя», которую исполняет известная женская поп-группа «Виа-Гра». При обращении в поисковую систему необязательно называть группу, указывать, что это песня. Достаточно написать «день без тебя текст». Соблюдать регистры, знаки препинания не требуется. Эти нюансы не учитываются поисковиками.

Ведущей поисковой системой в мире является Google. Она была основана в 1998 году. Система очень популярна, что подтверждается аналитическими сведениями. Около 70 % запросов, поступающих в интернет, обрабатывает именно Google. База поисковика огромна. Проиндексировано более 60 триллионов различных документов. Google привлекает пользователей простым интерфейсом. На главной странице расположены логотип и строка поиска. Эта особенность позволяет назвать Google одним из самых минималистичных поисковиков.

На втором месте в рейтинге популярных поисковых систем находится Bing. Она появилась в том же году, что и Google. Создателем этого поисковика является известная международная корпорация Microsoft. Более низкие позиции в рейтинге занимают Baidu, Yahoo!, AOL, Excite, Ask.

Что популярно в России

Среди поисковых систем в России наибольшей популярностью пользуется «Яндекс». Этот сервис появился в 1997 году. Первое время им занималась российская компания CompTek International. Немного позднее появилась компания «Яндекс», которая продолжила заниматься поисковой системой. Поисковик за годы существования завоевал огромную популярность. В нем возможен поиск на нескольких языках - на русском, белорусском, украинском, татарском, казахском, английском, немецком, французском, турецком.

Из статистических сведений известно, что «Яндекс» интересен более 50% пользователей рунета. Более 40 % людей предпочитают Google. Примерно 3% пользователей остановили свой выбор на Mail.ru - русскоязычном интернет-портале.

Защищенные поисковики

Обычные поисковые системы, являющиеся привычными для нас, не совсем подходят детям. Юные пользователи интернета могут случайно найти какие-нибудь материалы для взрослых, информацию, способную навредить психике. По этой причине были созданы специальные защищенные поисковые системы. В их базах хранится только безопасный контент для детей.

Пример одного такого поисковика - «Спутник.Дети». Этот сервис является довольно молодым. Его создала компания «Ростелеком» в 2014 году. Главная страница поисковика ярко и интересно оформлена. На ней представлен широкий перечень отечественных и зарубежных мультфильмов для детей разных возрастов. Дополнительно на главной странице размещены познавательные ссылки, относящиеся к нескольким рубрикам - «Спорт», «Хочу все знать», «Сделай сам», «Игры», «Технологии», «Школьное», «Природа».

Другой пример защищенной детской поисковой системы - Agakids.ru. Это абсолютно безопасный ресурс. Как работает поисковая система? Робот настроен таким образом, что он обходит только те сайты, которые относятся к детской тематике или являются полезными для родителей. В базу поисковой машины попадают ресурсы с мультфильмами, книгами, учебной литературой, играми, раскрасками. Родители, используя Agakids.ru, могут для себя находить сайты по воспитанию, здоровью детей.

В заключение стоит отметить, что поисковики - это сложные системы. Перед ними стоит множество проблем - проблемы спама, определения релевантности документов, отсеивания некачественного контента, анализа документов, не содержащих текстовой информации. По этой причине в работу поисковых систем интернета разработчики внедряют новые подходы, алгоритмы, являющиеся коммерческой тайной.

Зачем маркетологу знать базовые принципы поисковой оптимизации? Все просто: органический трафик — это прекрасный источник входящего потока целевой аудитории для вашего корпоративного сайта и даже лендингов.

Встречайте серию образовательных постов на тему SEO.

Что такое поисковая система?

Поисковая система представляет собой большую базу документов (контента). Поисковые роботы обходят ресурсы и индексируют разный тип контента, именно эти сохраненные документы и ранжируют в поиске.

По факту, Яндекс — это «слепок» Рунета (еще Турция и немного англоязычных сайтов), а Google — мирового интернета.

Поисковый индекс — структура данных, содержащая информацию о документах и расположении в них ключевых слов.

По принципу работы поисковые системы схожи между собой, различия заключаются в формулах ранжирования (упорядочивание сайтов в поисковой выдаче), которые строятся на основе машинного обучения.

Ежедневно миллионы пользователей задают запросы поисковым системам.

«Реферат написать»:

«Купить»:

Но больше всего интересуются…

Как устроена поисковая система?

Чтобы предоставлять пользователям быстрые ответы, архитектуру поиска разделили на 2 части:

базовый поиск,
метапоиск.

Базовый поиск

Базовый поиск — программа, которая производит поиск по своей части индекса и предоставляет все соответствующие запросу документы.

Метапоиск — программа, которая обрабатывает поисковый запрос, определяет региональность пользователя, и если запрос популярный, то выдает уже готовый вариант выдачи, а если запрос новый, то выбирает базовый поиск и отдает команду на подбор документов, далее методом машинного обучения ранжирует найденные документы и предоставляет пользователю.

Классификация поисковых запросов

Чтобы дать релевантный ответ пользователю, поисковик сначала пытается понять, что ему конкретно нужно. Происходит анализ поискового запроса и параллельный анализ пользователя.

Поисковые запросы анализируются по параметрам:

Длина;
четкость;
популярность;
конкурентность;
синтаксис;
география.

Тип запроса:

навигационный;
информационный;
транзакционный;
мультимедийный;
общий;
служебный.

После разбора и классификации запроса происходит подбор функции ранжирования.

Обозначение типов запросов является конфиденциальной информацией и предложенные варианты — это догадка специалистов по поисковому продвижению.

Если пользователь задает общий запрос, то поисковая система выдает разные типы документов. И стоит понимать, что продвигая коммерческую страницу сайта в ТОП-10 по общему запросу, вы претендуете попасть не на одно из 10 мест, а в число мест
для коммерческих страниц, которое выделяется формулой ранжирования. И следовательно, вероятность вывода в топ по таким запросам ниже.

Машинное обучение МатриксНет — алгоритм, введенный в 2009 году Яндексом, подбирающий функцию ранжирования документов по определенным запросам.

МатриксНет используется не только в поиске Яндекса, но и в научных целях. К примеру, в Европейском Центре ядерных исследований его используют для редких событий в больших объемах данных (ищут бозон Хиггса).

Первичные данные для оценки эффективности формулы ранжирования собирает отдел асессоров. Это специально обученные люди, которые оценивают выборку сайтов по экспериментальной формуле по следующим критериям.

Оценка качества сайта

Витальный — официальный сайт (Сбербанк, LPgenerator). Поисковому запросу соответствует официальный сайт, группы в социальных сетях, информация на авторитетных ресурсах.

Полезный (оценка 5) — сайт, который предоставляет расширенную информацию по запросу.

Пример — запрос: баннерная ткань.

Сайт, соответствующий оценке «полезный», должен содержать информацию:

что такое баннерная ткань;
технические характеристики;
фотографии;
виды;
прайс-лист;
что-то еще.

Примеры запроса в топе:

Релевантный+ (оценка 4) — это оценка означает, что страница соответствует поисковому запросу.

Релевантный- (оценка 3) — страница не точно соответствует поисковому запросу.

Допустим, по запросу «стражи галактики сеансы» выводится страница о фильме без сеансов, страница прошедшего сеанса, страница трейлера на youtube.

Нерелевантный (оценка 2) — страница не соответствует запросу.
Пример: по названию отеля выводится название другого отеля.

Чтобы продвинуть ресурс по общему или информационному запросу, нужно создавать страницу соответствующую оценке «полезный».

Для четких запросов достаточно соответствовать оценке «релевантный+».

Релевантность достигается за счет текстового и ссылочного соответствия страницы поисковым запросам.

Выводы

Не по всем запросам можно продвинуть коммерческую целевую страницу;
Не по всем информационным запросам можно продвинуть коммерческий сайт;
Продвигая общий запрос, создавайте полезную страницу.

Частой причиной, почему сайт не выходит в топ, является несоответствие контента продвигаемой страницы, поисковому запросу.

Об этом поговорим в следующей статье «Чек-лист по базовой оптимизации сайта».