Проблемы поиска информации: история и технологии. Технология поиска информации в Интернете: информационные поисковые системы Интернета

Вайбер на компьютер 01.08.2019
Вайбер на компьютер

В настоящее время Интернет объединяет сотни миллионов серверов, на которых размещены миллиарды различных сайтов и отдельных файлов, содержащих различного рода информацию. Это гигантское хранилище информации.

Поиск информации является одной из наиболее распространенных и одновременно сложных задач, с которыми приходится сталкиваться в Сети любому пользователю. Однако если для рядового пользователя знание методов эффективного информационного поиска является желательным, но не обязательным качеством, то для профессионалов в области производственно-конструкторской, организационно-управленческой, научно-исследовательской и дизайнерской деятельности умение быстро ориентироваться в ресурсах Интернет и находить требуемые источники относится к числу базовых квалификационных навыков. Существуют различные приемы поиска информации в Интернет.

Поиск по известному адресу .

Это самый быстрый способ поиска, но его можно использовать только в том случае, если пользователю точно известен адрес информационного ресурса, содержащего необходимую ему информацию. Адреса Web-страниц приводятся в специальных справочниках, печатных изданиях и т.д. Зная адрес, достаточно ввести его в адресную строку браузера.

Например :

− Mgudt.ru - Московский университет дизайна и технологии;

− Sssu.ru - Южно-Российский государственный университет экономики и сервиса;

− Assol.org - САПР одежды, ПО для проектирования сумок, проектирования обуви;

− Saprgrazia.com - высокие компьютерные технологии швейной промышленности;

− Comtense.ru - программное обеспечение и оборудование для автоматизации конструирования и технологической подготовки швейного и трикотажного производства;

− Moda.ru, fg.ru, sarafan.ru - модные тренды;

− Microcoft.com и Microcoft.com/rus - сайт корпорации Microcoft и его русская версия;

− Rarlab.com - архиватор WinRAR;

− 7-zip.org - бесплатный архиватор 7-ZIP;

− Office.microsoft.com/rus - официальный сайт Microsoft Office;

− Abbyy.ru/finereader - Fine Reader (программа распознавания образов);

− Adobe.com/ru/products/photoshop - графический редактор Adobe Photoshop;

− Avast.ru - бесплатный антивирус Avast! (русская версия);

− Free-av.com - бесплатный антивирус Avira Antivir;

− Drweb.ru - антивирус DrWeb;

− Avp.ru - антивирус Касперского;

− Agnitum.ru - брандмауэр Agnitum Outpost Firewail и пакет безопасности Outpost Security Suite;

− Microcoft.com/rus/windows/internet-explorer - браузер Internet Explorer;


− Opera.com - браузер Opera;

− Ritlabs.com - почтовая программа The Bat;

− Icq.com - служба «мгновенных сообщений» (веб-пейджер) ICQ;

− Icq.rambler.com - русская версия ICQ;

− Skype.com - программа IP-телефонии Skype;

− Yandex.ru, rambler.ru, google.ru - российские поисковые системы;

− Google.com, bing.com - международные поисковые системы;

− Filesearch.ru - поиск на FTP-серверах;

− Mail.ru, mail.yandex.ru, mail.rambler.ru, pochta.ru, e-mail.ru - российские серверы бесплатной почты;

− Narod.ru, boom.ru, westhost.ru, by.ru - бесплатный хостинг на российских серверах;

− Ixbt.ru - компьютерные новости, обзоры hardware;

− Maps.google.com - подробные карты всего мира, с точностью до дома;

− Maps.yandex.ru - подробные карты крупнейших городов России и Украины. Сведения об автомобильных пробках;

− Wikipedia.org и ru.wikipedia.org - свободная энциклопедия Wikipedia и её русский раздел;

− Slovari.yandex.ru, rubricon.com, krugosvet.ru, mega.km.ru - онлайновые энциклопедии и словари;

− Books.ru, ozon.ru, market.yandex.ru, foto.ru - интернет-магазины;

− Rvb.ru - русская виртуальная библиотека;

Навигация по гиперссылкам . Сайты в Интернете связаны между собой с помощью гиперссылок. Если нет адреса нужной Web-страницы, можно использовать другую страницу со ссылкой на нее. При использовании других методов поиска имеет смысл посмотреть, нет ли на найденном сайте раздела ссылок (ресурсы, другие сайты и т.д.). Часто в таком разделе можно найти адреса ещё нескольких ресурсов, тематически связанных с данным. Но этот метод поиска является довольно трудоёмким и с помощью этого метода можно искать документы, только близкие по смыслу текущему документу.

Если у нас нет ни адреса, ни ссылок, обращаются к поисковым системам.

Обращение к поисковому серверу (поисковой системе). Для поиска информации в Интернете разработаны специальные информационно-поисковые системы. Поисковые системы имеют обычный адрес и отображаются в виде Web-страницы, содержащей специальные средства для организации поиска (строку для поиска, тематический каталог, ссылки). Для вызова поисковой системы достаточно ввести ее адрес в адресную строку браузера.

По способу организации поиска информации можно выделить три вида информационно-поисковых систем: тематические каталоги (рубрикаторы), словарные поисковые системы, метапоисковые системы.

Тематические каталоги (рубрикаторы) - поисковые системы, в которых используется иерархическая (древовидная) организация информации, структурированная по темам. При поиске информации пользователь просматривает тематические рубрики и выбирает нужную ветвь, постепенно сужая поле поиска.

Наиболее полный многоуровневый иерархический тематический каталог русскоязычных Интернет-ресурсов имеет поисковая система Апорт (www.aport.ru). Тематические каталоги поисковой системы Апорт представлены на рисунке 18.1. Каталог содержит подробную аннотацию содержания Web-сайтов и указание на их географическое положение.

Рис. 18.1. Тематические каталоги поисковой системы Апорт

Если вы ищете информацию по широкой теме (образование, музыка, медицина и т.д.), чтобы составить общее представление об имеющихся ресурсах на заданную тему то целесообразно обратиться к каталогу. Если же вам необходимо найти конкретный сайт или документ, то каталог окажется малоэффективным поисковым средством.

Например, чтобы найти информацию о ЮРГУЭС в тематическом каталоге Апорт, то нужно пройти достаточно длинный путь по рубрикам Наука и образование / Образование / Высшее профессиональное образование / ВУЗы / Экономика и управление / Остальные. После чего ещё необходимо найти нужную ссылку в алфавитном списке из 15 страниц. Но зато этот путь позволил составить общее представление о многообразии российских образовательных ресурсов.

Кроме каталогов общего назначения в Сети много специализированных каталогов (по определённым темам).

Словарные поисковые системы - это мощные автоматические программно-аппаратные комплексы. Основой поисковых систем являются так называемые поисковые машины, или индексы. Специальные программы-роботы (известные также как «пауки») в автоматическом режиме периодически обследуют Интернет на основе определенных алгоритмов, проводя индексацию найденных документов. В специальные справочники-индексы заносятся данные о местонахождении той или иной информации. Созданные индексные базы данных используются поисковыми машинами для предоставления пользователю доступа к размещенной на узлах Сети информации. Пользователь в рамках соответствующего интерфейса формулирует запрос , который обрабатывается системой.

Запрос - это ключевое слово или фраза, сформированная по определенным правилам - с помощью языка запросов, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные символы ("", ~), математические символы (*, +, -, ?), логические операторы (операции) Or, And, Not, оператор близости Near.

После этого в окно браузера выдаются результаты обработки запроса. В результате пользователю предлагаются те адреса (URL), по которым в момент сканирования найдены искомое слово или группа слов. Список ссылок, предлагаемый пользователю, ранжируется по релевантности . Релевантный документ - это документ, смысловое содержание которого соответствует информационному запросу.

Каждая ссылка в списке результатов поиска содержит сниппет (англ. snippet - фрагмент, отрывок) - несколько строчек из найденного документа, среди которых встречаются искомые ключевые слова. Прежде чем переходить по ссылке, целесообразно оценить соответствие сниппета теме запроса. Затем, перейдя по ссылке на определенный сайт, стоит просмотреть главную страницу. Как правило, первой страницы достаточно, чтобы понять - по адресу вы пришли или нет. Если да, то дальнейшие поиски нужной информации ведите на выбранном сайте (в разделах сайта), если нет - возвращайтесь к результатам поиска и пробуйте очередную ссылку.

Этот вид поиска является самым гибким и мощным и позволяет искать в Сети информацию, посвящённую самой разнообразной, в том числе узкоспециальной, тематике.

В настоящее время в развитии поисковых систем наблюдается тенденция объединения автоматических индексных поисковых машин и составляемых вручную каталогов Интернет-ресурсов. Ресурсы этих систем удачно дополняют друг друга, и объединение их возможностей вполне логично. Большинство современных поисковых систем являются смешанными.

Поисковых систем сегодня существует достаточно много, международных и отечественных. Первые индексируют все опубликованные в Интернете документы подряд. Вторые индексируют ресурсы, расположенные в доменных зонах с преобладанием русского языка. Если перед пользователем стоит задача найти что-либо в русскоязычной части сети, то, скорее всего, наиболее успешный результат даст поиск с использованием русскоязычных поисковиков. Прежде всего, потому, что русскоязычные поисковые сервера, в отличие от англоязычных, ведут поиск с учетом морфологии русского языка. Наиболее популярные поисковые системы приведены в таблице 26.

1. Введение

С каждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти необходимую информацию резко возрастает. Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей увеличивается на 15-80% ежегодно. И, тем не менее, все чаще при обращении к Интернет основной проблемой оказывается не отсутствие искомой информации, а возможность ее найти. Как правило, обычный человек в силу разных обстоятельств не может или не хочет тратить на поиск нужного ему ответа больше 15-20 минут. Поэтому особенно актуально правильно и грамотно научиться, казалось бы, простой вещи – где и как искать, чтобы получать ЖЕЛАЕМЫЕ ответы.

Чтобы найти нужную информацию, необходимо найти её адрес. Для этого существуют специализированные поисковые сервера (роботы индексов (поисковые системы), тематические Интернет-каталоги, системы мета-поиска, службы поиска людей и т.д.). В данном мастер-классе раскрываются основные технологии поиска информации в Интернете, предоставляются общие черты поисковых инструментов, рассматриваются структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.

2. Технологии поиска

Web-технология World Wide Web (WWW) считается специальной технологией подготовки и размещения документов в сети Интернет. В состав WWW входят и web-страницы, и электронные библиотеки, каталоги, и даже виртуальные музеи! При таком обилии информации остро встает вопрос: «Как сориентироваться в столь огромном и масштабном информационном пространстве?»
В решении данной проблемы на помощь приходят поисковые инструменты.

2.1 Поисковые инструменты

Поисковые инструменты - это особое программное обеспечение, основная цель которого – обеспечить наиболее оптимальный и качественный поиск информации для пользователей Интернета. Поисковые инструменты размещаются на специальных веб-серверах, каждый из которых выполняет определенную функцию:

  1. Анализ веб-страниц и занесение результатов анализа на тот или иной уровень базы данных поискового сервера.
  2. Поиск информации по запросу пользователя.
  3. Обеспечение удобного интерфейса для поиска информации и просмотра результата поиска пользователем.

Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы. Перед тем как перейти к их обсуждению, рассмотрим следующие понятия:

  1. Интерфейс поискового инструмента представлен в виде страницы с гиперссылками, строкой подачи запроса (строкой поиска) и инструментами активизации запроса.
  2. Индекс поисковой системы – это информационная база, содержащая результат анализа веб-страниц, составленная по определенным правилам.
  3. Запрос – это ключевое слово или фраза, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные символы ("", ~), математические символы (*, +, ?).

Схема поиска информации в сети Интернет проста. Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному (заданному) запросу. Этот список документов ранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц).

Таким образом, если указать в строке поиска для каждого поискового инструмента одинаковой конструкции запрос, можно получить различные результаты поиска. Для пользователя имеет большое значение, какие документы окажутся в первых двух-трех десятках документов по результатам поиска и на сколько эти документы соответствуют ожиданиям пользователя.

Большинство поисковых инструментов предлагают два способа поиска – simple search (простой поиск) и advanced search (расширенный поиск) с использованием специальной формы запроса и без нее. Рассмотрим оба вида поиска на примере англоязычной поисковой машины.

Например, AltaVista удобно использовать для произвольных запросов, «Something about online degrees in information technology», тогда как поисковый инструмент Yahoo позволяет получать мировые новости, информацию о курсе валют или прогнозе погоды.

Освоение критериев уточнения запроса и приемов расширенного поиска, позволяет увеличивать эффективность поиска и достаточно быстро найти необходимую информацию. Прежде всего, увеличить эффективность поиска Вы можете за счет использования в запросах логических операторов (операций) Or, And, Near, Not, математических и специальных символов. С помощью операторов и/или символов пользователь связывает ключевые слова в нужной последовательности, чтобы получить наиболее адекватный запросу результат поиска. Формы запросов приведены в таблице 1.

Таблица 1

Простой запрос дает некоторое количество ссылок на документы, т.к. в список попадают документы, содержащие одно из слов, введенных при запросе, или простое словосочетание (см. таблицу 1). Оператор and позволяет указать на то, что в содержании документа должны быть включены все ключевые слова. Тем не менее, количество документов может быть все еще велико, и их просмотр займет достаточно времени. Поэтому в ряде случаев гораздо удобнее применить контекстный оператор near, указывающий, что слова должны располагаться в документе в достаточной близости. Использование near значительно уменьшает количество найденных документов. Наличие символа "*" в строке запроса означает, что будет осуществляться поиск слова по его маске. Например, получим список документов, содержащих слова, начинающиеся на "gov", если в строке запроса запишем "gov*". Это могут быть слова government, governor и т.д.

Не менее популярная поисковая система Rambler ведет статистику посещаемости ссылок из собственной базы данных, поддерживаются те же логические операторы И, ИЛИ, НЕ, метасимвол * (аналогично расширяющему диапазон запроса символу * в AltaVista), коэффициентные символы + и -, для увеличения или уменьшения значимости вводимых в запрос слов.

Давайте рассмотрим наиболее популярные технологии поиска информации в Интернет.

2.2 Поисковые машины (search engines)

Машины веб-поиска - это сервера с огромной базой данных URL-адресов, которые автоматически обращаются к страницам WWW по всем этим адресам, изучают содержимое этих страниц, формируют и прописывают ключевые слова со страниц в свою базу данных (индексирует страницы).

Более того, роботы поисковых систем переходят по встречаемым на страницах ссылкам и переиндексируют их. Так как почти любая страница WWW имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все сайты в Интернет.

Именно этот вид поисковых инструментов является наиболее известным и популярным среди всех пользователей сети Интернет. У каждого на слуху названия известных машин веб-поиска (поисковых систем) – Яndex, Rambler, Aport.

Чтобы воспользоваться данным видом поискового инструмента, необходимо зайти на него и набрать в строке поиска интересующее Вас ключевое слово. Далее Вы получите выдачу из ссылок, хранящихся в базе поисковой системы, которые наиболее близки Вашему запросу. Чтобы поиск был наиболее эффективен, заранее обратите внимание на следующие моменты:

  • определитесь с темой запроса. Что именно в конечном итоге Вы хотите найти?
  • обращайте внимание на язык, грамматику, использование различных небуквенных символов, морфологию.Важно также правильно сформулировать и вписать ключевые слова. Каждая поисковая система имеет свою форму составления запроса - принцип один, но могут различаться используемые символы или операторы. Требуемые формы запроса различаются также в зависимости от сложности программного обеспечения поисковых систем и предоставляемых ими услуг. Так или иначе, каждая поисковая система имеет раздел "Help" ("Помощь"), где все синтаксические правила, а также рекомендации и советы по поиску, доступно объясняются (скриншот страничек поисковиков).
  • используйте возможности разных поисковых систем. Если не нашли на Яndex, попробуйте на Google. Пользуйтесь услугами расширенного поиска.
  • чтобы исключить документы, содержащие определенные термины, используйте знак "-" перед каждым таким словом. Например, если Вам нужна информация о работах Шекспира, за исключением "Гамлета", то введите запрос в виде: "Шекспир-Гамлет". И для того, чтобы, наоборот, в результаты поиска обязательно включались определенные ссылки, используйте символ "+". Так, чтобы найти ссылки о продаже именно автомобилей, Вам нужен запрос "продажа+автомобиль". Для увеличения эффективности и точности поиска, используйте комбинации этих символов.
  • каждая ссылка в списке результатов поиска содержит – несколько строчек из найденного документа, среди которых встречаются Ваши ключевые слова. Прежде чем переходить по ссылке, оцените соответсвие сниппета теме запроса. Перейдя по ссылке на определенный сайт, внимательно окиньте взглядом главную страничку. Как правило, первой страницы достаточно, чтобы понять – по адресу Вы пришли или нет. Если да, то дальнейшие поиски нужной информации ведите на выбранном сайте (в разделах сайта), если нет – возвращайтесь к результатам поиска и пробуйте очередную ссылку.
  • помните, что поисковые системы не производят самостоятельную информацию (за исключением разъяснений о самих себе). Поисковая система – это лишь посредник между обладателем информации (сайтом) и Вами. Базы данных постоянно обновляются, в них вносятся новые адреса, но отставание от реально существующей в мире информации все равно остается. Просто потому, что поисковые системы не работают со скоростью света.

К наиболее известным машинам веб-поиска относятся Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos. Среди русскоязычных можно выделить Яndex, Rambler, Апорт.

Поисковые системы являются самыми масштабными и ценными, но далеко не единственными источниками информации в Сети, ведь помимо них существуют и другие способы поиска в Интернете.

2.3 Каталоги (directories)

Каталог Интернет-ресурсов – это постоянно обновляющийся и пополняющийся иерархический каталог, содержащий множество категорий и отдельных web-серверов с кратким описанием их содержимого.Способ поиска по каталогу подразумевает «движение вниз по ступенькам», то есть движение от более общих категорий к более конкретным. Одним из преимуществ тематических каталогов является то, что пояснения к ссылкам дают создатели каталога и полностью отражают его содержание, то есть дает Вам возможность точнее определить, насколько соответствует содержание сервера цели Вашего поиска.

Примером тематического русскоязычного каталога можно назвать ресурс http://www.ulitka.ru/ .

На главной странице данного сайта расположен тематический рубрикатор,

с помощью которого пользователь попадает в рубрику со ссылками на интересующую его продукцию.

Кроме того, некоторые тематические каталоги позволяют искать по ключевым словам. Пользователь вводит необходимое ключевое слово в строку поиска

и получает список ссылок с описаниями сайтов, которые наиболее полно соответствуют его запросу. Стоит отметить, что этот поиск происходит не в содержимом WWW-серверов, а в их кратком описании, хранящихся в каталоге.

В нашем примере в каталоге также имеется возможность сортировки сайтов по количеству посещений, по алфавиту, по дате занесения.

Другие примеры русскоязычных каталогов:
Каталог@Mail.ru
Weblist
Vsego.ru
Cреди англоязычных каталогов можно выделить:
http://www.DMOS.org
http://www.yahoo.com/
http://www.looksmart.com

2.4 Подборки ссылок

Подборки ссылок – это отсортированные по темам ссылки. Они достаточно сильно отличаются друг от друга по наполнению, поэтому чтобы найти подборку, наиболее полно отвечающую Вашим интересам, необходимо ходить по ним самостоятельно, дабы составить собственное мнение.

В качестве примера приведем Подборку ссылок "Сокровища Интернет" АО "Релком"

Пользователь, нажимая на любую из заинтересовавших его рубрик

  • СОДЕРЖАНИЕ

    Автомобилистам

    • Астрономия и астрология
    • Ваш дом
    • Ваши питомцы
    • Дети - цветы жизни
    • Досуг
    • Города в Сети Internet
    • Здоровье и медицина
    • Информационные агентства и службы
    • Краеведческий музей и т.д.,
    • Автомобильная электроника.
    • Музей автомото старины.
    • Коллегия Правовой Защиты Автовладельцев.
    • Sportdrive.

    Преимуществом такого вида поисковых инструментов является их целенаправленность, обычно подборка включает в себя редкие интернет ресурсы, подобранные конкретным веб-мастером или хозяином интернет странички.

    2.5 Базы данных адресов (addresses database)

    Базы данных адресов – это специальные поисковые сервера, которые обычно используют классификации по роду деятельности, по выпускаемой продукции и оказываемым услугам, по географическому признаку. Иногда они дополнены поиском по алфавиту. В записях базы данных хранится информация о сайтах, которые предоставляют информацию об электронном адресе, организации и почтовом адресе за определенную плату.

    Крупнейшей англоязычной базой данных адресов можно назвать: http://www.lookup.com/ -

    Попадая в данные поддиректории, пользователь обнаруживает ссылки на сайты, которые и предлагают интересующую его информацию.

    Широко доступных и официальных баз данных адресов в РФ нам неизвестно.

    2.6 Поиск в архивах Gopher (Gopher archives)

    Gopher – это взаимосвязанная система серверов (Gopher-пространство), распределенная по Интернет.

    В пространстве Gopher собрана богатейшая литературная библиотека, однако материалы недоступны для просмотра в удаленном режиме: пользователь может только просматривать иерархически организованное оглавление и выбирать файл по названию. С помощью специальной программы (Veronica) такой поиск можно сделать и автоматически, используя запросы, построенные на ключевых словах.

    До 1995 года Gopher являлся самой динамичной технологией Интернет: темпы роста числа соответствующих серверов опережали темпы роста серверов всех других типов Интернет. В сети EUnet/Relcom активного развития серверы Gopher не получили, и сегодня о них практически никто не вспоминает.

    2.7 Система поиска FTP файлов (FTP Search)

    Система поиска FTP-файлов – это особый тип средств поиска в Internet, который позволяет находить файлы, доступные на «анонимных» FTP-серверах. Протокол FTP предназначен для передачи по сети файлов, и в этом смысле он функционально является своеобразным аналогом Gopher.

    Основным критерием поиска является название файла, задаваемое разными способами (точное соответствие, подстрока, регулярное выражение и т.д.). Данный тип поиска, конечно же, не может соперничать по возможностям с поисковыми машинами, так как содержимое файлов никак не учитывается при поиске, а файлам, как известно, можно давать произвольные имена. Тем не менее, если Вам требуется найти какую-нибудь известную программу или описание стандарта, то с большой долей вероятности файл, его содержащий, будет иметь соответствующее имя, и Вы сможете найти его при помощи одного из серверов FTP Search :

    FileSearch ищет файлы на FTP-серверах по именам самих файлов и каталогов. Если Вы ищете какую-либо программу или еще что-то, то на WWW-серверах Вы скорее найдете их описание, а с FTP-серверов Вы сможете перекачать их к себе.

    2.8 Система поиска в конференциях Usenet News

    USENET NEWS – это система телеконференций сообщества сетей Интернет. На Западе этот сервис принято называть новостями. Близким аналогом телеконференций являются и так называемые "эхи" в сети FIDO.

    С точки зрения абонента телеконференции, USENET представляют из себя доску объявлений, в которой есть разделы, где можно найти статьи на любую тему - от политики до садоводства. Эта доска объявлений доступна через компьютер, подобно электронной почте. Не отходя от компьютера, можно читать или помещать статьи в ту или иную конференцию, найти полезный совет или вступать в дискуссии. Естественно, статьи занимают место на компьютерах, поэтому не хранятся вечно, а периодически уничтожаются, освобождая место для новых. Во всем мире лучшим сервисом для поиска информации в конференциях Usenet является сервер Google Groups (Google Inc.).

    Группы Google – это бесплатное интерактивное сообщество и служба групп обсуждений, которая предлагает самый обширный в Интернете архив сообщений сети Usenet (более миллиарда сообщений).Подробнее ознакомиться с правилами пользования сервисом можно на странице http://groups.google.com/intl/ru/googlegroups/tour/index.html

    Среди русскоязычных выделяется сервер Всемирная система USENET и телеконференции Relcom. Точно также как и в других поисковых службах, пользователь набирает строку запроса, а сервер формирует список конференций, содержащих ключевые слова. Далее надо подписаться на отобранные конференции в программе работы с новостями. Также имеет место аналогичный российский сервер FidoNet Online: конференции Fido на WWW.

    2.9 Системы мета-поиска

    Для быстрого поиска в базах сразу нескольких поисковых систем лучше обратиться к системам мета-поиска.

    Системы мета-поиска – это поисковые машины, которые посылают Ваш запрос на огромное количество разных поисковых систем, затем обрабатывают полученные результаты, удаляют повторяющиеся адреса ресурсов и представляют более широкий спектр того, что представлено в сети Интернет.

    Наиболее популярная в мире система мета-поиска Search.com .

    Объединенный поисковый сервер Search.com компании CNET, Inc. включает в себя почти два десятка поисковых систем, ссылками на которые пестрит весь Интернет.

    С помощью данного вида поисковых инструментов пользователь может искать информацию во множестве поисковых систем, однако отрицательной стороной данных систем можно назвать их нестабильность.

    2.10 Системы поиска людей

    Системы поиска людей – это специальные сервера, которые позволяют осуществлять поиск людей в Интернет, пользователь может указать Ф.И.О. человека и получить его адрес электронной почты и URL-адрес. Однако, следует отметить, что системы поиска людей, в основном, берут информацию об электронных адресах из открытых источников, таких как конференции Usenet. Среди самых известных систем поиска людей можно выделить:

    Поиск адресов e-mail

    в специальные графы поиска контактные данные (First Name. City, Last Name, Phone number), Вы можете найти интересующую Вас информацию.

    Системы поиска людей - это действительно большие сервера, их базы данных содержат порядка 6 000 000 адресов.

    3. Заключение

    Мы рассмотрели основные технологии поиска информации в Интернет и представили в общих чертах поисковые инструменты, которые существуют на данный момент в Интернете, а также структуру поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем и, подводя итог вышесказанному, хотим отметить, что единой оптимальной схемы поиска информации в Интернет не существует. В зависимости от специфики нужной Вам информации, Вы можете использовать соответствующие поисковые инструменты и службы. А от того, как грамотно будут подобраны поисковые службы, зависит качество результатов поиска.

  • Одна из проблем является чисто методологической. Для проведения эффективного поиска мы заинтересованы в одновременном решении двух противоположных задач:

    увеличение охвата с целью извлечения максимального количества значимой информации;

    уменьшение охвата с целью минимизации шумовой информации.

    Нетрудно видеть, что одновременно осуществить это довольно сложно, хотя зачастую все-таки возможно. Один из методов, если поисковая машина позволяет, - это введение явных ограничений (запрещенных слов). Другой состоит в правильном формировании запросов, в частности, в предпочтении нескольких конкретизированных запросов одному общему. К сожалению, весьма ограниченный входной язык большинства машин не оставляет особенного простора для творчества в этом направлении.

    Другая проблема - многовариантность человеческого языка. Если в английском языке некоторые слова имеют множество различных значений, то русский отличается богатством морфологических вариаций слов, а для полноты поиска необходимо учитывать еще и синонимы.

    Часто в области российского Интернета возникают чисто технические трудности из-за различных кодировок информации. Российские поисковые машины распознают кодировки пользователя и искомого сайта, но совместить их удается не всегда.

    Еще одна особенность русскоязычной части сети - ее нестабильность. Постоянно изменяются адреса и структура сайтов, они появляются и исчезают, и поисковые машины не успевают обновлять свои базы индексированных данных, поэтому значительная часть списка документов, выданного вам машиной, может оказаться недоступной.

    Вывод: Поиск информации в сети - это достаточно специфическая и кропотливая работа, требующая определенных знаний и навыков. Для проведения поисковых работ пригодятся: знания основных информационных ресурсов и умение хорошо в них ориентироваться, практические навыки работы - это приходит со временем, хорошая зрительная память и умение быстро читать, а так же некоторые навыки аналитической работы.

    Основной проблемой при поиске можно назвать неумение пользователя эффективно искать информацию в сети.

    Поисковые машины ищут информацию по всей сети Internet. На самом деле это не совсем верно. Если бы при реализации алгоритма работы поисковых машин был использован такой подход, то для обработки только одного запроса и выдачи результатов потребовалось бы несколько дней.

    Каждая поисковая машина имеет и постоянно пополняет свою (локальную) базу данных. База данных поисковой машины содержит основные параметры (индексы) каждого известного данной машине (проиндексированного) документа. Каждая поисковая машина использует свои методы индексации. Кроме того, различные поисковые машины имеют разные объемы базы данных.

    В результате, механизм обработки запроса пользователя поисковой машиной выглядит следующим образом:

    в соответствии с заданным в запросе ключевым словом или словосочетанием, машина проводит поиск в своей локальной базе данных, сверяя ключевое слово с наборами ключевых слов, соответствующих каждому документу из её базы данных;

    затем, используя соответствующие алгоритмы, поисковая машина сортирует результаты поиска и выдает их пользователю;

    в результате сортировки результатов, в начало списка помещаются наиболее соответствующие (с точки зрения поисковой машины) ключевым словам документы.

    В связи с огромным количеством информации, размещенной в сети, ни одна из поисковых машин не в состоянии просмотреть все документы. Каждая поисковая машина индексирует только часть их. Все остальные документы, а к сожалению это большая часть ресурсов, найти с ее помощью не удастся.

    16.Поиск информации в интернете

    Информация, размещенная во Всемирной сети, исчисляется огромным количеством байт. Для поиска информации во Всемирной сети используются специальные веб-сайты – информационно-поисковые системы. Они позволяют по ключевым словам найти информационные ресурсы, связанные с ключевыми словами. Это может быть текст, содержащий ключевые слова, или графическое изображение одного из ключевых слов. Примерами информационно-поисковых систем являются системы Google и Yandex.

    Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета.

    Существуют три основных способа поиска информации в Интернет:

    1. Указание адреса страницы.

    3. Обращение к поисковой системе (поисковому серверу).

    Способ 1: Указание адреса страницы

    Это самый быстрый способ поиска, но его можно использовать только в том случае, если точно известен адрес документа или сайта, где расположен документ.

    Не стоит забывать возможность поиска по открытой в окне браузера web-странице (Правка-Найти на этой странице…).

    Это наименее удобный способ, так как с его помощью можно искать документы, только близкие по смыслу текущему документу.

    Способ 3: Обращение к поисковой системе

    Пользуясь гипертекстовыми ссылками, можно бесконечно долго путешествовать в информационном пространстве Сети, переходя от одной web-страницы к другой, но если учесть, что в мире созданы многие миллионы web-страниц, то найти на них нужную информацию таким способом вряд ли удастся.

    На помощь приходят специальные поисковые системы (ихеще называют поисковыми машинами). Адреса поисковых серверов хорошо известны всем, кто работает в Интернете. В настоящее время в русскоязычной части Интернет популярны следующие поисковые серверы:Яндекс (yandex.ru), Google (google.ru) и Rambler (rambler.ru

    Поисковая система - веб-сайт, предоставляющий возможность поиска информации в Интернете.

    Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.

    По принципу действия поисковые системы делятся на два типа: поисковые каталоги и поисковые индексы.

    Поисковые каталоги служат для тематического поиска.

    Информация на этих серверах структурирована по темам и подтемам. Имея намерение осветить какую-то узкую тему, нетрудно найти список web-страниц, ей посвященных.

    Катало́г ресурсов в Интернете или каталог интернет-ресурсов или просто интернет-каталог - структурированный набор ссылок на сайты с кратким их описанием.

    Поисковые индексы работают как алфавитные указатели. Клиент задает слово или группу слов, характеризующих его область поиска, - и получает список ссылок на web-страницы, содержащие указанные термины.

    Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, разработанный Мэтью Грэйем из Массачусетского технологического института в 1993.

    Как работает поисковой индекс?

    Поисковые индексы автоматически, при помощи специальных программ(веб-пауков), сканируют страницы Интернета и индексируют их, то есть заносят в свою огромную базу данных.

    Поисковый робот («веб-паук») - программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них (ключевые слова) в базу поисковика. По своей сути паук больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит и отправляется по ссылкам на следующие страницы.

    В ответ на запрос, где найти нужную информацию, поисковый сервер возвращает список гиперссылок, ведущих web-страницам, на которых нужная информация имеется или упоминается. Обширность списка может быть любой, в зависимости от содержания запроса.

    http://www.yandex.ru/

    Яндекс - российская система поиска в Сети. Сайт компании, Yandex.ru, был открыт 23 сентября 1997 года. Головной офис компании находится в Москве. У компании есть офисы в Санкт-Петербурге, Екатеринбурге, Одессе и Киеве. Количество сотрудников превышает 700 человек.

    Слово «Яндекс» (состоящее из буквы «Я» и части слова index; обыгран тот факт, что русское местоимение «Я» соответствует английскому «I») придумал Илья Сегалович, один из основателей Яндекса, в настоящий момент занимающий должность технического директора компании.

    Поиск Яндекса позволяет искать по Рунету документы на русском, украинском, белорусском, румынском, английском, немецком и французском языках с учётом морфологии русского и английского языков и близости слов в предложении. Отличительная особенность Яндекса - возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов.

    По умолчанию Яндекс выводит по 10 ссылок на каждой странице выдачи результатов, в настройках результатов поиска можно увеличить размер страницы до 20, 30 или 50 найденных документов.

    Время от времени алгоритмы Яндекса, отвечающие за релевантность выдачи, меняются, что приводит к изменениям в результатах поисковых запросов. В частности, эти изменения направлены против поискового спама, приводящего к нерелевантным результатам по некоторым запросам.

    http://www.google.ru/

    Лидер поисковых машин Интернета, Google занимает более 70 % мирового рынка. Cейчас регистрирует ежедневно около 50 млн поисковых запросов и индексирует более 8 млрд веб-страниц. Google может находить информацию на 115 языках.

    По одной из версий, Google - искажённое написание английского слова googol. «Googol (гугол)» – это математический термин, обозначающий единицу со 100 нулями. Этот термин был придуман Милтоном Сироттой, племянником американского математика Эдварда Каснера, и впервые описан в книге Каснера и Джеймса Ньюмена «Математика и воображение»(Mathematics and the Imagination). Использование этого термина компанией Google отражает задачу организовать огромные объемы информации в Интернете.

    Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д.

    http://www.rambler.ru/

    Rambler Media Group - интернет-холдинг, включающий в качестве сервисов поисковую систему, рейтинг-классификатор ресурсов российского Интернета, информационный портал.

    Rambler создан в 1996 году.

    Поисковая система Рамблер понимает и различает слова русского, английского и украинского языков. По умолчанию поиск ведётся по всем формам слова.

    Казалось бы, нет ничего проще, чем найти нужные данные в Сети. В реальности с этим может справиться даже тот, кто впервые воспользовался услугами поисковых систем. Однако в то же время с эффективностью такого поиска можно будет серьезно поспорить. Намного меньше времени можно потратить на поиск информации в Сети, располагая необходимыми сведениями об особенностях работы популярных поисковых систем.

    В глобальной Сети применяют во время обработки запросов собственную машинную логику. Опираясь на несколько несложных правил и располагая достаточной информацией об использовании популярных поисковиков, можно значительно ускорить процесс нахождения необходимой информации, а самое главное - в результате вы получите именно то, что требуется.

    Особенности составления поискового запроса

    Как правильно искать в Интернете необходимую информацию? Для этого, в первую очередь, необходимо знать эффективные приемы удачного составления поисковых запросов. Выполнение поиска по единственному слову обычно приводит к выдаче результатов в виде миллионов страниц, большинство из которых абсолютно не относится к делу. Если в поисковой строке находится от четырех до шести значений и более, количество результатов автоматически сокращается до нескольких тысяч и сотен, а иногда ограничивается лишь парой страниц.

    Более того, поиск в Интернете нуждается в составлении грамотных запросов. Чем точнее указано искомое слово или словосочетание, тем выше вероятность обнаружить необходимые данные на первой же странице в выдаче результатов. Все дело в том, что поисковикам далеко не всегда удается исправить ошибки орфографии, допущенные пользователем, а некоторые из них попросту упускаются. А ведь в отдельных случаях точность запроса может оказаться достаточно принципиальной.

    Помимо прочего, не следует игнорировать необходимость введения заглавных букв, если запрос касается поиска человека по фамилии либо имен собственных. В противном случае среди подходящих страниц в результате поиска обязательно будет присутствовать достаточная масса неподходящих, косвенно касающихся запроса данных.

    Почему важно использовать несколько поисковых систем?

    Выполняя поиск в Интернете, крайне важно применять, как минимум, два поисковика. Ведь на получение результатов при этом будут влиять разные способы То, что не замечает один поисковик, обязательно заметит другая система. Например, использование отечественной поисковой системы может переместить необходимую информацию на несколько страниц вперед, и в то же время иностранная выдаст тот же результат в первой пятерке.

    Выполнение поиска согласно синонимам

    Что больше ищут в Интернете? Обычно предметом поиска пользователей оказывается медиа контент и развлечения, в частности, фильмы, музыка, компьютерные игры. При этом люди далеко не всегда нуждаются в нахождении конкретного запроса. Часто в результатах выдачи необходимо увидеть общую информацию, различные варианты одного значения.

    Для поиска схожей информации согласно выбранному запросу применяется символ «~», который необходимо расположить перед запросом в поисковой строке. Например, задав запрос «~лучшие игры», в конечном итоге можно увидеть ссылки на страницы, где не будет присутствовать ни одного совпадения с определением «лучшие». Однако здесь окажется достаточно синонимов к данному определению.

    Как получить несколько результатов одновременно?

    Как искать информацию в Интернете, чтобы получить одновременно несколько результатов выдачи? Для этого используется разделение пары запросов специальным оператором «|», который может располагаться, как между несколькими словами, так и фразами. Например, разделив таким образом запросы «купить автомобиль» и «купить мотоцикл», можно быстро получить страницы, содержащие оба варианта.

    Использование преимуществ расширенного поиска

    Применение функции расширенного поиска дает возможность избежать самостоятельного формирования уточняющих запросов. Вместо этого можно воспользоваться теми вариантами, которые предлагает непосредственно поисковая система.

    Большинство поисковиков знают, что искать в Интернете намного лучше по сравнению с самыми продвинутыми пользователями, так как основывают свою работу на статистике формирования популярных запросов. Поэтому задавая поисковику запрос в виде искомого слова, лучше сразу же конкретизировать его при помощи функционала расширенного поиска.

    Как быстро отыскать значение незнакомого понятия?

    Что люди ищут в Интернете? Нередко предметом поиска становятся незнакомые пользователю материалы, а также понятия, в сути которых нужно разобраться. Чтобы моментально отыскать значение тех или иных определений, достаточно всего лишь разместить перед запросом «define:».

    Просмотр результатов из первого десятка страниц

    Что искать в Интернете? В первую очередь, обращать внимание следует на первые результаты выдачи поисковой системы. Ведь именно здесь обычно встречаются не только самые соответствующие запросу данные, но также результаты, найденные на наиболее популярных среди пользователей страницах. Как правило, это самые уважаемые, проверенные Интернет порталы с содержанием точной, отвечающей запросам пользователя информации.

    Уточнение географии искомых данных

    Наименее актуальной необходимость уточнения географии запроса выглядит для жителей столиц и крупных городов, однако она остается важной для пользователей из отдаленных регионов. Несмотря на автоматическое определение местоположения пользователя, которое выполняется большинством продвинутых поисковых систем, в результатах на первых позициях обязательно окажутся ссылки, связанные с крупными населенными пунктами. Ведь именно в таких местах сконцентрирована основная масса активных пользователей.

    Исходя из вышесказанного, не стоит слишком надеяться на то, что поисковик определит, из какой точки на карте исходит запрос. Вместо этого лучше сразу же добавить к искомому запросу упоминание о месте своего пребывания.

    Не стоит забывать и жителям столичных областей, что искать в Интернете информацию подобным образом наиболее целесообразно. Ведь нужные товары или услуги запросто могут оказаться за пределами города. Иногда самое простое упоминание конкретного региона, улицы или даже станции метро способствует быстрому нахождению необходимых магазинов, компаний или сервисов, которые располагаются ближе всего по отношению к месту пребывания пользователя.



    Рекомендуем почитать

    Наверх