Untitled Document
 
Главная » Файлы » Поисковики

Как работают поисковые системы

26.11.2013, 21:49
    Итак, все мы знаем о Гугле, Яндексе, Рамблере и т.д. , но не все знают на основе чего они работают . 
В этой статье будет кратко описано устройство поисковых систем в целом. 




Поисковики состоят из 5 отдельных компонентов , выполняющих строго определенную задачу : 
  • Spider - паук - программа, которая скачивает веб-страницы; извлекает файлы, размещенные на них.
  • Crawler - программа, переходящая по всем ссылкам до определения необходимой ; использует полученные "пауком" данные
  • Indexer - индексатор - программа , анализирующая полученные данные(html-код, заголовки, абзацы, текст с помощью собственных собственных шифровок .
  • Database - база данных - система , специализирующаяся на хранении полученных и обработанных данных , параметров предоставленных гигабайт информации.
  • Поисковый сервер - именно этот парень решает ,что же мы увидим перед собой при очередном вводе запроса . Для этого он использует сложный алгоритм : 
  1. Создание подвергнутого морфологической обработке информационного пространства для каждого документа.
  2. Обработка.Документ проходит по модулю ранжирования, в результате которого определяется рейтинг, характеризующий релевантность пользовательского запроса.
  3. Корректировка релевантности исходя из настроек пользователя ( поиск по местоположению , полнота поиска ) 
  4. Формирование сниппета - заголовка и краткого предисловия ( причем обязательным условием является наличие в этом предисловие слов из запроса пользователя , которые так или иначе выделяются )
  5. Полностью обработанные данные поступает пользователю в виде search engine results engine - страницы выдачи результатов
Несмотря на быстрое развитие интернета , поисковики опираются на всё те же критерии
  • Присутствие ключевой фразе в теге <title> ( заголовок ) 
  • css/html - наличие ключевой фразы выделенной стандартными html/css кодами в тексте ( em,strong,font и т.д.)
  • Насколько часто ключевое слово/фраза употребляется на веб-странице.(плотность)
  • meta-теги ( о их значении можете почитать тут )
  • Все виды ссылок ( внутренние , внешние, ведущие на эту страницу)
  При оценке поисковых систем выделяют несколько ключевых характеристик :
  • Точность. Эта величина отражает соответствие предоставляемых вариантов непосредственно запросу пользователя. Допустим, если я введу фразу " смысл жизни " , а поисковая система выдаст мне 10000 результатов, из которых 100 будут действительно содержать эту фразу и некую интересующую меня информацию, а остальные будут наподобие " смысл инерциального закона Ньютона заключается в..." , то точность поиска будет составлять 100/10000 , т.е. 0,01 ( что довольно мало ) .
  • Актуальность . Думаю, многие а курсе о недавно пролетевшей на расстоянии 1.3 млн км от Солнца "Комете века" ISON . ( Если не ошибаюсь , она пролетала 28 ноября 2013 , и сгорела в 18:37 по UTS ( данные по Википедии ) . Каждый сайт о звездных телах почти каждые полчаса обновлял информацию , но вот то насколько часто поисковики обновляли свою базу данных ( т.е. за какие промежутки времени) и является актуальностью поисковой системы . Крупные поисковые системы обновляют свои базы несколько раз в день благодаря т.н. "быстрым базам" . Таким образом, только что попавшая в Сеть информация уже может быть просмотрена пользователями , хвала Гуглу!
  • Скорость поиска. Эта характеристика, по моему скромному мнению , определяет успех поисковика . Она зависит от устойчивости аппаратно-программного комплекса к нагрузкам . Для справки , Google ежесекундно обрабатывает ок. 10000 запросов ! ( данные взяты из Википедии ) . Чтобы обеспечить всех пользователей информацией, система обязана работать максимально быстро ( чего желает и сам пользователь ).
  • Полнота. Предположим, в интернете существует 1000 веб-страниц схожей с моим сайтом тематики ( seo-оптимизация и продвижение сайта ) , а поисковая система выдала вам 200 из них . Тогда полнота поиска будет равна 200/1000 = 0,2 . Чем больше полнота, тем больше вероятность того , что пользователь найдет нужную информацию ( но необходимо учитывать точность поиска ) .
  • Наглядность. Параметр , указывающий на то, насколько информация разгруппирована и насколько релевантна запросу вообще.

Категория: Поисковики | Добавил: HolLyWooD
Просмотров: 520 | Рейтинг: 0.0/0
Всего комментариев: 0
Добавить комментарий