Итак, все мы знаем о Гугле, Яндексе, Рамблере и т.д. , но не все знают на основе чего они работают . В этой статье будет кратко описано устройство поисковых систем в целом.
Поисковики состоят из 5 отдельных компонентов , выполняющих строго определенную задачу : - Spider - паук - программа, которая скачивает веб-страницы; извлекает файлы, размещенные на них.
- Crawler - программа, переходящая по всем ссылкам до определения необходимой ; использует полученные "пауком" данные
- Indexer - индексатор - программа , анализирующая полученные данные(html-код, заголовки, абзацы, текст с помощью собственных собственных шифровок .
- Database - база данных - система , специализирующаяся на хранении полученных и обработанных данных , параметров предоставленных гигабайт информации.
- Поисковый сервер - именно этот парень решает ,что же мы увидим перед собой при очередном вводе запроса . Для этого он использует сложный алгоритм :
- Создание подвергнутого морфологической обработке информационного пространства для каждого документа.
- Обработка.Документ проходит по модулю ранжирования, в результате которого определяется рейтинг, характеризующий релевантность пользовательского запроса.
- Корректировка релевантности исходя из настроек пользователя ( поиск по местоположению , полнота поиска )
- Формирование сниппета - заголовка и краткого предисловия ( причем обязательным условием является наличие в этом предисловие слов из запроса пользователя , которые так или иначе выделяются )
- Полностью обработанные данные поступает пользователю в виде search engine results engine - страницы выдачи результатов
Несмотря на быстрое развитие интернета , поисковики опираются на всё те же критерии: - Присутствие ключевой фразе в теге <title> ( заголовок )
- css/html - наличие ключевой фразы выделенной стандартными html/css кодами в тексте ( em,strong,font и т.д.)
- Насколько часто ключевое слово/фраза употребляется на веб-странице.(плотность)
- meta-теги ( о их значении можете почитать тут )
- Все виды ссылок ( внутренние , внешние, ведущие на эту страницу)
При оценке поисковых систем выделяют несколько ключевых характеристик :- Точность. Эта величина отражает соответствие предоставляемых вариантов непосредственно запросу пользователя. Допустим, если я введу фразу " смысл жизни " , а поисковая система выдаст мне 10000 результатов, из которых 100 будут действительно содержать эту фразу и некую интересующую меня информацию, а остальные будут наподобие " смысл инерциального закона Ньютона заключается в..." , то точность поиска будет составлять 100/10000 , т.е. 0,01 ( что довольно мало ) .
- Актуальность . Думаю, многие а курсе о недавно пролетевшей на расстоянии 1.3 млн км от Солнца "Комете века" ISON . ( Если не ошибаюсь , она пролетала 28 ноября 2013 , и сгорела в 18:37 по UTS ( данные по Википедии ) . Каждый сайт о звездных телах почти каждые полчаса обновлял информацию , но вот то насколько часто поисковики обновляли свою базу данных ( т.е. за какие промежутки времени) и является актуальностью поисковой системы . Крупные поисковые системы обновляют свои базы несколько раз в день благодаря т.н. "быстрым базам" . Таким образом, только что попавшая в Сеть информация уже может быть просмотрена пользователями , хвала Гуглу!
- Скорость поиска. Эта характеристика, по моему скромному мнению , определяет успех поисковика . Она зависит от устойчивости аппаратно-программного комплекса к нагрузкам . Для справки , Google ежесекундно обрабатывает ок. 10000 запросов ! ( данные взяты из Википедии ) . Чтобы обеспечить всех пользователей информацией, система обязана работать максимально быстро ( чего желает и сам пользователь ).
- Полнота. Предположим, в интернете существует 1000 веб-страниц схожей с моим сайтом тематики ( seo-оптимизация и продвижение сайта ) , а поисковая система выдала вам 200 из них . Тогда полнота поиска будет равна 200/1000 = 0,2 . Чем больше полнота, тем больше вероятность того , что пользователь найдет нужную информацию ( но необходимо учитывать точность поиска ) .
- Наглядность. Параметр , указывающий на то, насколько информация разгруппирована и насколько релевантна запросу вообще.
|