СЕТИ ЭВМ И ТЕХНОЛОГИИ РАСПРЕДЕЛЕННОЙ ОБРАБОТКИ ДАННЫХ.

Основные принципы поиска в информации в Internet.

Появление и экспоненциальный рост WWW, безусловно, сильно стимулировало развитие науки информационного поиска. Сегодня, более 75% пользователей Интернет используют поисковые системы для доступа к информации в WWW.Однако, cпецифика WWW обусловила не только необходимость модификации классических методов поиска, но и появление новых задач. Особенности WWW можно разделить на особенности WWW как набора данных и особенности поведения пользователей поисковых систем в WWW. Методы поиска, используемые в классических ПС, разрабатывались и тестировались на относительно небольших и однородных коллекциях, таких, как библиотечные каталоги или коллекции газетных статей. WWW как набор данных имеет ряд важных особенностей:

Размер. За последние годы было предпринято множество попыток оценить размер WWW, и, хотя оценки не полностью совпадают, все они согласуются в том, что в WWW содержится более миллиарда страниц. Учитывая, что размер среднестатистической страницы составляет 5-10 Кб, то нетрудно подсчитать, что речь идет о терабайтах Отметим, что эти оценки касаются только той "поверхностной" части WWW, которая не скрыта за поисковыми формами, и доступ к которой не требует предварительной регистрации или авторизации. Другую, "скрытую" часть WWW, поисковые системы обычно не рассматривают, а ведь к ней относится множество реально опубликованных крупных баз данных. Поэтому неудивительно, что оценка объема "скрытого" WWW в 500 раз больше, чем объем "поверхностного" WWW.
Динамика развития. Информация в Интернет меняется очень динамично: информационные ресурсы появляются, пропадают, меняют свое местоположение или содержание очень часто. Так, ежемесячно изменяется около 40% информации, среднее время жизни половины страниц в WWW не превышает 10 дней, а объем всей информации в сети увеличился в два раза за последние два года Отметим, что при этом изменяется и используемая лексика. В классических поисковых системах временные характеристики информации практически не учитывались.
Неструктурированность и избыточность. Принято считать, что WWW - это распределенный гипертекст. Однако это не совсем так. Гипертекст обычно подразумевает наличие концептуальной модели, которая накладывает ограничения согласованности на данные и гиперсвязи. В WWW это обычно не так даже для тех его частей, которые находятся под единым административным контролем. Около 30% информации в WWW являются точными или приблизительными копиями других документов.
Неконтролируемое качество. Отсутствие редакторского контроля над публикуемой информацией в WWW обуславливает проблемы с качеством - информация может быть некорректной (например, уже устаревшей), ложной, плохо сформулированной, содержать массу ошибок (опечаток, грамматических ошибок, ошибок оцифровки и т.п.). По некоторым оценкам, одна опечатка встречается в среднем в каждых двухстах часто употребительных словах или в трех иностранных фамилиях

У WWW есть также и ряд специфичных особенностей, которые могут быть использованы для повышения эффективности поиска:

Наличие экспертных оценок. В WWW содержится огромное количество экспертных оценок, как явных, так и неявных, которые могут быть использованы для обучения и настройки методов поиска. Важным источником экспертных оценок в WWW являются гипертекстовые ссылки. Поскольку большинство ссылок создается вручную, то гипертекстовая ссылка часто отражает мнение создателя о цитируемом ресурсе.
Особенности структуры. Информацию о структуре графа WWW можно использовать при решении многих связанных с WWW задач: при теоретическом анализе поведения алгоритмов, использующих информацию о ссылках; для оптимизация вычислительной эффективности методов работы с графом - например, сжатие WWW-графа; при исследовании развития WWW с социологической точки зрения и т.д.
Тематическая локальность. Эмпирически доказано интуитивное предположение о том, что ссылки со страниц в WWW в основном ведут на страницы близкой тематики

Ключевым архитектурным отличием от классических ПС является наличие сетевых роботов. Сетевые роботы - это программы, которые, исходя из некоторого начального множества ссылок (URL), рекурсивно сканируют Веб-страницы, извлекая из них новые ссылки. Эти роботы трех видов:

1. Spider (паук) – Автономно работающая программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ. Ссылки извлекаются из элементов гипертекста. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Программа скачивает на диск поискового сервера содержимое исследуемых страниц. Каждая скачанная страница сохраняется в следующем формате:

URL страницы
дата, когда страница была скачана
http-заголовок ответа сервера
тело страницы (гипертекст документа)

2. Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе и добавляет их в список ожидающих индексации. .

3. Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбивает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные элементы текста и т.д. Для этого он составляет “словарь” странички, запоминает “частоту” использования слов. Особо отмечает ключевые слова, используемые в заголовках, выделенные в тексте жирным шрифтом. Помещает все это в особый файл - “индекс”.

Роботы образуют модуль сканирования, который позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов. Модуль сканирования определяет какие из них стоит посещать и отдает соответствующие ссылки обратно сетевым роботам. Этот выбор напрямую зависит от направленности поисковой системы. Например, стратегия сканирования одной ПС может быть направлена на посещение как можно большего числа сайтов, "не зарываясь" при этом вглубь сайтов, в то время как другая ПС ориентирована на страницы определенного домена.

Собранные роботами документы складываются в хранилище. Хранилище содержит большое количество объектов данных (Веб-страниц) и в этом смысле очень похоже на СУБД или файловую систему. Однако, многие возможности этих систем в этом случае совершено не нужны (например, транзакции или иерархия директорий), зато очень важны другие: масштабируемость, эффективная поддержка двух режимов доступа: случайного - для того, чтобы быстро найти конкретную страницу по ее идентификатору (например, для создания копии страницы из кэша ПС), и потокового - для того, чтобы вынуть значительную часть всей коллекции (например, для индексирования или анализа), эффективная поддержка обновлений, сборка мусора (устаревших страниц).

Для повышения эффективности поиска используются индексные структуры. За создание этих структур отвечает модуль индексирования. Кроме текстовых индексов, часто дополнительно строятся структурный и вспомогательный индексы. В структурном индексе описывается структура графа WWW, и эта информация может быть полезна модулю стратегии сканирования. Во вспомогательном индексе хранится любая другая нужная конкретной ПС информация, которая, как правило, используется для ранжирования результатов поиска, например, размер Веб-страниц, количество используемых графических изображений.

Получение и выполнение запросов пользователей - это задача модуля поисковая машина. В основном, поиск осуществляется по индексным структурам, но может - и напрямую по документам в хранилище. Информацию о том, какие ресурсы наиболее часто посещаемы пользователями, поисковая машина передает модулю сканирования.

В силу перечисленных выше особенностей очень важной задачей в контексте Internet является упорядочивание результатов поиска так, чтобы первыми оказались те результаты, которые вероятнее всего интересны для пользователя. За этот процесс отвечает модуль ранжирования. Классические подходы к ранжированию опираются на меру схожести текста запроса и текста документа - релевантность, но "расплывчатые" запросы пользователей и огромное количество документов значительно понижают эффективность таких подходов в контексте Internet. Более того, никем не контролируемая публикация в Internet позволяет нечестно повышать ранг собственной страницы в результатах поиска (например, заполняя ее "белым по белому"' ключевыми словами).

Поэтому гораздо более перспективным оказалось использовать в дополнение к релевантности еще и меру важности (полезности, популярности) Веб-страницы при ранжировании результатов поиска. Типичным примером такой метрики является индекс цитирования, т.е. количество ссылок на данную страницу, который довольно популярен в библиометрии. Однако опять ссылки в Internet сильно отличаются от ссылок в печатной литературе, и ничто не мешает автору Веб-страницы создать кучу пустых страниц, ссылающихся на данную. Поэтому необходимо учитывать важность и ссылающихся страниц.

Первым и наиболее известным расширением индекса цитирования в Internet стала метрика PageRank, названная именем одного из основателей поисковой системы Google (http://www.google.com) и реализованная в ней. Различают классическую и тулбарную модели представления PageRank. В этих представлениях учитыватся кроме количества ссылок на данную страницу (именно страницу) других сайтов, но и PageRank этих сайтов.

Еще одним примером модифицированного индекса цитирования в WWW является тематический индекс цитирования (тИЦ) в поисковой системе Яндекс (http://www.yandex.ru). Тематический индекс цитирования определяет «авторитетность» интернет-ресурсов с учетом качественной характеристики ссылок на них с других сайтов. Эту качественная характеристика называется «весом» ссылки. Рассчитывается она по специально разработанному алгоритму. Большую роль играет тематическая близость ресурса и ссылающихся на него сайтов. Само по себе количество ссылок на ресурс также влияет на значение его тИЦ, но тИЦ определяется не количеством ссылок, а суммой их весов.

Другой популярной метрикой определения важности Веб-страницы является HITS (Hyperlink-Induced Topic Search). В рамках модели HITS предполагается, что важность страницы зависит от запроса, т.к. в разных тематических сообществах - разные авторитеты. Если предположить, что информация по теме может распределиться примерно поровну между страницами с хорошим информационным наполнением по теме, называемыми «авторитетами» (authority), и страницами, напоминающими каталоги, с множеством ссылок на другие страницы, посвященные данной теме, называемыми «концентраторами» (hub), то поиск документов по заданной теме на базе гиперссылок (Hyperlink-Induced Topic Search) пытается выявить хорошие концентраторы и авторитеты. Алгоритм итеративно вычисляет показатель концентрации и авторитетности для каждого узла, а затем упорядочивает узлы в соответствии с этими показателями. Узлы, имеющие высокие показатели авторитетности должны быть хорошими авторитетами, а узлы с высокими показателями концентрации должны быть хорошими концентраторами. Алгоритм исходит из того, что документ, ссылающийся на большое число других документов, - хороший концентратор, а документ, на который указывает множество других документов, - хороший авторитет. Рекурсивно документ, который указывает на большое число хороших авторитетов, - еще лучший концентратор, а документ, на который ссылается множество хороших концентраторов, - еще лучший авторитет. Поэтому HITS вычисляется локально для каждого запроса. Примером поисковой системы, использующей HITS является Teoma (http://www.teoma.com).

Описанная выше архитектура ПС для WWW не является единственно возможной. Возможны альтернативные варианты.

1. Распределенные ПС. Для решения проблемы масштабируемости ПС используется распределенная архитектура (распределенная ПС). Этот подход активно исследовался как в контексте классических ПС, так и в контексте поисковых систем для WWW. В рамках такой архитектуры поиск производится по виртуально единому индексу, который физически распределен по ряду серверов. Эффективная система должна выполнять запросы, не производя поиск во всех частях индекса, стараясь искать только там, где действительно содержится ответ. Возможность оптимального решения зависит от принципов разбиения индекса на части, которые очень важны в контексте Интернет, где информация о документах, а как следствие, и индексы, меняются очень часто. В распределенной ПС для WWW пополнение и поддержка разных частей индекса может выполняться разными роботами, и то, насколько они будут эффективны, также зависит от принципов разбиения индекса.

2. Метапоисковая система - это система, которая предоставляет единый доступ к нескольким другим поисковым системам, т.е. обслуживает запросы пользователей за счет опрашивания других поисковых систем, которые полностью независимы и не предоставляют никакой специальной информации о содержимом своих индексов или используемых методах поиска. Такие системы популярны в силу ряда причин:

Повышение полноты охвата. Ни одна поисковая система не имеет полного покрытия WWW, и использование нескольких поисковых систем повышает вероятность обнаружения искомого документа. Хотя полнота ответа не является очень популярным критерием оценки эффективности поиска в WWW, для некоторых задач, в частности, при составлении обзора, она очень важна.
Повышение качества поиска. Наиболее типичный способ - выбор тех поисковых систем, которые лучше всего соответствуют текущим потребностям пользователя. Например, это может быть использование специализированной поисковой системы вместо поисковой системы общего назначения.
Новые возможности поиска. Крупномасштабная поисковая система, такая как Яндекс или Google, не может тратить много ресурсов, прежде всего, времени, на обработку каждого отдельного запроса из-за их огромного количества, иначе системе не достичь массового использования. Метапоисковые системы не имеют такого ограничения и могут фокусироваться на решении специализированных задач поиска, ориентированных на узкую целевую аудиторию. Все это облегчает внедрение новых методов поиска, поскольку дает возможность проверить их эффективность без реализации полноценной поисковой системы.

За время существования поисковых машин выработался стандарт выдачи пользователю страниц результатов поиска. Каждый результат поиска содержит:

Заголовок найденной страницы.
Отрывок из текста страницы, по которому видно, в каком окружении (контексте) используются нужные нам слова. Искомые слова в нем, как правило, выделены жирным шрифтом или отличаются по цвету от основного текста.
Полный URL ” - адрес страницы в сети.
Размер страницы, дата последнего изменения (если поисковая машина в состоянии ее определить).
Ссылка на копию страницы в хранилище поисковой машины. Если документ был изменен или сайт временно не работает, то сохраненная в хранилище поисковой машины копия вам все равно дает возможность ознакомиться с найденным документом.
“Похожие документы”. Некоторые поисковики анализируют содержание найденных по запросу страниц и группируют их по своим, внутренним критериям. Например, по близости словарей страниц, по одинаковым заголовкам, по совпадениям фраз, по количеству синонимов.
Рубрику каталога или рейтинга поисковой машины (если сайт участвует в каталоге или рейтинге)

Проверьте усвоение Предыдущий раздел Следующий раздел Оглавление