СЕТИ ЭВМ И ТЕХНОЛОГИИ РАСПРЕДЕЛЕННОЙ ОБРАБОТКИ ДАННЫХ.
Основные принципы поиска в информации.
Поисковая система - это программное обеспечение, предоставляющее доступ к коллекции слабоструктурированной информации. Ориентация на слабоструктурированные данные, т.е. данные, которые нельзя представить в виде реляционной таблицы, отличает поисковую систему от СУБД. В данном определении поисковой системы подразумевается информация различного рода, т.е. текст, аудио, видео, изображения и т.п. Однако следует отметить, что именно текстовые данные идеально подходят для описания полной функциональности поисковой системы, т.к. алгоритмы поиска мультимедийной информации, прежде всего, основываются на алгоритмах поиска текста.
Поиск осуществляется тогда, когда в этом возникает потребность. Это информационная потребность часто даже не может быть точно выражена выражена словами, и выражается только в оценке просматриваемых документов - подходит или не подходит. В теории информационного поиска вместо слова "подходит" используют термин "пертинентный документ", а вместо слова "не подходит" - "не пертинентный документ". Субъективно понимаемая цель поиска - найти все пертинентные и только пертинентные документы. Эта цель недостижима.
Мы часто в состоянии оценить пертинентность документа только в сравнении с другими документами. Для этого необходимо некоторое количество непертинентных документов. Эти документы называются - "шум". Слишком большой шум затрудняет выделение пертинентных документов, слишком малый - не дает уверенности в том, что найдено достаточное количество пертинентных документов. Практика показывает, что когда количество непертинентных документов лежит в пределах от 10% до 30%, ищущий чувствует себя комфортно, считая, что количество найденных документов - удовлетворительно. Когда документов много, используется информационно-поисковая система (ИПС). Для общения с ИПС информационная потребность должна быть выражена средствами, которая эта ИПС "понимает" - должен быть сформулирован запрос. Однако, запрос редко может точно выразить информационную потребность. Многие ИПС по разным причинам не могут определить, соответствует ли тот или иной документ запросу. Степень соответствия документа запросу называется релевантностью. Релевантный документ может оказаться непертинентным и наоборот. Например, в случае, когда ищется информация о шлюпочных якорях (кошках), запрос, состоящий из слова "кошка", почти в любой ИПС даст массу релевантных, но непертинентной документов.
Основная задача поисковой системы - минимизировать время, затрачиваемое пользователем на поиск релевантной запросу информации. Традиционно к поисковой системе применяют две основные характеристики: точность и полнота, а точнее, их зависимость. Каждый раз, когда пользователь задает системе запрос, тем самым инициализируя поиск, все документы в коллекции поисковой системы делятся на четыре части, как это показано ниже
Тогда точность и полнота поиска определяются следующим образом:
Prec=n/N
Rec=n/M ,
где Prec - точность;
n - число найденных релевантных документов;
N - общее число найденных документов;
Rec - полнота;
M - общее число релевантных документов.
Точность определяет один аспект поиска, а именно, насколько хорошо поисковая система способна минимизировать время, затрачиваемое пользователем на поиск релевантной данному запросу информации. Например, если по запросу "Красная площадь" находится 150 документов, в 70 из них содержится словосочетание "Красная площадь", а в остальных просто присутствуют эти слова ("красная баба кричала на всю площадь"), то точность поиска считается равной 70/150 (~0,5). Чем точнее поиск, тем быстрее пользователь находит нужные ему документы, тем меньше "мусора" среди них встречается, тем реже найденные документы не соответствуют запросу.Полнота определяет другой аспект - насколько хорошо система способна найти релевантную данному запросу информацию.
Например, если в сети Интернет имеется 100 страниц, содержащих словосочетание "Красная площадь", а по соответствующему запросу было найдено всего 70 из них, то полнота поиска будет 0,7. Чем полнее поиск, тем больше вероятность, что пользователь сможет найти нужный ему документ, при условии, что он вообще существует в Интернете.Можно подобрать оптимальный запрос(ы), когда каждый найденный документ будет релевантным, и каждый релевантный документ будет найден. Кривая "точность/полнота" для оптимального запроса изображена на рисунке слева, однако для распределения реальных запросов эта кривая для большинства поисковых систем имеет вид, изображенный справа:
Классическая поисковая система состоит из следующих функциональных модулей, совокупность которых и обеспечивает выполнение ее основной задачи:
Нормализация документа - Как только новый документ попадает в систему, его нужно распознать и привести к виду, являющимся стандартом для данной поисковой системы.
Индексирование - для достижения приемлемой эффективности поиск производится не напрямую по документам в коллекции, а по информации о них в избыточной индексной структуре. Существует несколько способов индексирования текстов: инвертированный файл, файл сигнатур, хэширование, различные виды деревьев для многомерного индексирования и т.п.
Поиск - получение и выполнение запросов пользователей. Ранжирование результатов поиска, как правило, основывается на степени релевантности документа запросу. Однако возможно использование других критериев (таких как новизна документа).
Любое расширение основной задачи поисковой системы ведет к надстройке описанного выше каркаса. Вот лишь некоторые виды дополнительной функциональности, которые может включать в себя поисковая система:
Фактографический поиск - В фактографическом поиске пользователь заинтересован не просто в обнаружении информации на тему, а в обнаружении конкретного ответа на его вопрос, например: "Кто был первым космонавтом?". Обеспечение такой функциональности поисковой системой подразумевает обработку вопроса на естественном языке, его переформулировку в стандартные запросы для данной системы, нахождение документа, содержащего нужный фрагмент и извлечение ответа.
Персонализация - Использование информации о специфике конкретного пользователя дает возможность лучше обслужить его потребности. Другими словами, при выполнении запросов пользователя можно учитывать информацию о контексте пользователя. В этот контекст могут входить как явно указанные пользователем предпочтения, так и информация, полученная на основе анализа его предыдущего поведения (запросов, просмотренных документов и т.п.).
Уточнение запросов - Пользователь не всегда способен хорошо сформулировать запрос, поэтому его уточнение может значительно повысить качество поиска. Одним из наиболее известных подходов к уточнению запросов является их расширение за счет добавления новых термов. Это расширение может осуществляться как при помощи пользователя, например, на основе механизма обратной связи (кнопка "найти похожие документы"), так и полностью автоматически, например, путем анализа локального контекста.
Поиск по категориям - Поиск по категориям является типичным примером сужения области поиска для повышения его качества. Самым распространенным подходом является предоставление пользователю составленной иерархии проиндексированных системой документов, например, по тематическому признаку. Другие подходы основываются на расширении запроса пользователя и фильтрации результатов поиска согласно желаемой категории.
Проверьте усвоение Предыдущий раздел Следующий раздел Оглавление