Семантические модели персонализации поиска в документальных массивах сети Интернет

Семантические модели персонализации поиска в документальных массивах сети Интернет

Харитоненков Андрей Валерьевич,

аспирант Санкт-Петербургского государственного университета культуры и искусств,

менеджер проектов Квестор Ай Ти.

Научный руководитель - доктор технических наук, профессор

Вершинина Лилия Павловна.

В последние годы вербальные поисковые машины стали основными поисковыми инструментами, используемыми для поиска во всемирной сети Интернет и оперативного доступа к необходимой информации. Однако статистика показывает, что примерно в половине случаев поиск в традиционных ИПС интернет не приводит к получению релевантных документов.

Как известно, поиск считается эффективным, когда по запросу пользователя выдается наибольшее количество релевантных документов, таким образом, понятие релевантности является определяющим, когда речь идет о качестве поиска той или иной информации [2].

Однако в настоящее время наблюдается интересная тенденция постепенного перехода от концепции общезначимой релевантности, при которой то, что релевантно для одного человека, релевантно и для другого к индивидуальной релевантности, при которой для одного человека релевантно одно, а для другого – другое.

Именно этим путем идет сегодня компания Google, активно вводящая различные сервисы и инструменты персонализации поиска на своем сайте. Одним из таких механизмов персонализации является инструмент Википоиск. Авторизованный в нем пользователь может настраивать поисковую выдачу под себя, благодаря возможности передвигать наиболее релевантные результаты поиска на верх списка выдачи, удалять нерелевантные, добавлять свои наиболее релевантные варианты и оставлять комментарии. Таким образом, пользователь может сам выбрать, какие результаты поиска его устраивают, а какие нет.

Персонализированные механизмы поиска направлены на решение основных недостатков традиционного контекстного поиска по ключевым словам.

Как известно, булева модель поиска, несмотря на довольно неплохие показатели релевантности, имеет ряд существенных ограничений, которые объективно не могут обеспечить ни точности ответа на запрос в виду наличия омонимии русского языка и отсутствие учета контекста, ни полноты ответа ввиду неоднозначности терминологии, наличии большого ряда синонимов, особенностей морфологии и т.д.

Из всего вышесказанного дадим следующее неформальное определение понятия персонализации, в контексте задач информационного поиска.

Персонализация – это предоставление пользователю индивидуальных, персонализированных результатов выдачи в зависимости от его информационных потребностей, приоритетов, интересов, географического положения, социального положения, возраста и других особенностей.

Пользователи ежедневно задают поисковым системам однотипные запросы и выбирают интересующие их результаты. Вся эта информация о пользовательских информационных потребностях и предпочтениях, так или иначе, собирается поисковыми системами, обобщается и выдается в виде разнообразных статистических данных и рейтингов, например, наиболее популярные запросы, интересы целевой аудитории, рейтинги т.п. Однако это общие данные, не относящиеся к конкретному человеку.

Для обеспечения индивидуальных предпочтений и методик поиска информации речь может идти о некотором агенте, являющемся клиентским прикладным ПО, которое может также встраиваться или дополнять браузер пользователя. Данный агент обеспечивает многосторонний мониторинг предпочтений пользователя [5].

Интеллектуальный агент (система агентов) должен осуществлять мониторинг пользовательских предпочтений в режиме реального времени и выполнять следующий ряд функциональных операций:

· определение слов и комбинации слов, наиболее часто вводимых пользователями в поисковую систему;

· определение и мониторинг предметных областей интересов пользователей;

· разбиение пользователей на группы в зависимости от их информационных потребностей, интересов, территориального положения;

· установление взаимосвязей и зависимостей поисковых запросов с предметными областями интересов пользователей;

· определение типов и видов документов, наиболее часто запрашиваемых пользователями;

Собранная информация помещается в некое хранилище (базу данных) и подвергается математической и статистической обработки. На основе полученных данных создается нечеткий фильтр пользователя, который постоянно дополняется и уточняется.

Нечеткий фильтр определим как набор пользовательских предпочтений, так или иначе определяющий текущие интересы пользователя и позволяющий давать рекомендации и делать прогнозы касательно будущих информационных потребностей пользователя.

Для того, что бы персонализация работала, необходимы методы сбора и оценки статистической информации о пользовательских предпочтениях.

Существуют три большие группы методов, позволяющие оценить предпочтения аудитории:

· коллаборативная фильтрация;

· эвристическое моделирование;

· поведенческий таргетинг.

Кратко рассмотрим данные группы методов.

Коллаборативная фильтрация

Коллаборативная фильтрация представляет собой метод, дающий автоматические прогнозы (фильтрацию) относительно интересов пользователя по собранной информации о вкусах множества пользователей [4].

Принцип метода коллаборативной фильтрации довольно прост:

· создается база однотипных объектов (книги, музыка, фильмы, веб-сайты и т.п.);

· задается шкала оценок (пятибалльная, десятибалльная, стобалльная);

· множество пользователей проставляет оценки данным объектам по своему усмотрению;

· каждый пользователь, проставляя свои оценки, задает тем самым системе свой индивидуальный пользовательский профиль;

· на основе оценок объектов, проставленных всеми пользователями, и соответствия оценок конкретного пользователя оценкам других профилей клиент получает список рекомендуемых к ознакомлению объектов с приблизительной оценкой каждого из них.

Эвристическое моделирование

Метод эвристического моделирования, заключается в том, что создается математическая модель сложной системы на основании гипотезы о ее структуре и функциях [2]. Такая модель фактически является способом увязать в единую систему множество количественной и качественной информации, известной из литературы и собственного опыта. При этом качественную информацию также необходимо представить в виде количественных оценок.

Эвристическая модель в первую очередь позволяет путем сравнения поведения модели и моделируемого объекта в различных условиях проверить непротиворечивость заложенных в модель гипотез и, при необходимости, их скорректировать.

Эвристическое моделирование сходно с коллаборативной фильтрацией, но если прогноз в коллаборативной фильтрации опирается исключительно на факты, то в эвристическом моделировании на первый план выходит построение заранее обусловленной математической модели, а реально получаемые результаты сравниваются с теми, что получены методом математического моделирования.

Эвристическое моделирование хорошо работает там, где коллаборативная фильтрация показывает большую погрешность, а именно на небольшой выборке объектов.

Следующая технология, на которую опирается механизм персонализации - поведенческий таргетинг.

Поведенческий таргетинг

Поведенческий таргетинг по сути представляет собой технологию мониторинга за действиями и предпочтениями пользователя, что позволяет определить интерес потребителя к той или иной информации или услуге. Причем мониторинг, как правило, без участия пользователя, он даже не знает, что о его информационных потребностях и предпочтениях собирается определенная информация. По итогам анализа формируется профиль пользователя, на основании которого ему выдается персонализированная информация, соответствующая его интересам и потребностям [3].

Заключение

В заключение следует отметить, что у рекомендующих персонализированных систем много преимуществ, но самое главное в том, что поиск практически снимает проблему выбора релевантной информации, т.к. помогает всегда выбрать лучшее. Персонализированные инструменты поиска знают о наших информационных потребностях и предпочтениях, а значит, могут предложить интересную, актуальную информацию.

Однако на пути персонализации стоит много пока что не разрешенных проблем. Основная проблема заключается в том, что персонализированные информационные системы, особенно поисковые, допускают возможность эффективного манипулирования мнением отдельно взятого потребителя информации, так как берут на себя часть функций человека по выбору, обработке и фильтрации информации и далеко не всегда этот выбор будет в пользу конечного пользователя.

Необходимо подчеркнуть, что персонализированные механизмы поиска должны применяться комплексно, вместе с традиционным поиском, тогда их эффективность возрастает многократно.

Литература

1. Гаврилова, Т. А. Базы знаний интеллектуальных систем: Учебник для вузов/ Т. А. Гаврилова. – СПБ: Питер, 2001. – 384 с.: ил.

2. Зуев М.Б. Клиент не отвечает или временно не доступен… Интернет-маркетинг: взгляд практиков/ М.Б. Зуев, Д.Е. Разваляев – М: Вершина, 2008. – 248 с.:ил.

3. Ландэ, Д. Поиск знаний в Internet/ Д. Ландэ – СПБ: Диалектика-Вильямс, 2005. – 272 с.: ил.

4. Фонд «Прагматика Культуры» – [электронный ресурс]: исследования в области коллаборативной фильтрации – Режим доступа: http://artpragmatica.ru/rs/, свободный.

5. Агенты и мультиагентные системы [электронный ресурс]: блог с авторскими статьями по интеллектуальным агентам и мультиагентным системам – Режим доступа: http://aivanoff.blogspot.com/, свободный/

Поступила в редакцию 21.09.2009 г.