Д. т. н. Шумейко А. А., Мелашкин А. В.

Днепродзержинский государственный технический университет, Украина

ИСПОЛЬЗОВАНИЕ CART-ДЕРЕВЬЕВ В РЕКОМЕНДУЮЩИХ СИСТЕМАХ

Цель рекомендующей системы состоит в создании значимых рекомен­даций пользователям относительно набора предметов или продуктов (далее будем использовать термин сервис), которые могут их заинтересовать. Это мо­гут быть предложения книг, товаров или фильмов. Разработка таких рекомен­даций зависит от области и конкретных характеристик данных. Например, фильму на сайте Netflix часто проставляют рейтинги по шкале от 1 (не нра­вится) до 5 (понравилось). Такой источник данных записей позволяет реали­зовать взаимодействие между пользователями и элементами запроса. Кроме того, используя такие атрибуты, как демографические данные и описание про­дукта, система может иметь доступ к конкретному пользователю и пункту кон­кретного профиля. Рекомендующие системы отличаются по способу анализа этих источников данных для исследования связи между пользователями и эле­ментами запроса, которые могут быть использованы для выявления хорошо коррелирующих пар клиент-сервис.

Предложено для построения рекомендующей системы использовать би­нарные деревья решений на основе алгоритма CART. Основой для построения дерева решений является обучающий набор данных, представляющий собой на­бор атрибутов, характеризующий некую сущность и известный исход со­бы­тия, связанный с данной сущностью.

Сегментация осуществляется с целью объединения в группы прецедентов с одинаковыми вероятностями исхода. Сегментация данных происходит путем последовательного дробления пространства данных на области с фиксиро­ван­ными границами. Критериям разделения при построении дерева решений яв­ляется различие в соотношении положительных и отрицательных исходов со­бытий. Обучение прекращается, когда дальнейшее дробление на более мелкие группы не приводит к значимому различию этого соотношения. Предпо­ла­гается, что обучающая выборка является репрезентативной и, с определенной погрешностью, может прогнозировать исход для новых наборов данных.

В процессе роста дерева алгоритм CART проводит для каждого узла пол­ный перебор всех атрибутов, на основе которых может быть построено разбие­ние, и выбирает тот, который максимизирует значение показателя

Формула

где s – идентификатор разбиения, t – идентификатор узла, tL и tR – левый и пра­ вый потомки узла t соответственно, PL и PR – отношение числа примеров в ле­ вом и правом потомках к их общему числу в обучающем множестве, P(i|tL) и P(i|tR) – отношение числа примеров класса i в левом и правом потомках к их общему числу в каждом из них.

Преимущества использования дерева построения решений в том, что ал­горитм расчёта позволяет задать показатели для принятия решений. В однойклиентской группе более важен вид занятости и возраст, в другой – доход, в тре­тьей – имеет ли клиент кредит в банке.