ИСПОЛЬЗОВАНИЕ CART-ДЕРЕВЬЕВ В РЕКОМЕНДУЮЩИХ СИСТЕМАХ

Д. т. н. Шумейко А. А., Мелашкин А. В.

Днепродзержинский государственный технический университет, Украина

ИСПОЛЬЗОВАНИЕ CART-ДЕРЕВЬЕВ В РЕКОМЕНДУЮЩИХ СИСТЕМАХ

Цель рекомендующей системы состоит в создании значимых рекомендаций пользователям относительно набора предметов или продуктов (далее будем использовать термин сервис), которые могут их заинтересовать. Это могут быть предложения книг, товаров или фильмов. Разработка таких рекомендаций зависит от области и конкретных характеристик данных. Например, фильму на сайте Netflix часто проставляют рейтинги по шкале от 1 (не нравится) до 5 (понравилось). Такой источник данных записей позволяет реализовать взаимодействие между пользователями и элементами запроса. Кроме того, используя такие атрибуты, как демографические данные и описание продукта, система может иметь доступ к конкретному пользователю и пункту конкретного профиля. Рекомендующие системы отличаются по способу анализа этих источников данных для исследования связи между пользователями и элементами запроса, которые могут быть использованы для выявления хорошо коррелирующих пар клиент-сервис.

Предложено для построения рекомендующей системы использовать бинарные деревья решений на основе алгоритма CART. Основой для построения дерева решений является обучающий набор данных, представляющий собой набор атрибутов, характеризующий некую сущность и известный исход события, связанный с данной сущностью.

Сегментация осуществляется с целью объединения в группы прецедентов с одинаковыми вероятностями исхода. Сегментация данных происходит путем последовательного дробления пространства данных на области с фиксированными границами. Критериям разделения при построении дерева решений является различие в соотношении положительных и отрицательных исходов событий. Обучение прекращается, когда дальнейшее дробление на более мелкие группы не приводит к значимому различию этого соотношения. Предполагается, что обучающая выборка является репрезентативной и, с определенной погрешностью, может прогнозировать исход для новых наборов данных.

В процессе роста дерева алгоритм CART проводит для каждого узла полный перебор всех атрибутов, на основе которых может быть построено разбиение, и выбирает тот, который максимизирует значение показателя

Формула

где s – идентификатор разбиения, t – идентификатор узла, tL и tR – левый и пра вый потомки узла t соответственно, PL и PR – отношение числа примеров в ле вом и правом потомках к их общему числу в обучающем множестве, P(i|tL) и P(i|tR) – отношение числа примеров класса i в левом и правом потомках к их общему числу в каждом из них.

Преимущества использования дерева построения решений в том, что алгоритм расчёта позволяет задать показатели для принятия решений. В однойклиентской группе более важен вид занятости и возраст, в другой – доход, в третьей – имеет ли клиент кредит в банке.