Олимпиада по ИИ 2019–2020. Финал

Олимпиада по ИИ 2019–2020. Финал

Что происходило на финале?

В течение двух дней участникам нужно было создать рекомендательную систему, которая помогала бы клиентам Сбербанка интересно и познавательно проводить выходные. Для этого Банк вместе с компаниями Экосистемы может рассказать про разные развлекательные мероприятия (кино, театр, выставки, спортивные мероприятия и прочее), но важно выбрать что-то одно, что максимально релевантно клиенту, и донести ему это.

Условие задачи

Твоя задача предсказать вероятность совершения покупки клиентом в определенных 8-ми категориях в следующие 7 дней, чтобы под них Банк смог направить релевантный контент (подборки).

Для подготовки предсказания у тебя есть данные по транзакциям 50 000 клиентов в течение года, из которых 25 000 – в обучающей выборке и 25 000 – в тестовой. Твоя задача для тестовой выборки рассчитать для каждой из целевой категории вероятность совершения покупки в ней на следующей неделе.

Данные

Обучающий (transactions_train.csv) и тестовый (transactions_test.csv) датасеты идентичны и содержат информацию по транзакциям 25 000 уникальных клиентов каждый в следующем формате:

  • сlient_dk – уникальный номер клиента;
  • trans_date – дата транзакции (представляет из себя номер дня в хронологическом порядке, начиная от заданной даты);
  • small_group – группа транзакций, характеризующих тип транзакции (например, продуктовые магазины, одежда, заправки, детские товары и т.п.);
  • amount – сумма транзакции в условных единицах.

Для обучающего набора в файле с правильными ответами (train_target.csv) находится таблица размера 25000x9, содержащая следующие поля:

  • client_dk – уникальный номер клиента (соответствует client_dk из файла transactions_train.csv);
  • колонки с числовыми названиями 27, 32, 41, 45, 67, 73, 81, 88 – это 8 целевых категорий продуктов (описание категорий в файле small_gr_dict.xlsx);
  • значения в колонках с категориями бинарные: 0 – на следующей неделе не было совершено покупок в данной категории, 1 - покупка была совершена.

Формат решений

Качество вашей рекомендательной системы будет считаться на базе \(averageROC_{AUC}\):

\[averageROC\ = \sum_{i=1}^8 {ROC_{AUCi} \over 8},\] где \(ROC_{AUCi}\) – усредненный \(ROC_{AUC}\) по каждой из 8-ми категорий (т.е. по каждой категории вначале считается \(ROC_{AUC}\) по всем Клиентам, а затем они суммируются и усредняются на кол-во категорий).

Участникам нужно было подготовить файл test.csv, имеющий структуру, идентичную train_target.csv (25 000 Клиентов с client_dk и 8 категорий – итого 9 столбцов), заполнив для каждого клиента вероятности покупки в каждой из указанных выше категорий.

Наверх