Для решения задачи участникам была предоставлена информация о транзакциях клиентов банка, объемом около 27 000 000 миллионов записей.
Каждая запись описывает одну банковскую транзакцию. Для каждого из ≈20 000 тестовых id, участникам было нужно с помощью обученной модели предсказать, в какую из возрастных групп попадает клиент.
Были подготовлены два набора данных:
На базе данных файлов можно строить различные признаки, которые характеризуют возрастные группы.
Целевая переменная для обучающего датасета находится в файле train_target.csv. В нем содержится информация о Клиенте и метка возрастной группы, к которой он относится:
Участникам также был предоставлен информационный файл small_group_description.csv, который содержит расшифровку типов транзакций.
Для каждого примера из тестового набора было необходимо предсказать возрастную группу, к которой относится клиент. В систему предоставлялся для проверки CSV-файл с предсказаниями, он должен был содержать две колонки:
Задача представляет из себя мультиклассовую классификацию (4 класса – от 0 до 3). Качество решения считается как доля верно угаданных меток возраста по всем тестовым примерам –accuracy.
Для решения удобнее всего использовать язык программирования Python, так как для него есть большое число библиотек для анализа данных: NumPy, Pandas, SciKit-Learn и другие. В качестве инструмента разработки – интерактивную среду Jupyter.
Участникам также был доступен базовый пример решения от организаторов в виде Jupyter-notebook’а.