Олимпиада по ИИ 2020-2021. Онлайн-этап

Подобные вопросно-ответные системы используются для автоматизации колл-центров и сервисов клиентской поддержки, в чат-ботах и поисковых машинах. Подробнее об AGI-based вопросно-ответных системах, их использовании и методах построения смотри в вебинаре от разработчиков задачи.

Условие задачи

Ниже вы найдете набор данных, состоящий из текстов и вопросов к ним с разными вариантами ответа. Ваша задача: написать алгоритм, который определит, какие из ответов верные.

Основные принципы:

  • Ответ содержится в нескольких предложениях, а не в одном!
  • Ответ не четко (дословно) прописан в тексте. Полный мэтч ответа в изначальном параграфе найти нельзя.
  • Количество правильных ответов может быть любым.

Данные

Для решения задачи вам предоставлен датасет, в котором около 6 000 вопросов для более чем 800 текстов из 5 разных областей:

  • Тексты начальной школы
  • Новости
  • Художественные тексты
  • Сказки
  • Краткое содержание сериалов

В архиве вы найдете 3 файла:

  • train и val – для обучения модели и настройки параметров;
  • test – проверочный файл, в котором нужно сделать предсказание.

Формат решений

Задача представляет собой бинарную классификацию (True/False).

В систему для проверки необходимо предоставить jsonl-файл с метками ответов: если ответ верен – 1, если нет – 0.

Качество решения определяется, как среднее значение точности и полноты ответов – F1 average.

Также вам доступно базовое решение от разработчиков задачи и вебинары с его разбором: первый и второй.

Наверх