Олимпиада по ИИ 2020–2021. Финал

Условие задачи

Ниже вы найдете датасет, состоящий из новостных вырезок, собранных из открытых источников, в которых описано некоторое событие и содержатся именованные сущности. Каждый текст сопровождается предложением с пропуском, где нужно добавить эту именованную сущность из списка вариантов. Эти варианты извлечены из текста и могут повторяться. Правильный выбор, извлеченный из любого места текста, считается правильным, т.е. правильных ответов может быть несколько. Главное, чтобы краткое содержание было осмысленным.

Данные

Вам предоставлен датасет из 70000+ текстов, которые представляют собой вырезки из новостей. Все текстовые примеры были собраны из открытых источников, а затем автоматически отфильтрованы с помощью QA-систем, чтобы не допустить проникновения очевидных вопросов в набор данных. Затем тексты были отфильтрованы по частоте IPM содержащихся слов и, наконец, просмотрены вручную.

В архиве доступно 3 файла:

  • train и val – для обучения модели и настройки параметров;
  • test – проверочный файл, в котором нужно сделать предсказание.

Формат решений

На платформу для проверки нужно загрузить jsonl-файл, в котором указан id вопроса и ответ на него.

Качество решения оценивается по метрике F1.

Безлайн от разработчиков доступен по ссылке (задача RuCoS).

Наверх