Олимпиада по ИИ 2020–2021. Финал

Условие задачи

Ниже вы найдете датасет, состоящий из новостных вырезок, собранных из открытых источников, в которых описано некоторое событие и содержатся именованные сущности. Каждый текст сопровождается предложением с пропуском, где нужно добавить эту именованную сущность из списка вариантов. Эти варианты извлечены из текста и могут повторяться. Правильный выбор, извлеченный из любого места текста, считается правильным, т.е. правильных ответов может быть несколько. Главное, чтобы краткое содержание было осмысленным.

Попробовать решить задачу можно здесь

Данные

Вам предоставлен датасет из 70000+ текстов, которые представляют собой вырезки из новостей. Все текстовые примеры были собраны из открытых источников, а затем автоматически отфильтрованы с помощью QA-систем, чтобы не допустить проникновения очевидных вопросов в набор данных. Затем тексты были отфильтрованы по частоте IPM содержащихся слов и, наконец, просмотрены вручную.

В архиве доступно 3 файла:

  • train и val – для обучения модели и настройки параметров;
  • test – проверочный файл, в котором нужно сделать предсказание.

Формат решений

На платформу для проверки нужно загрузить jsonl-файл, в котором указан id вопроса и ответ на него.

Качество решения оценивается по метрике F1.

Безлайн от разработчиков доступен по ссылке (задача RuCoS).

Наверх