Ниже вы найдете датасет, состоящий из новостных вырезок, собранных из открытых источников, в которых описано некоторое событие и содержатся именованные сущности. Каждый текст сопровождается предложением с пропуском, где нужно добавить эту именованную сущность из списка вариантов. Эти варианты извлечены из текста и могут повторяться. Правильный выбор, извлеченный из любого места текста, считается правильным, т.е. правильных ответов может быть несколько. Главное, чтобы краткое содержание было осмысленным.
Вам предоставлен датасет из 70000+ текстов, которые представляют собой вырезки из новостей. Все текстовые примеры были собраны из открытых источников, а затем автоматически отфильтрованы с помощью QA-систем, чтобы не допустить проникновения очевидных вопросов в набор данных. Затем тексты были отфильтрованы по частоте IPM содержащихся слов и, наконец, просмотрены вручную.
В архиве доступно 3 файла:
На платформу для проверки нужно загрузить jsonl-файл, в котором указан id вопроса и ответ на него.
Качество решения оценивается по метрике F1.