Top.Mail.Ru
Terms of participation

TASK

The task for the teams is to create a system that automatically identifies and provides an explanation for the semantic errors, in a near real-time mode (no more than 30 seconds per essay), in texts in the essay genre (volume no more than 12,000 characters) of the following types:
Типы детектируемых ошибок
The topic of the essay is not covered
Типы детектируемых ошибок
Breaks in logic, conclusions do not follow from arguments
Типы детектируемых ошибок
Inappropriate comparisons and metaphors
Типы детектируемых ошибок
Factual errors
The technical regulations of the competition, the assessment methodology, examples of essays, marked out in accordance with the methodology, the technical characteristics of the platform will be published in late winter and early spring 2020. Register to stay informed/

How to take part

To   participation are invited Russian and   foreign legal and   individuals, and   also their   associations that form a team from   2   to   10   people.
A member of the team can be any adult individual.
  1. View   Tender Documentation
  2. Fill out an application for   participation in   competition
  3. Get approval and   status « Member »
  4. To propose a solution to the task of the qualification (correspondence) stage
  5. Get an invitation to the   final (full-time) stage
  6. Take part in the   final event and   become a winner by developing the best intelligent solution for processing natural language.
Participants are not   limited in   choosing the software used and   computing power.

Rating system

Обработка решения

CONTEST TIMELINE

Contest is held until December 2022 and is divided into cycles. Each cycle consists of registration, qualification and final stages.
If the technological barrier is not overcome in the current cycle, the next one is launched.
First cycle took place in November 2020. As no team could solve the task, the contest continues with the 2nd cycle to be launched in autumn 2021.
Registration is available anytime.

FAQ

Конкурс уже стартовал? Сколько продлится отборочный этап?

Технологический конкурс Up Great ПРО//ЧТЕНИЕ объявлен в декабре 2019 года. Конкурс разделен на несколько циклов испытаний. Каждый цикл состоит из этапа приема заявок, квалификации, т.е. допуска к испытаниям, и непосредственно самих испытаний. Первый цикл планируется завершить уже к концу 2020 года.

Квалификация первого цикла конкурса пройдет с 1 октября по 2 ноября и будет общей для русскоязычных и англоязычных текстов. В этот период для получения допуска к испытаниям зарегистрированные участники должны будут скачать тексты тестовой выборки квалификации через API, разметить их без ошибок в синтаксисе и загрузить все файлы обратно.

9 ноября пройдут первые испытания конкурса для русскоязычных текстов. Задача испытаний – выявить в течение ограниченного времени (не более 30 секунд в среднем на одно эссе) и аннотировать все ошибки на уровне экспертов-преподавателей. 16 ноября состоятся испытания для англоязычных текстов.

Подведение итогов первого цикла конкурса запланировано на декабрь 2020 года.

Испытания будут повторяться регулярно до тех пор, пока не будет выявлен победитель, но не позднее декабря 2022 года. Прием заявок на квалификацию первого цикла завершится 29 октября, после чего стартует прием заявок на участие во втором цикле конкурса.
Из каких этапов состоят испытания?

Испытания пройдут в несколько этапов:

1. Технический. Участники подключаются к серверу, скачивают датасет, ищут ошибки и загружают обратно.

2. Основной. Участники получают новые сочинения, которые не публиковались ранее и которые не видели преподаватели. Они делают разметку и загружают обратно.

3. Проверка. Технический этап, в рамках которого техническая комиссия и судейская коллегия проверяют результаты работы команд, сами эссе и сочинения для объективного определения ошибок и уровня технологического барьера. Результаты экспертов автоматически сравниваются с решениями команд.

4. Объявление результатов.

Есть ли ограничения по количеству данных и требуемому железу?
Ограничений не ставится, команды могут использовать то оборудование и данные, которые посчитают необходимым.
Сколько дается данных? Как это будет оцениваться?

Первые данные (эссе и сочинения) размещены в разделе Датасеты. Команды имеют право обучать свои решения на любых других данных, оценивается только конечный результат.

Оцениваться будет путем сравнения со средним количеством ошибок, которые живой эксперт-преподаватель способен найти в тех же документах в условиях ограниченного времени.

В каком виде предоставляется решение?

Команды подключаются к платформе по API, скачивают txt файлы с простым wiki- или markdown-подобным языком разметки, при помощи которого в тексте отмечают найденные ошибки. После этого отредактированный txt-файл загружается обратно по API и оценивается на платформе программным решением организаторов.

Процедура проведения испытаний прописана в техническом регламенте конкурса.
Я не гражданин РФ. Могу ли я участвовать в конкурсе?
Да, участвовать могут все, независимо от гражданства. Гражданство ограничивает только в получении премии т.к. премия, выплачиваемая за счет средств федерального бюджета, может быть выплачена только налоговым резидентам Российской Федерации. В случае, если победителем или одним из призеров является иностранное юридическое или физическое лицо, не являющееся налоговым резидентом РФ, выплата премии за счет средств федерального бюджета такому участнику не производится, право на получение премии не переходит к другим участникам.
Мне нет 18 лет. Могу я участвовать в конкурсе?
По условиям конкурса участвовать могут только граждане, чей возраст попадает под понятие совершеннолетия или приравненные к нему путем процедуры эмансипации несовершеннолетних, согласно законодательству РФ.
Конкурс до декабря 2022 г., а квалификация до 2 ноября 2020 г. Как так?

Испытания конкурса будут повторяться регулярно до тех пор, пока не будет выявлен победитель, но не позднее декабря 2022 года. Это мы называем «циклами», каждый из которых состоит из квалификации и основных испытаний конкурса.

До 2 ноября проходит квалификация 1-го цикла конкурса.
Где-то можно пообщаться с организаторами и другими участниками конкурса?

Да, мы создали Slack канал #proj_upgreat_readable в сообществе Open Data Science (ODS.ai).

Для тех, кто присоединяется к каналу в Slack необходимо обратить внимание на следующие моменты:

  • для того чтобы вам дали доступ в этот канал необходимо пройти регистрацию на сайте ods.ai при этом при регистрации указать, что вы участник конкурса ПРО//ЧТЕНИЕ;
  • после этого вам на почту придёт одобрение от администратора и при входе в Slack вы будете иметь доступ в сообщество opendatascience.slack.com, в котором и находится канал конкурса #proj_upgreat_readable

И вы всегда можете прислать ваш вопрос нам на почту ai@upgreat.one.
В ходе конкурса обучающая выборка составит десятки тысяч документов. Не считаете ли вы, что этого недостаточно для решения поставленной задачи?

Во-первых, в 2021 году будет запущен краудсорс образовательных текстов с разметкой, который позволит кратно увеличить обучающую выборку.

Во-вторых, действительно, в рамках конкурса необходимо выявить более 100 типов ошибок, некоторые из которых будут встречаться в обучающей выборке редко, поэтому вне зависимости от усилий по расширению обучающей выборки, этого будет недостаточно.
Это означает, что решение задачи потребует творческого подхода и нахождения новых приемов и методов, которые позволят решить проблему недостатка данных: краулинг и обработка школьных сочинений из интернета; использование передовых методик few-shot learning; нахождение нетривиальных приемов и использования профессиональной экспертизы педагогов.
Конечно, такой подход усложняет решение задачи, однако конкурс продолжается более двух лет, а сложность задачи компенсируется размером призового фонда.

Contack information