Безусловный плюс к авторитету
Как винницкий профессор стал первым украинцем, получившим звание мастера датасетов от платформы Kaggle, и почему это важнее для студентов, чем для преподавателейВ январе этого года заведующий кафедрой системного анализа и информационных технологий Винницкого национального технического университета профессор Виталий Мокин получил звание Kaggle Datasets Master (https://www.kaggle.com/ vbmokin). В этой номинации в мире только 16 гроссмейстеров и 46 мастеров, среди которых из Украины — только винничанин. Виталий Мокин рассказывает, что платформа Kaggle принадлежит корпорации Googlе. На ней разные компании дают свои задания по анализу данных широким кругам специалистов по всему миру. А предлагаемые решения иногда имеют составляющие элементы более эффективные, чем решения своих специалистов этих компаний. Следовательно, система имеет двойную выгоду: серьезные специалисты мирового уровня принимают участие в соревнованиях, чтобы выиграть солидный призовой фонд и продемонстрировать свои лучшие решения, а компании практически «на халяву» получают сотни, тысячи методик на реальных данных по бизнесу. С другой стороны, система Kaggle позволяет предлагать собственные обучающие Notebooks-программы, а еще бесплатно предоставляет возможности для обучения студентов и аспирантов, что и использует профессор в своей деятельности. Признается, что сейчас студентов трудно поразить учеными званиями или заслугами, не говоря уже о ведущих IТ-специалистах, у которых зарплаты в разы выше от преподавательских, но когда и первые, и вторые узнают о рейтинге профессора в Kaggle, то он сразу вырастает в их глазах.
«Kaggle — это сообщество специалистов по Data Science. Здесь можно писать и разбирать чужие прогнозные модели, участвовать в соревнованиях, общаться с дата-сайнтистами, выполнять лабораторные задания. Сервис полностью бесплатный. И когда меня родители студентов спрашивают, какой ноутбук им лучше купить для обучения, я рекомендую просто удобный, а дальше — зарегистрироваться в Kaggle, потому что для работы на платформе нужен только компьютер и доступ к интернету, все остальное можно делать в облаке. Система не только помогает в обучении, но автоматически формирует твой профиль. А при трудоустройстве и при отсутствии опыта работы в реальных коммерческих IТ-проектах многие компании обращают внимание на место претендента в рейтинге Kaggle, — рассказывает Виталий Мокин. — Если у вас уже есть опыт, то вы сможете участвовать в соревнованиях по исследованию данных — в одиночку или командой решать задачи. Однако опытные специалисты соревнуются не только из интереса: призеры соревнований получают денежные призы, становятся известны в сообществе, их приглашают на престижные позиции. Например, в прошлом году был конкурс от Amazon, Facebook, Microsoft и ряда компаний с призовым фондом 1 млн долларов. Задача заключалась в том, чтобы распознать фейковость видео, то есть оно синтезировано на компьютере или реально. И парень из Беларуси предложил лучшее решение с внедрением искусственного интеллекта и получил приз 500 тыс. долларов. Есть и украинцы, получавшие денежные призы в Kaggle.
С другой стороны, бывают тренировочные датасеты или обучающие программы. Например, Microsoft дает 9 миллионов компьютеров с известными в них 80 параметрами: какой у вас язык, есть ли антивирусник, лицензия, драйверы, город, страна, штат — то есть все то, что о вас может рассказать операционная система вашего компьютера. И задача: был ли обнаружен вирус или нет? Это бинарный признак, и искусственный интеллект хорошо работает на эти цели. Сложнее, когда нужно сделать прогноз — рост курса валюты, количество новых больных. Здесь погрешность может быть больше. Но стоит сказать, что получить высокий общий рейтинг или попасть в топ-10 на соревновании или тренировке очень тяжело. Это ежедневный кропотливый труд, тестирование разных моделей, параметров, комбинаций, подходов и т.д.».
«СОБРАТЬ ЗОЛОТЫЕ МЕДАЛИ В ОДНОЙ СЕМЬЕ ВО ВСЕХ НОМИНАЦИЯХ»
Пользователи Kaggle могут зарабатывать баллы и улучшать свой рейтинг в четырех категориях (номинациях). Первая — это соревнования, которые могут быть разнообразными: от простого задания по предсказанию, выживет или не выживет каждый пассажир на «Титанике», до прогноза роста или падения, счетов матчей или программ управления беспилотными дронами и т.д. Вторая — это программы, то есть наработка научно-учебных программ, которыми можно делиться с сообществом, запуская их в Kaggle Notebooks — облачной вычислительной среде. Третья — это наборы данных, помогающие другим датасайнтистам, выкладывая новые данные для совместного использования. Четвертая — обсуждение типа форума, где пользователи обсуждают задания и делятся лучшими решениями, а также оценивают сообщения других пользователей. Кроме того, существуют уровни среди пользователей: только зарегистрировавшийся новичок; участник — принял участие в соревновании и разместил один скрипт; эксперт — выполнил внушительный объем работ в Kaggle в одной или нескольких отраслях знаний и заработал бронзовые медали. Для каждой из категорий требуется разное количество медалей, именно от их количества зависит звание мастера, а еще больше грандмастер — это самый высокий уровень, который предоставляется при многих отличных результатах на соревнованиях, популярных программных кодах или полезных наборов данных. Однако баллы со временем теряют свою ценность, что позволяет в общем рейтинге оставаться актуальным, а пользователям постоянно быть в тонусе, говорит Виталий Мокин.
«Для того чтобы получить звание Kaggle Datasets Master, как у меня, следует иметь минимум одну золотую медаль и четыре серебряных (или золотых). У меня уже давно было 10 серебряных медалей за мои датасеты для задач, связанных с моделированием распространения коронавируса, с реальными данными по качеству воды и атмосферного воздуха в Украине, для NLP-задач и моделирования временных рядов и прочее, но в январе наконец-то набежало «золото» за датасет 2019 года по концентрации аммония в воде реки Южный Буг по данным государственного мониторинга в Украине. По этому датасету я и другие участники, в т.ч. наших специальностей 124 и 126, уже написали 38 ноутбуков. Год назад он добавил в него свежие данные. Несомненно, его популярности способствовало то, что я его использовал в качестве примера данных для разных обучающих Notebooks, по которым я писал видео в свой YouTube-канал «Курс AI-ML-DS Training на Python», — отмечает профессор. — Интересно и другое: полученная мною золотая медаль в номинации разработчиков ноутбуков позволила нам с братом Александром Мокиным собрать золотые медали в одной семье во всех номинациях — пожалуй, тоже впервые в Украине. Мой брат три года назад получил золотую медаль в конкурсе по распознаванию изображений. По-видимому, он был первым профессором из Украины, кто это сделал. А у меня есть золотые медали во всех других номинациях: одна золотая у Datasets, 20 в Codes (Notebooks) и 11 в Discussion. Надеюсь, что мои достижения «подстегнут» аспирантов нашей кафедры и студентов набирать свой рейтинг активнее».
«СТУДЕНТЫ ВЫПОЛНЯЮТ ЗАДАНИЯ НЕПОСРЕДСТВЕННО В ОБЛАКЕ»
Виталий Мокин вспоминает, как в прошлом году аспирант его кафедры Ярослав Исаенков, увидев новость о том, что профессор в октябре 2020 года стал первым в Украине и получил звание Kaggle Notebooks Grandmaster в номинации разработчиков ноутбуков в сфере искусственного интеллекта и Data Science, вдохновился таким примером и через несколько недель повторил профессорский успех. Теперь, не без гордости в голосе говорит Виталий Мокин, кафедра САИТ факультета интеллектуальных IТ и автоматизации Винницкого политеха, самого титулованного на планете по этому критерию, имеет сразу два Kaggle-гроссмейстера по разработке ноутбуков из 68 на планете и из трех в Украине.
«Следующая моя цель — превратить четыре из девяти серебряных медалей в золото, что сразу сделает меня гроссмейстером в этой номинации. Подобный потенциал имеют мои датасеты в сфере временных рядов (коронавирус, состояние окружающей среды) и в сфере NLP. Есть и другие идеи. Некоторые датасеты у меня — со студентами и аспирантами. Такой опыт интересен и полезен для них, поскольку интересно не только создавать датасет, но и писать интересные и полезные обществу публичные ноутбуки на основе их данных, — продолжает Виталий Мокин. — Кроме того, Kaggle не только приглашает компании давать свои датасеты, но позволяет пользователям проводить свои конкурсы. Я, в частности, организовывал конкурс для своих студентов по определению качества воды в реке Южный Буг по данным мониторинга восьми станций. Надо было по показателям на первых семи станциях спрогнозировать качество воды в восьмой — у водозабора Винницаводоканала. Купил для призов наушники с микрофоном, и студенты участвовали, даже один португалец присоединился. Ведь конкурс открытый, все правила по-английски, то есть это доступно для всех, и каждый может приобщиться. Кроме того, систему и ее облачный сервис можно использовать под учебные цели, что я и делаю. Мои студенты выполняют задачи прямо в облаке, я могу зайти и посмотреть, что и кто делает. Kaggle позволяет использовать доступные наработки кода, сейчас никто не пишет с нуля, а это в разы ускоряет поиск решения. Другой вопрос, что не все в Украине, в частности, в научных кругах, знают об этой платформе и о том, как она котируется в мире, а в IТ-секторе — наоборот. Когда говоришь, что ты занимаешь 12-15 место на планете в рейтинге разработчиков Notebooks, это производит впечатление, и не только на студентов, но и на владельцев IТ-компаний».
«Я ИМ РАССКАЗЫВАЮ ТО, ЧТО НА КУРСАХ ДАЮТ ЗА НЕСКОЛЬКО ТЫСЯЧ ДОЛЛАРОВ»
Но бросать преподавательскую деятельность Виталий Мокин не спешит, хотя признает, что высшее образование в Украине переживает кризис, в том числе и в IТ-специальностях. Сейчас многие хотят работать в IТ только ради денег. Они не понимают, зачем им учиться в университете, если есть трёхмесячные курсы. Однако машинному обучению нужны фундаментальные знания, и курсов для понимания этой работы — мало. Есть разработчики, а есть инженеры, и между ними есть большая разница. Девелопер не строит мосты, это работа инженера, он делает что-то новое. В то же время разработчик делает что-то из того, что уже существует. Для machine learning как раз нужны инженеры, ученые, исследователи. Конечно, ты строишь все из тех же блоков: нейронных сетей, алгоритмов машинного обучения, но их нужно так «тюнить», что это становится инженерной работой. Другая проблема — это взаимодействие рынка с учебными заведениями, закрытость университетов, не имеющих возможности приглашать на занятия практиков (удается договариваться только, так сказать, на личных связях и без гонораров). Но главный минус — отсутствие мотивации как среди студентов, так и среди преподавателей.
«Вы знаете, какая зарплата в IТ-секторе и какая зарплата у преподавателей этих дисциплин? Это ответ на вопрос, почему многие крутые преподаватели уволились из вузов и пошли работать в коммерческом IТ-секторе. Но кое-кто пытается совмещать реальные проекты, науку и преподавание. Я тоже среди них, потому что люблю учить студентов и заниматься наукой. Но на самом деле для своего развития нужно проходить курсы, получать рейтинги, постоянно самосовершенствоваться, чтобы быть в тренде. Никому не нужны только одни требования к компетентностям, результатам обучения, разные условности, студент приходит и спрашивает прямо: «Чему вы меня научите?» Отвечаю: «Освоишь Python и искусственный интеллект». — «А, ну ок, это мне подходит», — рассказывает ученый. — А когда они узнают, что их преподаватели в мировых рейтингах имеют звание Grandmaster и выигрывают конкурсы, то это — безусловный плюс к авторитету. В этом году, например, на первый курс специальности 124 прошел парень, получивший 200 баллов из возможных. Он не поехал в Киев, Харьков или Львов, а выбрал наш вуз, выбрал тебя — это стимулирует и мотивирует быть еще лучше, потому что к тебе приходят учиться. То же касается аспирантов. Я им рассказываю то, что на курсах дают за несколько тысяч долларов. А добивается успеха тот, кто работает над собой постоянно, развивается, совершенствуется. И это особенно касается IТ-сферы, которая быстро развивается».