Рубрика:
Карьера/Образование /
Вектор роста
|
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|
ОКСАНА СЕЛЕНДЕЕВА, основатель Международной школы программирования для детей CODDY
Стань лучшим!
Олимпиады и другие соревнования по анализу данных и машинному обучению. Почему участие в них не только престижно, но и всячески выгодно?
Анализ данных (data science) – дисциплина на стыке математики, информатики и статистики, набор методов обработки и анализа информации и применение результатов на практике. Данные не обязательно должны быть большими (big data)– они могут быть любыми, главное – правильно их подготовить и привести к подходящему формату. Машинное обучение – метод обработки данных. С его помощью находят закономерности в массиве информации, чтобы предсказывать будущие показатели.
Специалист по анализу данных имеет фундаментальные знания в математике и информатике, знает алгоритмы, теорию вероятности, математическую статистику и умеет программировать на языках Python или R. Чтобы стать data scientist,желательно получить высшее образование, связанное с математикой или статистикой, и пройти специализированные курсы, а для практики регулярно участвовать в олимпиадах и чемпионатах.
Всероссийская инженерная олимпиада
Олимпиада НТИ [1] организована в рамках программы глобального технологического лидерства России «Национальная технологическая инициатива». Всего у олимпиады 17 профилей, в том числе большие данные и машинное обучение[2]. Олимпиада входит в перечень олимпиад, утвержденных Минобрнауки РФ (проект на 2018-2019 годы) [3]как мероприятие третьего уровня и дает льготы для поступления в ведущие вузы.
Олимпиада НТИ организована в рамках программы глобального технологического лидерства России «Национальная технологическая инициатива» |
Победители и призеры олимпиады НТИ по профилю «большие данные и машинное обучение» поступают [4]без экзаменов в Московский политехнический университет, МАИ, Университет ИТМО, МИФИ, Томский политехнический университет, НГУ и другие. Для этого необходимо иметь 75 баллов на ЕГЭ по профильному предмету.
Соревнование проводится в три этапа: индивидуальный отборочный, отборочный командный и финал.
- В первом отборочном этапе разрабатывают программу и алгоритм по обработке данных.
- В следующем этапе проходят онлайн-курсы, смотрят видеолекции и участвуют в хакатоне очно или удаленно. В прошлом году хакатон НТИ [5] был в МФТИ.
- В финале участники объединяются в команды и работают с настоящим инженерным оборудованием.
Обычно первый отборочный тур проходит с середины сентября до конца октября, второй – в ноябре-декабре, заключительный – в феврале-марте. Финал прошлой олимпиады проводился в Сочи, в лагере «Сириус».
В этом году отборочный первый тур олимпиады стартует 15 сентября.
Олимпиада рассчитана на учеников 9-х-11-х классов. Для участия необходимо зарегистрироваться на сайте и решить задачи первого этапа. Организаторы ожидают, что ребята будут знать математическую статистику, теорию графов и промышленные языки программирования. Задания не простые. Например, в соревновании 2016-2017 учебного года олимпиадники учили программу анализировать большие объемы текста и определять их связь между собой по стилю письма. Исходными данными были рукописные дневники начала XX века.
Организаторы рекомендуют готовиться на портале Stepik.org, на котором размещен бесплатный онлайн-курс подготовки к олимпиаде НТИ [6] на основе заданий прошлых лет.
Дополнительно советуют пройти программы [7] по теории вероятности, алгоритмам, теории статистики, дискретным структурам и другим.
International Data Analysis Olympiad
IDAO – Международная олимпиада по анализу данных [8], которая организована год назад Высшей школой экономики (ВШЭ). Первая олимпиада проходила совместно с компанией «Яндекс» и испанским Университетом Harbour.Space.
IDAO – Международная олимпиада по анализу данных, которая организована год назад Высшей школой экономики |
Олимпиада проводится в два этапа: предварительный и заключительный.
В первом этапе может принять участие любой желающий, на второй этап приглашают 30 лучших команд. В каждой – от одного до трех человек.
Регистрация на олимпиаду ожидается в сентябре 2018 года. Организаторы планируют провести предварительный этап в январе 2019 года, заключительный – в апреле.
Соревнование ориентировано на студентов и недавних выпускников вузов. Перед олимпиадой желательно пройти базовый курс по машинному обучению. Организаторы рекомендуют для подготовки курс на платформе Coursera.org «Каквыиграть соревнования по анализу данных» [9], который подготовили преподаватели ВШЭ и члены жюри IDAO. Он рассчитан на пять недель и входит в программу Advanced Machine Learning [10].
Russian ML Cup
С конца 2015 года работает Russian ML Cup (ML Boot Camp) [11] – чемпионат по машинному обучению от компании Mail.Ru Group. Это онлайн-площадка, на которой два-три раза в год размещаются задачи-контесты. Соревнование рассчитано на опытных специалистов – организаторы ждут участников уровня Middle и Senior. Возрастное ограничение – от 18 лет.
С конца 2015 года работает Russian ML Cup (ML Boot Camp) – чемпионат по машинному обучению от компании Mail.Ru Group |
Russian ML Cup проходит удаленно в один этап. После регистрации открывается доступ к условиям задачи, на решение которой отводится месяц. Все задачи практические, например летом участники прогнозировали отклик аудитории на интернет-опрос.
Победители, как правило, получают ценные призы в виде техники Apple, NVIDIA, My Cloud. Организаторы не скрывают, что в первую очередь нацелены на поиск квалифицированных сотрудников. Авторов нестандартных решений приглашают на собеседование в компанию Mail.Ru. За три года деятельности состоялось 15 собеседований.
Организаторы планируют этой осенью запустить собственный курс по обучению на специалиста Data Science. Они также рекомендуют смотреть видеолекции Технострима [12], или, если вы учитесь в МГУ, поступить в Техносферу [13] на двухгодичную программу «Анализ больших объемов данных».
Яндекс.Алгоритм
Компания «Яндекс» ежегодно проводит Международный чемпионат по спортивному программированию [14].
Компания «Яндекс» ежегодно проводит Международный чемпионат по спортивному программированию |
С этого года в чемпионат добавился отдельный трек по машинному обучению. Трек проходил в течение месяца и состоял всего из одной большой задачи, которую придумали и подготовили разработчики голосового помощника «Алиса».
В чемпионате могут участвовать ребята от шести лет, в финале – только совершеннолетние. Регистрация открыта все время до завершения трека по машинному обучению. В 2018 году призовой фонд трека составил 220 000 рублей.
У компании нет специального курса для подготовки к чемпионату, но «Яндекс» учит перспективному направлению в собственной Школе анализа данных (ШАД) [15]. Филиалы ШАД открыты в четырех городах: Москве, Минске, Нижнем Новгороде и Екатеринбурге. Обучение идет два года. Для поступления необходимо пройти три этапа [16]: пятичасовой онлайн-тест, очный экзамен и собеседование. Набор ограничен и проводится раз в год.
В качестве альтернативы можно пройти на платформе Coursera онлайн-программу [17], разработанную «Яндексом» совместно с МФТИ.
Соревновательная площадка Kaggle
Kaggle [18] – платформа корпорации Google для проведения соревнований по машинному обучению и анализу данных. Организаторами выступают Google, Intel, Mercedes-Benz, Allstate и другие компании. Каждый организатор самостоятельно определяет критерии оценки, сроки и призы. Обычно на платформе проводится до 20 соревнований одновременно.
Kaggle – платформа корпорации Google для проведения соревнований по машинному обучению и анализу данных |
Чтобы принять участие, необходимо зарегистрироваться на платформе и выбрать соревнование из перечня. Отборочного этапа нет, поэтому участники сразу получают основное задание. Как правило, каждое соревнование идет два-три месяца. Победители получают денежные призы в размере от 15 000 до 100 000 долларов.
Для подготовки на платформе есть обучающий раздел [19] с бесплатными материалами по направлениям: Python, Pandas, SQL, язык R, глубокое обучение, анализ данных и представление данных. Дополнительно можно пройти бесплатный интенсив от Google по машинному обучению [20], состоящий из 25 уроков.
Чемпионат KDD CUP
KDD CUP [21] – Международное соревнование по машинному обучению и анализу данных, которое проводится под эгидой Ассоциации вычислительной техники (ACM). В Кубке KDD участвуют команды до 10 человек. После регистрации на сайте необходимо присоединиться к одной из команд.
KDD CUP – Международное соревнование по машинному обучению и анализу данных, которое проводится под эгидой Ассоциации вычислительной техники |
В качестве основного задания организаторы выбирают общественно значимую проблему. Так, в 2018 году Кубок проходил совместно с Colorful Clouds Tech – компанией по прогнозированию погоды. Участники предсказывали уровень концентрации загрязнений в Пекине и Лондоне. Им предоставили данные о количестве вредных веществ в прошлом, на основании которых они должны были спрогнозировать, какой будет воздух в течение следующих 48 часов.
Соревнование [22] проходило почти три месяца и закончилось в начале июня. Призовой фонд составил 36 000 долларов. Победители очно презентуют решения на KDD CUP workshop в Лондоне.
Стать Data Science-специалистом может любой желающий. Открытые образовательные платформы Coursera, Stepic и ИТ-гиганты Google, «Яндекс», Mail.Ru бесплатно обучают по программе «Анализ данных и машинное обучение». Для тренировки на практике рекомендуем участвовать в олимпиадах и соревнованиях. Это даст практический опыт, а в случае победы еще и принесет солидное материальное вознаграждение.
Андрей Лозицкий, преподаватель курса «Олимпиадное программирование» Международной школы программирования для детей CODDY
Я уже участвовал во многих олимпиадах и соревнованиях: Яндекс.Алгоритм, VK CUP, ACM ICPC, муниципальный и региональный этапы Всероссийской олимпиады школьников по программированию. Это классические олимпиады, которые не связаны с анализом данных и машинным обучением. Теперь хочу попробовать свои силы на платформе Kaggle и KDD CUP, на которых обычно ставятся задачи по прогнозированию на основе эмпирических данных. Такие соревнования дают интересный реальный опыт, а победа в KDD CUP открывает дорогу для научной карьеры.
- http://nti-contest.ru/
- http://nti-contest.ru/profiles/data/
- https://olimpiada.ru/upload/files/project_perechen_2018_2019.pdf
- http://nti-contest.ru/abitur
- http://nti-contest.ru/hackatons2017/
- https://stepik.org/course/1296/
- http://nti-contest.ru/profiles/data/
- http://idao.world/
- https://www.coursera.org/learn/competitive-data-science
- https://www.coursera.org/specializations/aml
- https://mlbootcamp.ru
- https://www.youtube.com/user/TPMGTU/playlists
- https://sphere.mail.ru/pages/index/
- https://yandex.ru/promo/academy/algorithm2018
- https://yandexdataschool.ru
- https://yandexdataschool.ru/admission
- https://www.coursera.org/specializations/machine-learning-data-analysis?utm_medium=institutions&utm_source=yandex&utm_campaign=yalanding#creators
- https://www.kaggle.com
- https://www.kaggle.com/learn/overview
- https://developers.google.com/machine-learning/crash-course/
- http://www.kdd.org/kdd2018/kdd-cup
- https://biendata.com/competition/kdd_2018/
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|