Поиск

www.samag.ru

Web

0 товаров , сумма 0 руб.

	Журнал "Системный администратор"
	Журнал «БИТ»
	Подписка
	Архив номеров
	Где купить
	Авторам
	Рекламодателям
	Контакты

Опросы

Статьи

Мониторинг

Какая задача мониторинга отнимает больше всего времени?

Многие системные администраторы тратят до 30% рабочего времени на рутину мониторинга. Но

Рынок труда

Какие навыки вы хотите развивать в 2026 году?

Рынок труда меняется быстро. Еще вчера его называли рынком соискателей, а сегодня

Книжная полка

От сисадмина до архитектора: книги, которые прокачают ваш стек в этом году

Новинки от издательства «БХВ» отличаются тем, что в них часто делается упор

Автоматизация

Автоматизируем рутину: что реально работает?

Многие сисадмины автоматизировали что-то за последний год. Но далеко не все остались

Защита ИТ-системы

Практическая защита: что вы внедрили и что мешает?

Какие меры безопасности реально внедрить в реальных условиях – и что не

Вопрос-ответ

Обеспечиваем безопасную эксплуатацию базы данных

Что для вас чаще всего является причиной инцидентов с БД? Как вы

Книжная полка

От «безопасного» Linux до Контролируемого взлома

Издательство «БХВ» продолжает радовать читателей интересными новинками и в наступившем году. Вы можете

1001 и 1 книга

19.03.2018г.

Комментарии: 0

Машинное обучение с использованием библиотеки Н2О

12.03.2018г.

Комментарии: 0

Особенности киберпреступлений в России: инструменты нападения и защита информации

12.03.2018г.

Комментарии: 0

Глубокое обучение с точки зрения практика

12.03.2018г.

Комментарии: 0

Изучаем pandas

12.03.2018г.

Комментарии: 0

Программирование на языке Rust (Цветное издание)

19.12.2017г.

Комментарии: 0

Глубокое обучение

19.12.2017г.

Комментарии: 0

Анализ социальных медиа на Python

19.12.2017г.

Комментарии: 0

Основы блокчейна

19.12.2017г.

Комментарии: 0

Java 9. Полный обзор нововведений

16.02.2017г.

Комментарии: 0

Опоздавших не бывает, или книга о стеке

17.05.2016г.

Комментарии: 0

Теория вычислений для программистов

30.03.2015г.

Комментарии: 0

От математики к обобщенному программированию

18.02.2014г.

Комментарии: 0

Рецензия на книгу «Читаем Тьюринга»

13.02.2014г.

Комментарии: 0

Читайте, размышляйте, действуйте

12.02.2014г.

Комментарии: 0

Рисуем наши мысли

10.02.2014г.

Комментарии: 4

Страна в цифрах

18.12.2013г.

Комментарии: 0

Большие данные меняют нашу жизнь

18.12.2013г.

Комментарии: 0

Компьютерные технологии – корень зла для точки роста

04.12.2013г.

Комментарии: 0

Паутина в облаках

03.12.2013г.

Комментарии: 1

Рецензия на книгу «MongoDB в действии»

Друзья сайта

Вакансия: Data Scientist

Архив номеров / 2017 / Выпуск №10 (179) / Вакансия: Data Scientist

Рубрика: Карьера/Образование / Рынок труда

Вызов настоящего времени – обработка больших данных или Big Data. Данные генерируются в результате работы различных компаний и организаций, а также их информационных систем. Одной из профессий, представители которой занимаются реализацией и выработкой подходов и методов обработки больших данных, является Data Scientist. Мы обратились к экспертам и представителям различных компаний, чтобы выяснить, каких кандидатов они видят на этой позиции

Какими знаниями и навыками должен обладать Data Scientist?
Каков инструментарий Data Scientist?
Каковы требования компании к уровню образования потенциальных сотрудников?
Какие требования предьявляются к опыту работы?
Есть ли особые требования, которые обусловлены спецификой деятельности компании?

Илья Шутов, к.ф.-м.н., руководитель направления Data Science в «Медиа-Тел», Группа Devoteam

1. Основная прикладная задача Data Science сводится к применению различных цифровых показателей и математических методов для получения дополнительных выгод для бизнеса. Делается ли это на больших данных или не очень – вопрос второй, главное – иметь измеряемый положительный результат. Исходя из этого определения вытекают необходимость в хороших коммуникативных навыках (стыковка желаний и возможностей между производственным процессом и бизнесом), умение презентовать результаты, умение работать с любого вида информацией, полученной из практически любых видов источников (база данных, файлы, веб-страницы, API...), практическое знание высшей математики и хорошие навыки в программировании.

Однако, на мой взгляд, одним из ключевых моментов является умение детально и всесторонне разобраться в предметной области, применительно к которой и используются методы Data Sciene. Решение 90% задач в области Data Science начинается с постановки задачи в терминах предметной области и заканчивается апробацией результатов «в поле». А для этого как раз будет необходим ранее полученный багаж знаний по физике, химии, математике, биологии, инженерии, географии и многим другим наукам и навыки быстрого обучения новым областям.

2. Специфика деятельности позволяет достаточно четко составить список минимально необходимых инструментов. Большинство из них связано с обработкой и визуализацией данных. Но на первое место я бы поставил источники знаний по предметной области. Именно понимание истинных задач и проблем позволяет четко ставить задачу и получать результат, который важен для бизнеса.

Итак, минимально необходимый инструментарий:

фундаментальная литература по конкретной предметной области;
гибкие Оpen Source ИТ-средства для работы с любым объемом данных и любыми видами источников (R и/или Python, лучше оба);
подобранный набор хорошо знакомых библиотек для указанных языков в части обработки (включая импорт/экспорт/математические алгоритмы), взаимодействия с внешним окружением и визуализации;
хорошо знакомые и проверенные средства для хранения данных (SQL+NoSQL);
различные средства визуализации (PowerPoint, Shiny/Dash, PowerBI, Tableau/Qlik)
github как система контроля версий и коллаборативная платформа.

Я бы отметил, что большинство Оpen Source-систем в области Data Science работает на базе Linux, что автоматически требует наличия хотя бы минимальных навыков по администрированию и работы в *nix.

3. Желательны высшее образование (обеспечивает широкий кругозор) естественно-научного направления; опыт участия в исследовательских проектах, включая написание различных отчетов; опыт программирования на указанных выше языках; практические навыки отладки, оптимизации производительности, валидации полученных численных результатов.

4. Предпочтения вытекают из ответа на предыдущий вопрос.

5. По факту необходимо прекрасно разбираться в предметной области, иначе будет пустое жонглирование цифрами.

Александр Крот, руководитель направления Data Science, ПАО «Сбербанк»

1. В первую очередь математический склад ума, в большинстве случаев от человека не требуется доказывать различные теоремы, но понимать, почему так или иначе работают используемые им алгоритмы, требуется. Далее, навыки программирования, чтобы быстро прототипировать свои идеи. Немаловажным является знание предметной области, в которой работает человек, чтобы не делать сферического коня в вакууме.

2. Инструментарий, как правило, определяется доступным в компании и личными пожеланиями самого Data Scientist. Как правило, для задач аналитики люди используют Python-стек для гибкого анализа данных (особенно, если дело касается работы с неструктурированными данными вроде текстов, картинок и др.), но для простых задач бизнеса во многих случаях подойдет и Excel.

3. В первую очередь это хороший математический склад ума, который обычно формируется после обучения в техническом вузе. Это условие необходимое, но недостаточное. Самое ценное – опыт решения индустриальных задач, который можно получить только практикой и стажировками. Важен также soft-skills, который обычно можно приобрести, поработав в консалтинге.

4. Самые успешные Data Scientist обычно появляются из классических аналитиков (в том смысле, который в это вкладывали лет пять – семь назад) в сочетании с консалтинговым опытом.

5. Человек должен хорошо разбираться в предметной области задачи, которую решает. Большинство математических методов анализа данных универсальны, но постановка задач требует глубоких знаний в процессах компании. Обычно в интернет-компаниях знание предметной области не так критично (потому что все с ней более-менее знакомы), но когда мы говорим о телеком-операторах, банках или заводах, то там без этого никуда.

Дмитрий Сергеев, Data Scientist в компании Zeptolab

1. Data Scientist, по большому счету, – «прикладной исследователь», его основная задача – заниматься нестандартными проблемами, с которыми обычно не сталкиваются продуктовые аналитики. Нужно уметь работать в условиях большой неопределенности и со значительной долей автономии – готовых решений, которые можно сразу использовать, часто нет, поэтому очень ценятся инициативность, желание исследовать и находить новые работающие методы. Также пригодятся хорошие коммуникативные навыки – для решения той или иной задачи крайне необходимо собрать разрозненную информацию от многих людей, работающих над продуктом.

Основные требования к знаниям – машинное обучение, статистика и, конечно же, программирование на хорошем уровне. Data Scientist должен уметь создавать не только прототипы, но и доводить свои решения до уровня готовых к употреблению и внедрению систем, поэтому способность написать эффективный пайплайн по сбору и обработке данных, построению моделей и интерпретации результатов просто необходима.

Наконец, Data Scientist должен четко понимать бизнес-цели своей деятельности, чтобы грамотно формализовать задачу, выбирать корректные методы и метрики, задавать верные вопросы и вовремя останавливаться в своих исследованиях.

2. В плане используемых языков ничего необычного, пожалуй, назвать не могу, стек самый стандартный: Python, SQL + немного bash для работы с серверами.

Со стороны технологий – конечно, навыки Data Scientist должны позволять ему эффективно решать все основные типы задач – классификации, кластеризации и регрессии. И «эффективно» – здесь ключевое слово. Стакать xgboost и добавлять слои в сетки – это очень здорово, но если логистическая регрессия после грамотной предобработки данных решает задачу с таким же успехом – хороший Data Scientist должен это найти и использовать.

3. Как такового, требования профильного образования нет, в отделе аналитики работают люди с самым разным бэкграундом, в том числе непрофильным. Однако большое внимание уделяется дополнительному обучению и самообразованию – насколько потенциальный сотрудник способен постоянно развиваться в своей области, любит учиться новому и, конечно, насколько умеет использовать полученные самостоятельно знания.

4. Замечательно, если есть аналогичный опыт работы в других игровых компаниях – это сильно облегчает понимание бизнес-процессов, метрик, основных задач и направлений исследований. Однако предвзятого отношения к кандидатам без опыта нет, если его отсутствие компенсируется наличием своих pet-projects, успешными выступлениями на хакатонах и решенными задачками с соревнований.

5. Мы делаем игры, поэтому понимание игровых процессов, конечно же, является одним из основных требований к кандидату. Для успешного анализа, построения гипотез и моделей здорово помогает представление, почему те или иные игровые элементы могут работать, быть интересны или скучны игроку. Знакомство со спецификой рынка мобильных игр, его глобальными тенденциями – тоже плюс.

Павел Мезенцев, Senior Data Scientist в компании PulsePoint (New York)

1. По сути, Data Scientist – это программист-математик, разрабатывающий различные предиктивные системы. Такие системы используются при рекомендации товаров на сайтах, предотвращении ухода клиентов, управлении беспилотными автомобилями и других задачах.

Data Scientist должен разбираться в алгоритмах машинного обучения, уметь работать с научной литературой. Уметь программировать, чтобы реализовывать системы на практике.

2. На текущий момент основным языком для Data Scientist является Python. Разработка предиктивных моделей ведется ipython notebook, применение – в различных питон-программах. Я обычно ожидаю, что Data Scientist владеет математическими библиотеками питона: scikit-learn, nltk, genism, tensorflow. Для получения и обработки данных Data Scientist должен владеть SQL и иметь знакомство с хранилищами больших данных (Hadoop).

3. Data Scientist – это одна из немногих профессий, где уровень образования играет важную роль. Широкий кругозор Data Scientist позволяет ему подбирать более подходящие подходы решения поставленной задачи, предлагать методы, еще не включенные в стандартные библиотеки.

Высшее техническое образование – минимально необходимый уровень работы в этой сфере. Кандидатов наук по теме машинного обучения ищут и отрывают с руками и ногами.

4. Для специалистов среднего уровня достаточно двух-трех лет работы по специальности. Но профессия испытывает чудовищный кадровый голод, и достаточно показать наличие базовых знаний алгоритмов, чтобы устроиться на работу джуниором.

5. Разумеется:

если вы работаете над рекомендательными системами, вы должны знать теорию рекомендательных систем и байесовы сети;
если компания занимается обработкой текстов, голоса или изображений – обязательно надо иметь опыт с глубокими нейросетями;
в компаниях, занимающихся интернет-рекламой, – понимать теорию игр и теорию аукционов;
банки же достаточно консервативны и до сих пор используют SQL и SAS в своей работе.

Денис Афанасьев, генеральный директор CleverDATA (ГК ЛАНИТ)

1. Data Scientist – это профессия на стыке нескольких дисциплин: ученым по данным нужно хорошо разбираться в статистике, математике, одновременно с этим обладать навыками программирования и, что немаловажно, отлично понимать бизнес-процессы и цели компании изнутри.

Необходимость высокого уровня знаний инструментов статистики и математики для Data Scientist очевидна – задачи интеллектуального анализа данных и построение аналитических моделей требуют достаточной подготовки и богатого багажа знаний. Практические навыки программирования полезны при работе с большими объемами данных, компетенции в этой области помогают при проектировании баз данных, а также при разработке алгоритмов машинного обучения. Знание компании изнутри или понимание специфики бизнеса, дополнительный опыт в сфере применения своих знаний помогают Data Science-специалистам преобразовывать полученные выводы на основе анализа данных в готовые рекомендации и впоследствии в управленческие решения и действия. Таким образом, Data Scientist должен уметь говорить одновременно на языке инженеров, аналитиков и бизнеса.

Самыми главными качествами для Data Scientist являются любопытство, исследовательский склад ума и умение изобретать. Они помогают добиться выдающихся результатов, даже если используются самые простые инструменты.

2. В повседневной работе специалисту по данным необходимы средства и методы статистического анализа. Чтобы проверить гипотезу, нужно владеть соответствующими приемами и знать границы применения методов. Обязателен высокий уровень знаний в области теории вероятности – специалисту важно разбираться в различных вероятностных распределениях, понимать их преимущества, уметь использовать их свойства. Полезным будет понимание Центральной предельной теоремы, теоремы Байеса и других вопросов из области теории вероятности.

Типичные языками программирования – Python/R/Scala и др. Data Scientist должен уметь извлекать данные из баз данных и обладать навыками работы с большими данными (Hadoop, Spark и т.д.).

Deep learning, нейронные сети, искусственный интеллект – это не только красивые слова, но и предметные области со своими инструментами и методами, в которых должен разбираться Data Scientist. Для него важно понимать принципы работы различных алгоритмов машинного обучения: знать, как их адаптировать под поставленные задачи, как и с помощью каких параметров их оптимизировать, а также определять слабые, сильные стороны и границы применения алгоритмов, чтобы выявить оптимальные решения. Среди фреймворков Deep Learning можно выделить TensorFlow/CNTK/Theano/Torch и другие.

3. Ряд технических вузов уже предлагает программы подготовки специалистов по данным. В то же время есть специальности из смежных областей, например «Предиктивная аналитика», «Прикладная математика и информатика» и другие. Специалисты с математическим бэкграундом, владеющие языками программирования, всегда смогут освоить дополнительные технологии, чтобы анализировать большие данные.

На рынке сегодня представлено много курсов для самообразования – как для совершенствования отдельных навыков, полезных для Data Scientist, так и общих программ по Data Science и смежным областям, например аналитике Big Data.

В решении самых неожиданных задач часто помогает знание методов из различных областей и наук. В команде Data Scientist CleverDATA трудятся выпускники математических и технических специальностей, среди которых есть специалисты с ученой степенью физико-математических наук.

Английский язык, хоть и не является ключевым знанием для работы с данными, тем не менее играет важную роль при изучении международной практики и работы с различными инструментами. Язык необходим, так как многие задачи, с которыми сталкивается Data Scientist, могут уже иметь решение либо намеченный путь к решению в зарубежной практике.

5. Задачи, которые ставятся перед Data Science-специалистом, часто уникальны, зависят от области применения данных, а также в ряде случаев от специфики деятельности компании.

Универсальных алгоритмов работы с данными не существует. Пока невозможно строго классифицировать все данные по типу их возможного применения. Соответственно, задачи анализа данных дают пространство творчеству – Data Scientist нужно изучать, рассуждать, выстраивать различные гипотезы и всегда учитывать особенности компании и отрасли, в которой она работает.

Андрей Лукьяненко, Data Scientist в Frumatic

1. Data Scientist – это профессия, которая требует весьма широкого набора знаний и навыков: математика, статистика, машинное обучение, программирование, навыки работы с базами данных, умение обрабатывать и чистить данные, умение анализировать и визуализировать данные и многое другое. Кроме того, обычно необходимо знание специфики бизнеса и наличие soft skills.

2. Инструментарий сильно зависит от специфики бизнеса и уровня профессионала. Это языки программирования и релевантные библиотеки – Python, R, Java, Scala, SQL; различные базы данных и платформы; возможно, отдельные инструменты для визуализации.

3. Обычно специфичных требований к уровню образования нет, поскольку в настоящее время почти нет вузов, которые полноценно готовят специалистов в этом направлении. Большую роль играют пройденные курсы и реальные навыки/опыт работы.

4. Зависит от уровня позиции (middle, senior и т.д.). Обычно нужен релевантный опыт работы или наличие завершенных проектов по Data Science или машинному обучению.

5. В данной компании желателен опыт работы в консалтинге.

Дмитрий Бабаев, эксперт по наукам о данных, ПАО «МТС»

1. Иногда говорят, что Data Scientist – это лучший статистик, чем разработчики и лучший разработчик, чем статистики. Минимальный необходимый набор знаний: по математике это математический анализ, линейная алгебра, теория вероятности, математическая статистика и, конечно, методы машинного обучения. Также необходим достаточно хороший уровень в программировании. Важно умение работать с источниками данных, например с базами данных. Еще один компонент успеха – знание бизнес-специфики области работы компании.

2. Инструментарий сильно зависит от задачи, например, для задач AI используются библиотеки нейросетей, такие как Tensorflow или PyTorch. Для более традиционного анализа данных и машинного обучения есть два популярных стека технологий. Это Python Data-стек и R-стек. Основные библиотеки Python-стека – numpy, scipy, pandas, matplotlib, statmodels, scikit-learn. Для задач, связанных с обработкой больших объемов данных, используются технологии Hadoop-стека, например Spark. Интерактивный анализ данных удобно делать в Jupyter Notebook.

3. Жестких требований к уровню образования обычно нет, важно, чтобы человек действительно знал соответствующие разделы математики и умел программировать.

4. В МТС мы набираем сотрудников разного уровня, поэтому и требования разные. Для начального уровня достаточно уверенной математической базы и пары лет опыта программирования. На остальные позиции необходимо иметь от двух лет опыта Data Science в коммерческих компаниях либо академический опыт.

5. Очень полезно, когда Data Scientist знает бизнес-специфику области деятельности компании (в нашем случае телеком). Но вполне возможно прийти в новую область и быстро подтянуть знание местной бизнес-специфики.

Алексей Григорьев, Data Scientist в компании Simplaex

1. ществует несколько «подвидов» Data Scientist, и их иногда путают. Это Data Analyst, Data Engineer и Machine Learning Engineer

Для каждой из этих специализаций требуются разные знания и навыки.

Data Analyst должен хорошо знать предметную область, уметь писать SQL-запросы, выбирать правильные KPI (Key Performance Indicators), готовить отчеты и делать презентации. Data Engineer – это программист, специализирующийся на технологиях так называемых больших данных – Apache Hadoop, Apache Spark и подобных. А Machine Learning Engineer – человек, разбирающийся в машинном обучении (Machine Learning, далее – ML), который знает не только, как построить модель на данных компании, но и также умеет интегрировать ее в имеющийся в компании продуктовый код.

Термин «Data Scientist» часто используют для того, чтобы описать должность, которая совмещает несколько таких направлений в одном, а возможно, даже все три. Лично я для себя определяю этот термин как ML Engineer, который обладает какими-то знаниями Data Engineer и Data Analyst.

То есть идеальный Data Scientist должен уметь:

идентифицировать проблемы бизнеса, которые можно решать с помощью ML;
самостоятельно найти и подготовить данные, необходимые для построения модели;
пользоваться библиотеками, реализующими алгоритмы ML;
построить эксперименты таким образом, чтобы можно было корректно оценить точность и адекватность полученной модели;
быстро создавать прототипы, демонстрирующие результаты модели;
объяснять сложные вещи простым языком – часто требуется объяснить принцип работы модели людям без технического образования из отдела продаж или маркетинга;
внедрять модели в продукт - то есть необходимо уметь программировать на уровне, достаточном для создания стабильного поддерживаемого кода;
поддерживать модель, уже работающую в продукте.

Также желательно обладать достаточной математической подготовкой, чтобы можно было самостоятельно разобраться с описанием какого-нибудь нового алгоритма в научной литературе и суметь его реализовать.

Так как термин еще окончательно не устоялся, многие могут не согласиться с такой формулировкой: некоторые считают, что Data Scientist не нужно уметь хорошо программировать, достаточно только знать ML и уметь строить модели.

2. Чаще всего это Python с так называемым PyData-стеком технологий –numpy, scipy, pandas и scikit-learn:

numpy и scipy – это пакеты для математических вычислений;
pandas реализует data frame – табличную структуру для манипуляций данными;
scikit-learn – библиотека, реализующая основные алгоритмы ML.

Инструментарий во многом зависит от задачи. В качестве моделей обычно используются простые линейные модели – это линейная и логистическая регрессии. Такие модели идеально подходят для простых задач, для которых важна интерпретируемость результата. Для задач сложнее типа рекомендации или компьютерного зрения используют совсем другие алгоритмы – например, матричные факторизации и нейронные сети.

Для подготовки данных для модели часто дополнительно используют SQL или Hadoop/Spark. После того как модель готова, ее нужно интегрировать в существующую систему. Обычно это делается с помощью микросервисов, а для этого используются Flask и подобные фреймворки. Для прототипирования часто полезно знать веб-технологии типа HTML, JavaScript и D3, потому что наиболее удобный способ показать прототип – написать небольшое веб-приложение, отображающее результаты.

Кроме питона, полезно знать и другие языки – например, знание Scala или Java часто полезно для интеграции модели в уже существующий код и для использования Hadoop/Spark. C/C++ знать тоже полезно – многие библиотеки ML реализованы именно на С++.

3. Обычно достаточно образования на уровне специалиста/магистра, но много где пишут, что наличие кандидатской степени (PhD) будет плюсом. Есть ряд компаний (например, Amazon), которые для работы с ML берут исключительно людей с PhD, но, к счастью, таких компаний немного.

Как правило, компаниям не интересны дипломы и грамоты – знания кандидата намного важнее, при этом не так важно, были ли эти знания получены в университете, во время работы над PhD или из онлайн-курсов. В интернете существует огромное количество статей с вопросами, которые могут задать на собеседовании на позицию Data Scientist. Вот, например, список, который я составил некоторое время назад, когда активно готовился к собеседованиям: http://www.itshared.org/2015/10/data-science-interview-questions.html.

4. Так как должность Data Scientist включает в себя очень большое количество компетенций, очень сложно найти людей, обладающих всеми нужными навыками. Поэтому компании готовы брать людей, которые неплохо знают что-то одно и готовы выучить все остальное.

Например, программист, который решил подтянуть математику, прошел несколько курсов на Coursera, а также реализовал несколько личных учебных проектов, без проблем найдет работу в области Data Science.

Только что защитившийся кандидат наук, который очень хорошо разбирается в математике, но не очень хорошо программирует, без проблем получит работу после реализации нескольких учебных проектов и прохождения курса по питону.

В качестве учебных проектов отлично может подойти участие в соревнованиях по машинному обучению на kaggle.com и похожих платформах.

5. Наличие знаний в предметной области всегда хорошо. Например, для фирмы, занимающейся SEO, опыт в маркетинге и навыки обработки текстов будут безусловным плюсом, но не будут являться обязательным требованием при найме сотрудников.

Валерий Бабушкин, аналитик «Яндекс.Советник»

1. Набор требований и понимание того, чем должен заниматься DS, крайне обширен, у каждой компании свои. На мой взгляд, то, что точно нужно, чтобы успешно справляться с базовыми задачами анализа данных, – это основы математический статистики, теория вероятностей, баесовская статистика (часто ее отмечают отдельно), R/Python и SQL – крайне важно умение находить решение – статью с описанием аналогичной проблемы, похожую задачу и тому подобное – в общем и целом это здравый смысл и декомпозиция задачи.

2. SQL,HQL,YQL и прочее – чтобы уметь тянуть информацию из источников хранения, будет то кластер или классическая база данных. Python/R – для очистки, визуализации, моделирования. Java/C++/Scala – для вывода и продакшн, и, самое главное, голова.

3. Высшее образование или ученая степень не являются самоцелью или фетишом, но очень хорошо коррелируют с умением понимать/разбирать статьи, разбирать проблему. Эти навыки, безусловно, можно приобрести и без высшего образования, но вероятность этого невелика, тут нужна поистине титаническая сила воли.

4. Все достаточно просто и зависит от сферы применения – зачастую это смежные поля, аналитика, хемометрика, физика/математика + желательно иметь опыт программирования в реальных условиях.

5. Из специфических требований, кроме высокого профессионального уровня (будем считать это по умолчанию), – soft skills, чтобы с ним было приятно работать и возможно было обсуждать/совместно решать проблемы.

Михаил Агейкин, руководитель отдела систем обработки больших данных ЗАО «ЕС-лизинг»

1. Data Scientist должен обладать знаниями и навыками в следующих областях знаний.

Математика и статистика. Требуются понимание и умения по следующим направлениям: факторный анализ, линейная алгебра, кластеризация, машинное обучение.

Программирование. Требуются навыки программирования на языке высокого уровня, таких как Python/JavaScript/R. Навыки программирования на одном из языков Java/Scala/C++ желательны.

В области работы с данными умение формирования SQL-запросов к СУБД, а также желательно знание одного из синтаксисов запросов к NoSQL (Hive, Cassandra, Impala).

Коммуникации. Требуются знания бизнес-терминологии для интерпретации результатов, навыки проведения презентаций и сторителлинга.

2. Подходит любой редактор/IDE для работы с Python или R, тут все определяется личными предпочтениями. Также не принципиально, какими приложениями пользоваться для работы с SQL & NoSQL базами данных, но, поскольку в разных проектах используются различные СУБД, желательно, чтобы клиент был универсальный, например SQuirreL.

Программные продукты для математических расчетов, например IBM SPSS Statistics и IBM SPSS Modeler.

3. От бакалавра и выше по специальностям прикладная информатика, эконометрика, прикладная математика, математика.

4. Зависит от уровня позиции и зарплатных ожиданий, готовы рассматривать кандидатов без опыта, с хорошим образованием и навыками, о которых было сказано выше, на позицию ассистента.

5. В первую очередь кандидат должен быть увлечен работой с данными. Поскольку все материалы появляются на русском языке с задержкой, то требуются знания английского языка. Для многих наших проектов от кандидатов требуются навыки текстового анализа (NLP).

Николай Добровольский, вице-президент Parallels

1. Системное мышление, хорошая математическая база, аналитические способности, умение отстаивать и аргументировать свою точку зрения при работе над критическими для бизнеса функциями продукта.

2. Светлая голова и трезвый рассудок. Все остальные инструменты сильно зависят от предметной области. Из систем можно вспомнить Rational Rose, Enterprise Architect или любые другие системы для работы с UML. Для веба Google Analytycs. А основным инструментом зачастую выступает Excel, т.к. ничего удобнее для быстрого манипулирования данными еще не придумали.

3. Далеко не всегда диплом об образовании играет ключевую роль при найме того или иного специалиста. Мы внимательно смотрим на опыт и сформировавшиеся профессиональные навыки. Часто просим выполнить тестовое задание, чтобы определить уровень кандидата. Помимо технических знаний, для нас важно, чтобы человек был способен к работе в команде и обладал навыками эффективных межличностных коммуникаций.

4. Если у человека за плечами есть успешно реализованные проекты, это будет серьезным плюсом на собеседовании. Важно, чтобы соискатель мог «работать руками».

5. У нас международная компания с 10 офисами по всему миру. Без знания английского языка работать будет невозможно. Также важно понимать область и специфику отрасли, в которой мы работаем..

Петр Мурышкин, научный сотрудник Fraunhofer Institute for Intelligent Analysis and Information Systems IAIS

1. Требуется синтез из областей статистического анализа, программирования, распределенных и параллельных вычислительных архитектур, коммуникативность и понимание бизнеса. Обязательно хорошее знание технического английского языка (устно и письменно), большой плюс хотя бы разговорный немецкий.

2. Инструментарий очень разнообразный и часто зависит от клиента и проекта. Конкретные примеры – Kaldi, Tesseract Engine и TensorFlow и, конечно, Linux. Помимо них, обязательны навыки программирования Python, Java и/или C++ и ряда стандартных библиотек этих языков.

3. Как минимум диплом магистра. Для руководящих посто– кандидат наук.

4. Мы принимаем на работу и выпускников вуза, но в таком случае практически обязательны научные публикации. Один-два года опыта работы по специальности, конечно, большой плюс.

5. Специфика общества Фраунгофера заключается в нашей миссии связующего звена между передовыми открытиями прикладной науки и промышленностью.

Коллектив состоит большей частью из инженеров и ученых и наряду с исследовательской деятельностью поставляет высокие технологии многочисленным промышленным предприятиям.

Оксана Прутьянова, руководитель практики подбора аналитиков в компании New.HR

1. В перечень требований входят знания в области математики, статистики, теории вероятности, понимания структур данных, алгоритмов, знание языков программирования для работы с данными, как правило, R или Python. Также потребуются знания языков запросов для работы с базами данных, например SQL.

2. Перечислю самые часто встречающиеся требования:

Программирование: Python, Java, Scala.
Machine Learning: R, Matlab, Python libraries (NumPy, SciPy, Nltk…), Java libraries (Mahaut).
Big Data инструменты: Hadoop (MapReduce) + hadoop tools, Hive, Pig, NoSQL (Hbase, MongoDB, Cassandra, Neo4J).
Базы данных: SQL, Postgres.
Операционные системы: *nix.
Технологии визуализации данных и отчетности.

3. Как правило, успешные кандидаты имеют техническое, математическое образование или образование в области точных наук – физика, инженерия.

В настоящее время есть возможность получить дополнительное образование в области анализа данных. Например, в Школе анализа данных Яндекса (ШАД), на Coursera, на курсах в Нетологии, МФТИ и пр.

Также есть профильные площадки, где можно поучаствовать в соревнованиях по аналитике и машинному обучению как самостоятельно, так и в команде, самая известная – Kaggle, или пообщаться с коллегами на профильных конференциях и сообществах.

4. Будут востребованы опыт решения научных или бизнес-задач на основе данных, опыт применения языков программирования для решения прикладных аналитических задач , опыт применения алгоритмов машинного обучения, опыт работы с технологиями больших данных (например, Hadoop, MapReduce).

5. Помимо сугубо технических и математических знаний, кандидатам потребуется навык выстраивания отношений с внутренними заказчиками и другими участниками команды. Зачастую нужно помогать другим принимать решения на основе данных, а это значит, что пригодится умение простым языком объяснять сложные вещи, отстаивать свою точку зрения или обосновывать те или иные решения, брать на себя роль менеджера-аналитика и выстраивать работу других людей.

Владимир Игловиков, Sr Data Scientist в компании TrueAccord

На эти вопросы очень сложно ответить кратко, ибо само понимание того, что такое Data Science, плохо определено, и каждый под этим понимает что-то свое. Единственное общее, что объединяет различных Data Scientist, – это то, что они работают с данными. Но тут и Data Analyst, и Machine Learning Engineer, и Data Engineer, и еще с десяток наименований.

Могу ответить на вопрос со своей субъективной стороны, то есть то, с чем я сталкивался за последние пару лет, причем только в Кремниевой долине, в России все может быть по-другому. Тот вариант Data Scientist, в качестве которого я работаю, более точно можно назвать Machine Learning Engineer.

1. Линейная алгебра, статистика, алгоритмы и структуры данных, хорошее понимание алгоритмов машинного обучения.

2. Я использую Python, и тут весь стандартный зоопарк библиотек: numpy, scipy, pandas, statsmodels, matplotlib, scikit-learn, xgboost, etc.

Для работы с нейронными сетями раньше я использовал TensorFlow, но недавно перешел на PyTorch.

На многие вакансии, связанные с компьютерным зрением, очень хотят C++, но это скорее вакансии под Software Developer’s, которые знают немного ML нежели под Data Science, хотя опять же, повторюсь, четкой линии нет, все носят много шапок сразу, и инструментарий очень сильно варьируется от позиции к позиции, даже в рамках одной компании.

3. Математика, которая используется в машинном обучении, где-то на уровне первого-второго курса технического вуза, поэтому, на мой взгляд, бакалаврского диплома с технического факультета за глаза. Как правило, адекватные компании именно такие требования и выдвигают к кандидатам. Менее адекватные в описании вакансий на Junior Data Scientist пишут PhD и 5+ лет релевантного опыта в индустрии, но при этом смотрят на все резюме, что к ним попадают. Если позиция больше ориентирована на Research, то в вакансиях требуют PhD.

Из неочевидного. Успехи на Kaggle котируются только в компаниях H2O, Data Robot и DeepMind. Всем остальным, за редким исключением, заслуги на этой площадке, как правило, безразличны.

4. Естественно, все хотят много лет релевантного опыта, но это, конечно, зависит от вакансии. Как, правило, на вакансию Middle Data Scientist реально хотят один – три года релевантного опыта, хотя, при наличии PhD или если специальность у человека была Computer Science, что-то может упроститься.

5. Все требования в профессии Data Scientist обусловлены спецификой деятельности компании и конкретной командой.

Тут и требования к образованию – кому-то лучше подойдут люди с Operational Research, кому-то со Statistics, кому-то Computer Science, а кому-то Physics.

Или алгоритмы – кому-то надо, чтобы алгоритмы компьютерного зрения быстро работали в спутниках на орбите, скажем, в компании Planet, и там надо C++ и классические методы компьютерного зрения, где-то нужна интерпретируемость, и там часто только простые линейные модели, скажем, в банках, а где-то можно смело деплоить на Python прямо в production.

Тимофей Ефимов, аналитик данных «СКБ Контур»

1. Data Scientist (аналитик данных) – это профессионал, который способен собрать данные из окружающей среды, обработать их и извлечь из них полезную для бизнеса информацию. У него должны быть хорошие навыки программирования, статистики и методов машинного обучения. Также в небольших компаниях и стартапах часто требуется знание DevOps для того, чтобы настраивать необходимое окружение.

2. Python/R как основной язык программирования; Pandas/Sklearn/Numpy для базовых алгоритмов машинного обучения и работы с датасетами; Scala, Spark для распределенных кластерных вычислений; Theano/Tensorflow/Keras/Pytorch для тензорных вычислений и нейронных сетей на GPU. Еще пригодится знание Scrapy/BeautifulSoup/Selenium для сбора информации из интернета.

3. Джуниору достаточно будет двух-трех курсов бакалавриата ИT-направления, для более серьезных позиций некоторые компании требуют от кандидатов законченного высшего образования/магистратуры/прохождения дополнительных курсов (ШАД, Специализация Яндекс по машинному обучению на Coursera).

4. Так же, как и у всех программистов, от джуниора может не требоваться вообще никакого опыта, от сеньора могут потребовать хотя бы три года работы на подобной позиции.

5. Кажется, нет.

Вячеслав Бусаров, Data Scientist в компании InfoWings

1. Data Scientist прежде всего должен понимать процесс решения задач аналитики от начала до конца – от получения исходных «сырых» данных до работы модели в целевой production-системе (CRISP-DM). Далее уровень специалиста определяется глубиной знаний и опытом работы на каждом из этапов, а также методикой познания неизвестной предметной области.

Многие начинают с позиции Data Engineer и, осваивая детали этапа подготовки данных, переходят к полноценному решению задач.

2. Основными инструментами являются: статистика, теория вероятностей, алгоритмы и структуры данных: деревья, регрессии, нейросети, методы кластеризации, работы с рядами и прочее. Языки, ориентированные на анализ данных, например Python и R. Платформы для работы с большими объемами данных, например Hadoop, Spark.

3. Формальное образование не имеет значения: в нашей компании есть доктора наук с достижениями международного уровня и студенты, пока только получающие высшее образование. Главное – фактические навыки, искренняя вовлеченность в процесс и постоянный профессиональный рост.

4. Опыт работы определяет уровень задач, которые сотрудник будет решать. И требования к опыту, соответственно, варьируются в довольно широком диапазоне.

5. Мы искренне ценим всех членов команды, поскольку каждый из нас имеет конкретное и осязаемое влияние на конечный результат. То есть каждый несет ответственность за плоды своей работы вне зависимости от уровня решаемых задач. Поэтому важными требованиями, помимо технических, являются также самодисциплина и инициативность.

Евгений Базаров, Data Scientist в компании besedo

1. Data Scientist – человек, который умеет и любит работать с данными любого размера, способен проводить независимые исследования, готов работать над новыми нерешенными проблемами и знает, как задавать правильные вопросы. Для успешной работы Data Scientist необходимы навыки в самых различных сферах:

программирование: Python, R, Java;
статистика и математика;
машинное обучение: Supervised, Unsupervised и Rein-forcement;
обработка данных: базы данных SQL и NoSQL;
визуализация и презентация данных.

Также большое влияние может оказать наличие интуиции, навыков управления проектами, знание отрасли, в которой вы работаете.

2. Довольно сложно описать точный инструментарий Data Scientist, так как все зависит от организации и проекта, над которым он работает. Попробую привести пример такого инструментария:

языки программирования: Python, R, Java;
распределенные вычисления: Hadoop, HDFD & Map-Reduce, HBase, Pig & Hive;
Extract, Transform, Load (ETL): Flume, Sqoop;
базы данных: SQL(MySQL, PostgreSQL), NoSQL (MongoDB, Cassandra), Neo4j;
фреймворки для анализа данных: Knime, RapidMiner, SAS, SpSS;
визуализация: Tableau, QlikView, Power BI, D3.js;
офисные программы: Microsoft Excel.

Надо понимать, что этот список может варьироваться от компании к компании и что у всех разные требования, поэтому Data Scientist – специальность, где вы каждый день узнаете что-то новое.

3. Если кандидат не оканчивал учебное заведение по специальности Data Scientist, то желательно иметь диплом инженерного или физико-математического вуза, также ценятся сертификаты по пройденным курсам на любых общедоступных образовательных интернет-площадках. Особое внимание уделяется кандидатам, у которых есть Оpen Source-проекты на github, таким образом работодателю легко оценить знания и навыки Data Scientist.

Научные статьи, обмен опытом, инструменты на английском языке, поэтому его знание также необходимо для работы.

4. В данных, с которыми работает Data Scientist, может содержаться конфиденциальная информация для компании, которая не должна выйти за ее пределы, поэтому будет полезно иметь знания компьютерной безопасности, а также готовиться к договору о неразглашении NDA.

Андрей Лысенко, руководитель службы маркетинга и PR АО «Айкумен ИБС»

1. Ключевыми навыками является понимание математических методов класса Machine Learning, включающих алгоритмы кластеризации и классификации, а также уверенное владение средствами Apache Spark для распределенной обработки неструктурированных данных в экосистеме Hadoop. Из языков компонентного программирования особым спросом пользуется знание не только Scala, но его прототипов Java и Groovy.

2. Применяемые инструменты Data Scienсе сконцентрированы прежде всего вокруг современных алгоритмов машинного обучения для поддержки автоматизированных процессов анализа, моделирования и визуализации. Они включают интерактивную среду разработки Jupyter Notebook, а также программные библиотеки Pandas и Scikit-learn на языке Python. Кроме того, находят активное применение аналитические методы обработки объектных графов связей.

3. Претенденту на позицию Data Scientist необходимо иметь полное высшее образование от МГУ, МИФИ, МФТИ или МГТУ в области математики, математической статистики или моделирования, желательно с наличием диссертации по теме обработки и анализа данных. Приветствуется знание технического английского языка и отраслевой терминологии для активного использования зарубежной литературы.

4. Основное требование по опыту заключается в не менее чем трехлетней практике реализации ИT-проектов по решению прикладных информационно-аналитических задач с использованием больших объемов данных в сфере финансов, энергетики, политики и безопасности.

5. Специфика департамента разработки «Айкумен ИБС» состоит прежде всего в технологическом развитии собственной поисково-аналитической платформы и проектов на ее основе, связанных со сбором, обработкой и анализом больших потоков неструктурированных данных для выявления и практической интерпретации скрытых инсайтов и неявных закономерностей в интересах разноотраслевых и государственных заказчиков.

Подготовил Игорь Штомпель

Комментарии отсутствуют

Добавить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

Tel.: (499) 277-12-45
E-mail: sa@samag.ru