| 
                                    Рубрика: 
                                    
									Карьера/Образование / 
									Вектор роста
                                     | 
									
									
	Facebook 
	
	Мой мир 
	Вконтакте 
	Одноклассники 
	Google+ 
 
									 | 
                                 
                             
							
							
							  ОКСАНА СЕЛЕНДЕЕВА, основатель Международной школы программирования для детей CODDY 
Data Science под микроскопом
Последнее десятилетие наука о данных – Data Science – стремительно развивается. Ее рождение как самостоятельной дисциплины связано [1] с именами ученых Ди Джей Патил [2] и Джеффа Хаммербахера [3], работавших надсовершенствованием социальных сетей в США 
Они придумали ей имя и сформулировали основную задачу – найти взаимосвязи в огромном массиве информации и на их основе сформировать новые. В отличие от других направлений аналитики в Data Science присутствуют облачные вычисления, обработка петабайтов данных и их визуализация. 
Терминология
Data Science часто употребляют вместе с терминами machine learning, deep learning и big data. На первый взгляд кажется, что эти понятия неразрывно связаны друг с другом, однако это не так. Data Science – обобщающее понятие, область науки, в которую входят все другие технологии. 
| Data Science – область, которая затрагивает каждую организацию и каждого человека | 
 
 
Data Science изучает массив данных, как его анализировать и какие выводы делать. Данные могут быть большими, тогда они называются big data. Точного определения, какие данные считать большими, нет. 
Есть два подхода к классификации. Первый ориентируется на объем и относит [4] к big data информацию от 100 Гбайт в день. 
Второй классифицирует данные по возможностям обработки и считает большими данными информацию, для обработки которой требуется мощность более одного компьютера. Например, Дэвид Кантер, аналитик Real World Technologies, заявляет [5], что big data начинается тогда, когда невозможно массив информации поместить в память сервера. Это примерно 3 терабайта. 
Чтобы работать с большими и малыми данными, необходимо их правильно собирать и обрабатывать. Такой процесс называют data mining. Обычно для анализа собираются [6] два типа данных – знания и другая информация: сырые исходные данные или обработанные данные, которые имеют ценность. 
Data mining решает следующие задачи: 
- классификация,
 
- кластеризация,
 
- ассоциация,
 
- прогнозирование,
 
- сокращение описаний,
 
- анализ отклонений
 
- и визуализация.
 
 
Помимо Data Mining в Data Science, используются и другие методы. Эксперты McKinsey считают [7], что к ним относятся: 
- смешение и интеграция данных,
 
- распознавание образов,
 
- прогнозная аналитика,
 
- имитационное моделирование,
 
- пространственный и статистический анализ,
 
- искусственные нейронные сети
 
- и машинное обучение.
 
 
Согласно справочнику для разработчиков Google [8], machine learning – это программа или система, которая строит (обучает) прогностические модели на основе входных данных. 
Прогнозы строятся по выбранным признакам: бинарным, номинальным, порядковым или количественным. На основании признаков в множестве объектов находят алгоритм и строят функцию, которая найдет взаимосвязь и подходящие объекты в новом массиве данных. 
Обучение распознаванию объектов возможно с помощью учителя или без. В первом случае прогнозы будут точнее. 
Применение машинного обучения весьма широко. Это и поиск месторождений полезных ископаемых, медицинская диагностика, управление технологическими процессами, кредитный скоринг, прогнозирование объема продаж, рекомендательные системы, перевод речи в текст и даже компьютерное зрение. 
Еще есть deep learning – глубокое обучение – более продвинутое обучение, которое использует нейронные сети – аналог человеческого мозга. Для метода машинного обучения исследователи должны загрузить весь массив данных, чтобы научить программу распознавать объект. 
В случае с глубоким обучением программа способна сама обобщать и анализировать информацию, чтобы находить новые взаимосвязи и объекты и сопоставлять их с уже изученными. 
Чаще всего deep learning используется для анализа фотографий, видео или в медицинской диагностике. 
Специалисты
В направлении Data Science развиваются несколько профессий: Data Scientist, Data Analytic, инженер по машинному обучению, инженер данных. 
Как правило, общее название должности – Data Scientist. Однако следует различать специалистов: одни занимаются исследованиями, другие – бизнес-продуктом. 
Первые решают творческие задачи и двигают отрасль вперед. Вторые работают над прикладными задачами бизнеса и используют наработки и методы, созданные учеными. 
В крупных ИT-корпорациях обычно обе группы совмещены – решением задач занимаются ученые-исследователи, которые создают принципиально новые подходы в Data Science. 
Пока образование в сфере «наука о данных» не достаточно распространено, специалисты приходят из других дисциплин: математики, экономики, статистики, информатики. Выпускники вузов дополнительно проходят курсы по машинному обучению или анализу данных, чтобы начать карьеру в Data Science. 
Идеальный кандидат обладает фундаментальными научными знаниями в математике в комбинации с сильными аналитическими навыками. 
Умение программировать не имеет первостепенного значения для начала работы в качестве Data Scientist. И хотя журнал Harvard Business Review считает [9] основными навыками программирование наряду с умением визуализировать данные, на практике это не главное. 
Согласно недавнему опросу портала Stack Overflow [10], у 62% специалистов по Data Science опыт программирования менее пяти лет. Очевидно, работодатели идут на компромисс и не выделяют умение кодить как доминирующий фактор при приеме на работу. Более важными являются знания кандидатов в других областях: математике, теории вероятности, статистике. 
Любопытны и другие сведения из опроса Stack Overflow. Типовой портрет Data Scientist – мужчина 30 лет с высшим образованием. Причем уровень образования намного выше, чем у программистов, работающих в других сферах. Среди специалистов по Data Science в 1,5 раза больше имеющих степень магистра и почти в пять раз больше имеющих степень PhD. Всего в опросе приняли участие 100 тысяч ИТ-специалистов, из них 7,7% работающих в Data Science. 
Будущее
Развитие науки о данных тесно связано с общим развитием технологий. Многие методы и алгоритмы, применяемые сегодня, были разработаны еще в XX веке, однако из-за слабых вычислительных мощностей или дороговизны процессов не получили всеобщего распространения. Например, первый искусственный интеллект был создан в 1955 году, распознавание образов – в 1959-м, обучение нейронных сетей – в конце 1980-х, но существенный сдвиг в их разработке начался только в 2000-х. 
Константин Воронцов [11], профессор РАН, д. ф.-м. н., считает, что буму технологий способствовали три фактора: 
- Накопление больших выборок данных за счет повсеместности и доступности компьютерных технологий.
 
- Накопление критической массы опыта за счет постепенного развития математических методов и эвристик.
 
- Рост вычислительных мощностей по закону Мура благодаря достижениям микроэлектроники.
 
 
Согласно отчету Белого дома США за 2016 год «О влиянии искусственного интеллекта на экономику будущего» (в отчете термины «искусственный интеллект» и «машинное обучение» синонимизированы), нас ожидают [12] стремительное дальнейшее развитие и рост потребности в людях, способных работать с машинным обучением и сопутствующими технологиями. Чтобы покрыть дефицит высококвалифицированных кадров, в США предлагается ввести образование всфере технологий начиная с детского сада. 
Правительство США предполагает [12], что развитие Data Science приведет к оптимизации логистических, энергетических и транспортных сетей, развитию информационных сервисов, персональной медицины и созданию распределенной экономики. 
В России летом 2017 года была утверждена программа «Цифровая экономика» [13], в числе приоритетных задач которой стоит развитие технологии больших данных, нейротехнологий и искусственного интеллекта. Программа рассчитана до 2024 года, на ее выполнение выделено 500 млрд рублей в соотношении 150 млрд рублей – бюджетное финансирование, остальное – инвестиции бизнеса. 
Data Science – область, которая затрагивает каждую организацию и каждого человека. От того, насколько мы научимся работать с информацией и решать сложные задачи, будут зависеть экономический прогресс и повышение качества жизни людей. 
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
 
- https://twitter.com/dpatil
 
- https://twitter.com/hackingdata
 
- https://www.osp.ru/cio/2015/02/13045055/
 
- https://twitter.com/thekanter/status/559034352474914816
 
- https://habr.com/post/95209/
 
- https://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-data-the-next-frontier-for-innovation
 
- https://developers.google.com/machine-learning/glossary/#d
 
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
 
- https://insights.stackoverflow.com/survey/2018
 
- https://www.hse.ru/org/persons/26065425
 
- https://obamawhitehouse.archives.gov/sites/default/files/whitehouse_files/microsites/ostp/NSTC/preparing_for_the_future_of_ai.pdf
 
- http://gov.garant.ru/SESSION/PILOT/main.htm
 
 
Ключевые слова: Data Science, машинное обучение, статистика.  
	Facebook 
	
	Мой мир 
	Вконтакте 
	Одноклассники 
	Google+ 
 
                             |