Data Science под микроскопом::Журнал СА 11.2018
www.samag.ru
     
Поиск   
              
 www.samag.ru    Web  0 товаров , сумма 0 руб.
E-mail
Пароль  
 Запомнить меня
Регистрация | Забыли пароль?
Журнал "Системный администратор"
Журнал «БИТ»
Подписка
Архив номеров
Где купить
Наука и технологии
Авторам
Рекламодателям
Контакты
   

  Опросы
  Статьи

Дата-центры  

Дата-центры: есть ли опасность утечки данных?

Российские компании уже несколько лет испытывают дефицит вычислительных мощностей. Рост числа проектов,

 Читать далее...

Событие  

В банке рассола ждет сисадмина с полей фрактал-кукумбер

Читайте впечатления о слете ДСА 2024, рассказанные волонтером и участником слета

 Читать далее...

Организация бесперебойной работы  

Бесперебойная работа ИТ-инфраструктуры в режиме 24/7 Как обеспечить ее в нынешних условиях?

Год назад ИТ-компания «Крок» провела исследование «Ключевые тренды сервисного рынка 2023». Результаты

 Читать далее...

Книжная полка  

Читайте и познавайте мир технологий!

Издательство «БХВ» продолжает радовать выпуском интересных и полезных, к тому же прекрасно

 Читать далее...

СУБД PostgreSQL  

СУБД Postgres Pro

Сертификация по новым требованиям ФСТЭК и роль администратора без доступа к данным

 Читать далее...

Критическая инфраструктура  

КИИ для оператора связи. Готовы ли компании к повышению уровня кибербезопасности?

Похоже, что провайдеры и операторы связи начали забывать о требованиях законодательства

 Читать далее...

Архитектура ПО  

Архитектурные метрики. Качество архитектуры и способность системы к эволюционированию

Обычно соответствие программного продукта требованиям мы проверяем через скоуп вполне себе понятных

 Читать далее...

Как хорошо вы это знаете  

Что вам известно о разработках компании ARinteg?

Компания ARinteg (ООО «АРинтег») – системный интегратор на российском рынке ИБ –

 Читать далее...

Графические редакторы  

Рисование абстрактных гор в стиле Paper Cut

Векторный графический редактор Inkscape – яркий представитель той прослойки open source, с

 Читать далее...

День сисадмина  

Учите матчасть! Или как стать системным администратором

Лето – время не только отпусков, но и хорошая возможность определиться с профессией

 Читать далее...

День сисадмина  

Живой айтишник – это всегда движение. Остановка смерти подобна

Наши авторы рассказывают о своем опыте и дают советы начинающим системным администраторам.

 Читать далее...

Виртуализация  

Рынок решений для виртуализации

По данным «Обзора российского рынка инфраструктурного ПО и перспектив его развития», сделанного

 Читать далее...

Книжная полка  

Как стать креативным и востребованным

Издательский дом «Питер» предлагает новинки компьютерной литературы, а также книги по бизнесу

 Читать далее...

Книжная полка  

От создания сайтов до разработки и реализации API

В издательстве «БХВ» недавно вышли книги, которые будут интересны системным администраторам, создателям

 Читать далее...

1001 и 1 книга  
19.03.2018г.
Просмотров: 6229
Комментарии: 0
Машинное обучение с использованием библиотеки Н2О

 Читать далее...

12.03.2018г.
Просмотров: 6936
Комментарии: 0
Особенности киберпреступлений в России: инструменты нападения и защита информации

 Читать далее...

12.03.2018г.
Просмотров: 4222
Комментарии: 0
Глубокое обучение с точки зрения практика

 Читать далее...

12.03.2018г.
Просмотров: 3011
Комментарии: 0
Изучаем pandas

 Читать далее...

12.03.2018г.
Просмотров: 3808
Комментарии: 0
Программирование на языке Rust (Цветное издание)

 Читать далее...

19.12.2017г.
Просмотров: 3825
Комментарии: 0
Глубокое обучение

 Читать далее...

19.12.2017г.
Просмотров: 6320
Комментарии: 0
Анализ социальных медиа на Python

 Читать далее...

19.12.2017г.
Просмотров: 3172
Комментарии: 0
Основы блокчейна

 Читать далее...

19.12.2017г.
Просмотров: 3463
Комментарии: 0
Java 9. Полный обзор нововведений

 Читать далее...

16.02.2017г.
Просмотров: 7280
Комментарии: 0
Опоздавших не бывает, или книга о стеке

 Читать далее...

17.05.2016г.
Просмотров: 10647
Комментарии: 0
Теория вычислений для программистов

 Читать далее...

30.03.2015г.
Просмотров: 12368
Комментарии: 0
От математики к обобщенному программированию

 Читать далее...

18.02.2014г.
Просмотров: 14000
Комментарии: 0
Рецензия на книгу «Читаем Тьюринга»

 Читать далее...

13.02.2014г.
Просмотров: 9127
Комментарии: 0
Читайте, размышляйте, действуйте

 Читать далее...

12.02.2014г.
Просмотров: 7079
Комментарии: 0
Рисуем наши мысли

 Читать далее...

10.02.2014г.
Просмотров: 5389
Комментарии: 3
Страна в цифрах

 Читать далее...

18.12.2013г.
Просмотров: 4617
Комментарии: 0
Большие данные меняют нашу жизнь

 Читать далее...

18.12.2013г.
Просмотров: 3428
Комментарии: 0
Компьютерные технологии – корень зла для точки роста

 Читать далее...

04.12.2013г.
Просмотров: 3158
Комментарии: 0
Паутина в облаках

 Читать далее...

03.12.2013г.
Просмотров: 3402
Комментарии: 0
Рецензия на книгу «MongoDB в действии»

 Читать далее...

02.12.2013г.
Просмотров: 3027
Комментарии: 0
Не думай о минутах свысока

 Читать далее...

Друзья сайта  

 Data Science под микроскопом

Архив номеров / 2018 / Выпуск №11 (192) / Data Science под микроскопом

Рубрика: Карьера/Образование /  Вектор роста

Оксана Селендеева ОКСАНА СЕЛЕНДЕЕВА, основатель Международной школы программирования для детей CODDY

Data Science под микроскопом

Последнее десятилетие наука о данных – Data Science – стремительно развивается. Ее рождение как самостоятельной дисциплины связано [1] с именами ученых Ди Джей Патил [2] и Джеффа Хаммербахера [3], работавших надсовершенствованием социальных сетей в США

Они придумали ей имя и сформулировали основную задачу – найти взаимосвязи в огромном массиве информации и на их основе сформировать новые. В отличие от других направлений аналитики в Data Science присутствуют облачные вычисления, обработка петабайтов данных и их визуализация.

Терминология

Data Science часто употребляют вместе с терминами machine learningdeep learning и big data. На первый взгляд кажется, что эти понятия неразрывно связаны друг с другом, однако это не так. Data Science – обобщающее понятие, область науки, в которую входят все другие технологии.

Data Science – область, которая затрагивает каждую организацию и каждого человека

Data Science изучает массив данных, как его анализировать и какие выводы делать. Данные могут быть большими, тогда они называются big data. Точного определения, какие данные считать большими, нет.

Есть два подхода к классификации. Первый ориентируется на объем и относит [4] к big data информацию от 100 Гбайт в день.

Второй классифицирует данные по возможностям обработки и считает большими данными информацию, для обработки которой требуется мощность более одного компьютера. Например, Дэвид Кантер, аналитик Real World Technologies, заявляет [5], что big data начинается тогда, когда невозможно массив информации поместить в память сервера. Это примерно 3 терабайта.

Чтобы работать с большими и малыми данными, необходимо их правильно собирать и обрабатывать. Такой процесс называют data mining. Обычно для анализа собираются [6] два типа данных – знания и другая информация: сырые исходные данные или обработанные данные, которые имеют ценность.

Data mining решает следующие задачи:

  • классификация,
  • кластеризация,
  • ассоциация,
  • прогнозирование,
  • сокращение описаний,
  • анализ отклонений
  • и визуализация.

Помимо Data Mining в Data Science, используются и другие методы. Эксперты McKinsey считают [7], что к ним относятся:

  • смешение и интеграция данных,
  • распознавание образов,
  • прогнозная аналитика,
  • имитационное моделирование,
  • пространственный и статистический анализ,
  • искусственные нейронные сети
  • и машинное обучение.

Согласно справочнику для разработчиков Google [8], machine learning – это программа или система, которая строит (обучает) прогностические модели на основе входных данных.

Прогнозы строятся по выбранным признакам: бинарным, номинальным, порядковым или количественным. На основании признаков в множестве объектов находят алгоритм и строят функцию, которая найдет взаимосвязь и подходящие объекты в новом массиве данных.

Обучение распознаванию объектов возможно с помощью учителя или без. В первом случае прогнозы будут точнее.

Применение машинного обучения весьма широко. Это и поиск месторождений полезных ископаемых, медицинская диагностика, управление технологическими процессами, кредитный скоринг, прогнозирование объема продаж, рекомендательные системы, перевод речи в текст и даже компьютерное зрение.

Еще есть deep learning – глубокое обучение – более продвинутое обучение, которое использует нейронные сети – аналог человеческого мозга. Для метода машинного обучения исследователи должны загрузить весь массив данных, чтобы научить программу распознавать объект.

В случае с глубоким обучением программа способна сама обобщать и анализировать информацию, чтобы находить новые взаимосвязи и объекты и сопоставлять их с уже изученными.

Чаще всего deep learning используется для анализа фотографий, видео или в медицинской диагностике.

Специалисты

В направлении Data Science развиваются несколько профессий: Data ScientistData Analyticинженер по машинному обучениюинженер данных.

Как правило, общее название должности – Data Scientist. Однако следует различать специалистов: одни занимаются исследованиями, другие – бизнес-продуктом.

Первые решают творческие задачи и двигают отрасль вперед. Вторые работают над прикладными задачами бизнеса и используют наработки и методы, созданные учеными.

В крупных ИT-корпорациях обычно обе группы совмещены – решением задач занимаются ученые-исследователи, которые создают принципиально новые подходы в Data Science.

Пока образование в сфере «наука о данных» не достаточно распространено, специалисты приходят из других дисциплин: математики, экономики, статистики, информатики. Выпускники вузов дополнительно проходят курсы по машинному обучению или анализу данных, чтобы начать карьеру в Data Science.

Идеальный кандидат обладает фундаментальными научными знаниями в математике в комбинации с сильными аналитическими навыками.

Умение программировать не имеет первостепенного значения для начала работы в качестве Data Scientist. И хотя журнал Harvard Business Review считает [9] основными навыками программирование наряду с умением визуализировать данные, на практике это не главное.

Согласно недавнему опросу портала Stack Overflow [10], у 62% специалистов по Data Science опыт программирования менее пяти лет. Очевидно, работодатели идут на компромисс и не выделяют умение кодить как доминирующий фактор при приеме на работу. Более важными являются знания кандидатов в других областях: математике, теории вероятности, статистике.

Любопытны и другие сведения из опроса Stack Overflow. Типовой портрет Data Scientist – мужчина 30 лет с высшим образованием. Причем уровень образования намного выше, чем у программистов, работающих в других сферах. Среди специалистов по Data Science в 1,5 раза больше имеющих степень магистра и почти в пять раз больше имеющих степень PhD. Всего в опросе приняли участие 100 тысяч ИТ-специалистов, из них 7,7% работающих в Data Science.

Будущее

Развитие науки о данных тесно связано с общим развитием технологий. Многие методы и алгоритмы, применяемые сегодня, были разработаны еще в XX веке, однако из-за слабых вычислительных мощностей или дороговизны процессов не получили всеобщего распространения. Например, первый искусственный интеллект был создан в 1955 году, распознавание образов – в 1959-м, обучение нейронных сетей – в конце 1980-х, но существенный сдвиг в их разработке начался только в 2000-х.

Константин Воронцов [11], профессор РАН, д. ф.-м. н., считает, что буму технологий способствовали три фактора:

  1. Накопление больших выборок данных за счет повсеместности и доступности компьютерных технологий.
  2. Накопление критической массы опыта за счет постепенного развития математических методов и эвристик.
  3. Рост вычислительных мощностей по закону Мура благодаря достижениям микроэлектроники.

Согласно отчету Белого дома США за 2016 год «О влиянии искусственного интеллекта на экономику будущего» (в отчете термины «искусственный интеллект» и «машинное обучение» синонимизированы), нас ожидают [12] стремительное дальнейшее развитие и рост потребности в людях, способных работать с машинным обучением и сопутствующими технологиями. Чтобы покрыть дефицит высококвалифицированных кадров, в США предлагается ввести образование всфере технологий начиная с детского сада.

Правительство США предполагает [12], что развитие Data Science приведет к оптимизации логистических, энергетических и транспортных сетей, развитию информационных сервисов, персональной медицины и созданию распределенной экономики.

В России летом 2017 года была утверждена программа «Цифровая экономика» [13], в числе приоритетных задач которой стоит развитие технологии больших данных, нейротехнологий и искусственного интеллекта. Программа рассчитана до 2024 года, на ее выполнение выделено 500 млрд рублей в соотношении 150 млрд рублей – бюджетное финансирование, остальное – инвестиции бизнеса.

Data Science – область, которая затрагивает каждую организацию и каждого человека. От того, насколько мы научимся работать с информацией и решать сложные задачи, будут зависеть экономический прогресс и повышение качества жизни людей.

  1. https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
  2. https://twitter.com/dpatil
  3. https://twitter.com/hackingdata
  4. https://www.osp.ru/cio/2015/02/13045055/
  5. https://twitter.com/thekanter/status/559034352474914816
  6. https://habr.com/post/95209/
  7. https://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-data-the-next-frontier-for-innovation
  8. https://developers.google.com/machine-learning/glossary/#d
  9. https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
  10. https://insights.stackoverflow.com/survey/2018
  11. https://www.hse.ru/org/persons/26065425
  12. https://obamawhitehouse.archives.gov/sites/default/files/whitehouse_files/microsites/ostp/NSTC/preparing_for_the_future_of_ai.pdf
  13. http://gov.garant.ru/SESSION/PILOT/main.htm

Ключевые слова: Data Science, машинное обучение, статистика.


Комментарии отсутствуют

Добавить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

               Copyright © Системный администратор

Яндекс.Метрика
Tel.: (499) 277-12-45
E-mail: sa@samag.ru