Data Science под микроскопом::Журнал СА 11.2018
www.samag.ru
     
Поиск   
              
 www.samag.ru    Web  0 товаров , сумма 0 руб.
E-mail
Пароль  
 Запомнить меня
Регистрация | Забыли пароль?
Журнал "Системный администратор"
Журнал «БИТ»
Подписка
Архив номеров
Где купить
Наука и технологии
Авторам
Рекламодателям
Контакты
   

  Опросы
  Статьи

Событие  

В банке рассола ждет сисадмина с полей фрактал-кукумбер

Читайте впечатления о слете ДСА 2024, рассказанные волонтером и участником слета

 Читать далее...

Организация бесперебойной работы  

Бесперебойная работа ИТ-инфраструктуры в режиме 24/7 Как обеспечить ее в нынешних условиях?

Год назад ИТ-компания «Крок» провела исследование «Ключевые тренды сервисного рынка 2023». Результаты

 Читать далее...

Книжная полка  

Читайте и познавайте мир технологий!

Издательство «БХВ» продолжает радовать выпуском интересных и полезных, к тому же прекрасно

 Читать далее...

СУБД PostgreSQL  

СУБД Postgres Pro

Сертификация по новым требованиям ФСТЭК и роль администратора без доступа к данным

 Читать далее...

Критическая инфраструктура  

КИИ для оператора связи. Готовы ли компании к повышению уровня кибербезопасности?

Похоже, что провайдеры и операторы связи начали забывать о требованиях законодательства

 Читать далее...

Архитектура ПО  

Архитектурные метрики. Качество архитектуры и способность системы к эволюционированию

Обычно соответствие программного продукта требованиям мы проверяем через скоуп вполне себе понятных

 Читать далее...

Как хорошо вы это знаете  

Что вам известно о разработках компании ARinteg?

Компания ARinteg (ООО «АРинтег») – системный интегратор на российском рынке ИБ –

 Читать далее...

Графические редакторы  

Рисование абстрактных гор в стиле Paper Cut

Векторный графический редактор Inkscape – яркий представитель той прослойки open source, с

 Читать далее...

День сисадмина  

Учите матчасть! Или как стать системным администратором

Лето – время не только отпусков, но и хорошая возможность определиться с профессией

 Читать далее...

День сисадмина  

Живой айтишник – это всегда движение. Остановка смерти подобна

Наши авторы рассказывают о своем опыте и дают советы начинающим системным администраторам.

 Читать далее...

Виртуализация  

Рынок решений для виртуализации

По данным «Обзора российского рынка инфраструктурного ПО и перспектив его развития», сделанного

 Читать далее...

Книжная полка  

Как стать креативным и востребованным

Издательский дом «Питер» предлагает новинки компьютерной литературы, а также книги по бизнесу

 Читать далее...

Книжная полка  

От создания сайтов до разработки и реализации API

В издательстве «БХВ» недавно вышли книги, которые будут интересны системным администраторам, создателям

 Читать далее...

Разбор полетов  

Ошибок опыт трудный

Как часто мы легко повторяем, что не надо бояться совершать ошибки, мол,

 Читать далее...

1001 и 1 книга  
19.03.2018г.
Просмотров: 6140
Комментарии: 0
Машинное обучение с использованием библиотеки Н2О

 Читать далее...

12.03.2018г.
Просмотров: 6852
Комментарии: 0
Особенности киберпреступлений в России: инструменты нападения и защита информации

 Читать далее...

12.03.2018г.
Просмотров: 4134
Комментарии: 0
Глубокое обучение с точки зрения практика

 Читать далее...

12.03.2018г.
Просмотров: 2975
Комментарии: 0
Изучаем pandas

 Читать далее...

12.03.2018г.
Просмотров: 3780
Комментарии: 0
Программирование на языке Rust (Цветное издание)

 Читать далее...

19.12.2017г.
Просмотров: 3788
Комментарии: 0
Глубокое обучение

 Читать далее...

19.12.2017г.
Просмотров: 6279
Комментарии: 0
Анализ социальных медиа на Python

 Читать далее...

19.12.2017г.
Просмотров: 3133
Комментарии: 0
Основы блокчейна

 Читать далее...

19.12.2017г.
Просмотров: 3431
Комментарии: 0
Java 9. Полный обзор нововведений

 Читать далее...

16.02.2017г.
Просмотров: 7245
Комментарии: 0
Опоздавших не бывает, или книга о стеке

 Читать далее...

17.05.2016г.
Просмотров: 10615
Комментарии: 0
Теория вычислений для программистов

 Читать далее...

30.03.2015г.
Просмотров: 12334
Комментарии: 0
От математики к обобщенному программированию

 Читать далее...

18.02.2014г.
Просмотров: 13966
Комментарии: 0
Рецензия на книгу «Читаем Тьюринга»

 Читать далее...

13.02.2014г.
Просмотров: 9098
Комментарии: 0
Читайте, размышляйте, действуйте

 Читать далее...

12.02.2014г.
Просмотров: 7052
Комментарии: 0
Рисуем наши мысли

 Читать далее...

10.02.2014г.
Просмотров: 5360
Комментарии: 3
Страна в цифрах

 Читать далее...

18.12.2013г.
Просмотров: 4592
Комментарии: 0
Большие данные меняют нашу жизнь

 Читать далее...

18.12.2013г.
Просмотров: 3400
Комментарии: 0
Компьютерные технологии – корень зла для точки роста

 Читать далее...

04.12.2013г.
Просмотров: 3127
Комментарии: 0
Паутина в облаках

 Читать далее...

03.12.2013г.
Просмотров: 3378
Комментарии: 0
Рецензия на книгу «MongoDB в действии»

 Читать далее...

02.12.2013г.
Просмотров: 2999
Комментарии: 0
Не думай о минутах свысока

 Читать далее...

Друзья сайта  

 Data Science под микроскопом

Архив номеров / 2018 / Выпуск №11 (192) / Data Science под микроскопом

Рубрика: Карьера/Образование /  Вектор роста

Оксана Селендеева ОКСАНА СЕЛЕНДЕЕВА, основатель Международной школы программирования для детей CODDY

Data Science под микроскопом

Последнее десятилетие наука о данных – Data Science – стремительно развивается. Ее рождение как самостоятельной дисциплины связано [1] с именами ученых Ди Джей Патил [2] и Джеффа Хаммербахера [3], работавших надсовершенствованием социальных сетей в США

Они придумали ей имя и сформулировали основную задачу – найти взаимосвязи в огромном массиве информации и на их основе сформировать новые. В отличие от других направлений аналитики в Data Science присутствуют облачные вычисления, обработка петабайтов данных и их визуализация.

Терминология

Data Science часто употребляют вместе с терминами machine learningdeep learning и big data. На первый взгляд кажется, что эти понятия неразрывно связаны друг с другом, однако это не так. Data Science – обобщающее понятие, область науки, в которую входят все другие технологии.

Data Science – область, которая затрагивает каждую организацию и каждого человека

Data Science изучает массив данных, как его анализировать и какие выводы делать. Данные могут быть большими, тогда они называются big data. Точного определения, какие данные считать большими, нет.

Есть два подхода к классификации. Первый ориентируется на объем и относит [4] к big data информацию от 100 Гбайт в день.

Второй классифицирует данные по возможностям обработки и считает большими данными информацию, для обработки которой требуется мощность более одного компьютера. Например, Дэвид Кантер, аналитик Real World Technologies, заявляет [5], что big data начинается тогда, когда невозможно массив информации поместить в память сервера. Это примерно 3 терабайта.

Чтобы работать с большими и малыми данными, необходимо их правильно собирать и обрабатывать. Такой процесс называют data mining. Обычно для анализа собираются [6] два типа данных – знания и другая информация: сырые исходные данные или обработанные данные, которые имеют ценность.

Data mining решает следующие задачи:

  • классификация,
  • кластеризация,
  • ассоциация,
  • прогнозирование,
  • сокращение описаний,
  • анализ отклонений
  • и визуализация.

Помимо Data Mining в Data Science, используются и другие методы. Эксперты McKinsey считают [7], что к ним относятся:

  • смешение и интеграция данных,
  • распознавание образов,
  • прогнозная аналитика,
  • имитационное моделирование,
  • пространственный и статистический анализ,
  • искусственные нейронные сети
  • и машинное обучение.

Согласно справочнику для разработчиков Google [8], machine learning – это программа или система, которая строит (обучает) прогностические модели на основе входных данных.

Прогнозы строятся по выбранным признакам: бинарным, номинальным, порядковым или количественным. На основании признаков в множестве объектов находят алгоритм и строят функцию, которая найдет взаимосвязь и подходящие объекты в новом массиве данных.

Обучение распознаванию объектов возможно с помощью учителя или без. В первом случае прогнозы будут точнее.

Применение машинного обучения весьма широко. Это и поиск месторождений полезных ископаемых, медицинская диагностика, управление технологическими процессами, кредитный скоринг, прогнозирование объема продаж, рекомендательные системы, перевод речи в текст и даже компьютерное зрение.

Еще есть deep learning – глубокое обучение – более продвинутое обучение, которое использует нейронные сети – аналог человеческого мозга. Для метода машинного обучения исследователи должны загрузить весь массив данных, чтобы научить программу распознавать объект.

В случае с глубоким обучением программа способна сама обобщать и анализировать информацию, чтобы находить новые взаимосвязи и объекты и сопоставлять их с уже изученными.

Чаще всего deep learning используется для анализа фотографий, видео или в медицинской диагностике.

Специалисты

В направлении Data Science развиваются несколько профессий: Data ScientistData Analyticинженер по машинному обучениюинженер данных.

Как правило, общее название должности – Data Scientist. Однако следует различать специалистов: одни занимаются исследованиями, другие – бизнес-продуктом.

Первые решают творческие задачи и двигают отрасль вперед. Вторые работают над прикладными задачами бизнеса и используют наработки и методы, созданные учеными.

В крупных ИT-корпорациях обычно обе группы совмещены – решением задач занимаются ученые-исследователи, которые создают принципиально новые подходы в Data Science.

Пока образование в сфере «наука о данных» не достаточно распространено, специалисты приходят из других дисциплин: математики, экономики, статистики, информатики. Выпускники вузов дополнительно проходят курсы по машинному обучению или анализу данных, чтобы начать карьеру в Data Science.

Идеальный кандидат обладает фундаментальными научными знаниями в математике в комбинации с сильными аналитическими навыками.

Умение программировать не имеет первостепенного значения для начала работы в качестве Data Scientist. И хотя журнал Harvard Business Review считает [9] основными навыками программирование наряду с умением визуализировать данные, на практике это не главное.

Согласно недавнему опросу портала Stack Overflow [10], у 62% специалистов по Data Science опыт программирования менее пяти лет. Очевидно, работодатели идут на компромисс и не выделяют умение кодить как доминирующий фактор при приеме на работу. Более важными являются знания кандидатов в других областях: математике, теории вероятности, статистике.

Любопытны и другие сведения из опроса Stack Overflow. Типовой портрет Data Scientist – мужчина 30 лет с высшим образованием. Причем уровень образования намного выше, чем у программистов, работающих в других сферах. Среди специалистов по Data Science в 1,5 раза больше имеющих степень магистра и почти в пять раз больше имеющих степень PhD. Всего в опросе приняли участие 100 тысяч ИТ-специалистов, из них 7,7% работающих в Data Science.

Будущее

Развитие науки о данных тесно связано с общим развитием технологий. Многие методы и алгоритмы, применяемые сегодня, были разработаны еще в XX веке, однако из-за слабых вычислительных мощностей или дороговизны процессов не получили всеобщего распространения. Например, первый искусственный интеллект был создан в 1955 году, распознавание образов – в 1959-м, обучение нейронных сетей – в конце 1980-х, но существенный сдвиг в их разработке начался только в 2000-х.

Константин Воронцов [11], профессор РАН, д. ф.-м. н., считает, что буму технологий способствовали три фактора:

  1. Накопление больших выборок данных за счет повсеместности и доступности компьютерных технологий.
  2. Накопление критической массы опыта за счет постепенного развития математических методов и эвристик.
  3. Рост вычислительных мощностей по закону Мура благодаря достижениям микроэлектроники.

Согласно отчету Белого дома США за 2016 год «О влиянии искусственного интеллекта на экономику будущего» (в отчете термины «искусственный интеллект» и «машинное обучение» синонимизированы), нас ожидают [12] стремительное дальнейшее развитие и рост потребности в людях, способных работать с машинным обучением и сопутствующими технологиями. Чтобы покрыть дефицит высококвалифицированных кадров, в США предлагается ввести образование всфере технологий начиная с детского сада.

Правительство США предполагает [12], что развитие Data Science приведет к оптимизации логистических, энергетических и транспортных сетей, развитию информационных сервисов, персональной медицины и созданию распределенной экономики.

В России летом 2017 года была утверждена программа «Цифровая экономика» [13], в числе приоритетных задач которой стоит развитие технологии больших данных, нейротехнологий и искусственного интеллекта. Программа рассчитана до 2024 года, на ее выполнение выделено 500 млрд рублей в соотношении 150 млрд рублей – бюджетное финансирование, остальное – инвестиции бизнеса.

Data Science – область, которая затрагивает каждую организацию и каждого человека. От того, насколько мы научимся работать с информацией и решать сложные задачи, будут зависеть экономический прогресс и повышение качества жизни людей.

  1. https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
  2. https://twitter.com/dpatil
  3. https://twitter.com/hackingdata
  4. https://www.osp.ru/cio/2015/02/13045055/
  5. https://twitter.com/thekanter/status/559034352474914816
  6. https://habr.com/post/95209/
  7. https://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-data-the-next-frontier-for-innovation
  8. https://developers.google.com/machine-learning/glossary/#d
  9. https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
  10. https://insights.stackoverflow.com/survey/2018
  11. https://www.hse.ru/org/persons/26065425
  12. https://obamawhitehouse.archives.gov/sites/default/files/whitehouse_files/microsites/ostp/NSTC/preparing_for_the_future_of_ai.pdf
  13. http://gov.garant.ru/SESSION/PILOT/main.htm

Ключевые слова: Data Science, машинное обучение, статистика.


Комментарии отсутствуют

Добавить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

               Copyright © Системный администратор

Яндекс.Метрика
Tel.: (499) 277-12-45
E-mail: sa@samag.ru