Анализ и обработка больших данных::Журнал СА 7-8.2014
www.samag.ru
     
Поиск   
              
 www.samag.ru    Web  0 товаров , сумма 0 руб.
E-mail
Пароль  
 Запомнить меня
Регистрация | Забыли пароль?
Журнал "Системный администратор"
Журнал «БИТ»
Наука и технологии
Подписка
Где купить
Авторам
Рекламодателям
Архив номеров
Контакты
   

  Опросы
  Статьи

Электронный документооборот  

5 способов повысить безопасность электронной подписи

Область применения технологий электронной подписи с каждым годом расширяется. Все больше задач

 Читать далее...

Рынок труда  

Системные администраторы по-прежнему востребованы и незаменимы

Системные администраторы, практически, есть везде. Порой их не видно и не слышно,

 Читать далее...

Учебные центры  

Карьерные мечты нужно воплощать! А мы поможем

Школа Bell Integrator открывает свои двери для всех, кто хочет освоить перспективную

 Читать далее...

Гость номера  

Дмитрий Галов: «Нельзя сказать, что люди становятся доверчивее, скорее эволюционирует ландшафт киберугроз»

Использование мобильных устройств растет. А вместе с ними быстро растет количество мобильных

 Читать далее...

Прошу слова  

Твердая рука в бархатной перчатке: принципы soft skills

Лауреат Нобелевской премии, специалист по рынку труда, профессор Лондонской школы экономики Кристофер

 Читать далее...

1001 и 1 книга  
19.03.2018г.
Просмотров: 9943
Комментарии: 0
Потоковая обработка данных

 Читать далее...

19.03.2018г.
Просмотров: 8154
Комментарии: 0
Релевантный поиск с использованием Elasticsearch и Solr

 Читать далее...

19.03.2018г.
Просмотров: 8259
Комментарии: 0
Конкурентное программирование на SCALA

 Читать далее...

19.03.2018г.
Просмотров: 5226
Комментарии: 0
Машинное обучение с использованием библиотеки Н2О

 Читать далее...

12.03.2018г.
Просмотров: 5911
Комментарии: 0
Особенности киберпреступлений в России: инструменты нападения и защита информации

 Читать далее...

Друзья сайта  

 Анализ и обработка больших данных

Архив номеров / 2014 / Выпуск №7-8 (140-141) / Анализ и обработка больших данных

Рубрика: Карьера/Образование /  Образование в сети

Игорь Штомпель ИГОРЬ ШТОМПЕЛЬ, инженер, системный администратор. Сфера профессиональных интересов – свободное программное обеспечение, keepercoder@gmail.com

Анализ и обработка больших данных

Все большую популярность в ИТ-технологиях набирает концепция больших данных. Наука о данных (Data Science, Datalogy) стала самостоятельной академической дисциплиной. Познакомимся с рядом курсов, в которых раскрываются современные достижения в этой области ИТ-технологий

Введение в аналитику больших массивов данных

  • Авторы: Ю. Аникин, И. Борисова, Н. Загоруйко, А. Зырянов, Е. Павловский.
  • Учебное заведение: Интернет-Университет Информационных Технологий (ИНТУИТ, intuit.ru).
  • Специальность: Аналитик, Администратор баз данных.
  • Лекции: 28.
  • Материалы: Видео, презентации (в формате .pptx).
  • Уровень сложности: Специалисты.
  • Сертификат: Да.
  • Источник: http://intuit.ru/studies/courses/12385/1181/info.

Данный курс призван помочь получить представление о состоянии аналитики больших массивов данных.

Начало лекций – введение в проблемы больших данных (Big Data), в котором дается общее понятие о дисциплине, вводится термин «большие данные» и раскрываются общие процессы аналитики в данной области, включая описание специальности Data Scientist. Далее авторы предлагают обратить внимание на Data Mining, в рамках которого они касаются основ когнитивного анализа данных, классификации задач и функции конкурентного сходства, создания алгоритмов с использованием FriS-функции, информативности и выбора признаков, обнаружения ошибок и заполнения пробелов.

Для статической обработки данных используется язык R. Из лекций можно получить о нем общие сведения, включая основные функции, типы данных и синтаксис языка. После изучения теории Big Data, Data Mining и теории и практики языка R нужно познакомиться с инструментарием Data Mining, ведь не будем забывать, что курс посвящен аналитике больших данных. На этом этапе сам язык R уже рассматривается как инструмент Data Mining. Так, например, уделяется внимание решению задач, включая взаимодействие R и Hadoop. Кроме того, дается информация о Weka (свободное ПО для анализа данных), библиотеках для Data Mining и, в частности, о библиотеке Pandas (Python Data Analysis Library – свободное ПО для структурирования и анализа данных).

В заключение исследуются технологии хранения больших данных. От изучения вопроса о необходимости новых хранилищ, а также свойств больших данных и ограничений RDBMS до требований ACID, CAP-теоремы, архитектуры BASE, NoSQL, MapReduce, а также колоночных, документо-ориентированных и графовых хранилищ.

Курс можно рассматривать как хорошее введение в проблематику аналитической обработки данных, от которого можно оттолкнуться в поиске и получении более глубокой информации в данной области.

Обзорный курс по анализу данных

  • Авторы: Ю. Киселева.
  • Учебное заведение: Проект Лекториум (lektorium.tv).
  • Специальность: Аналитик, Администратор баз данных.
  • Лекции: 12.
  • Материалы: Видео, презентации.
  • Уровень сложности: Специалисты.
  • Сертификат: Нет.
  • Источник: http://www.lektorium.tv/course/22822.

Можно предложить в качестве обзорного курса по проблемам анализа данных, он был опубликован проектом «Лекториум». Начало – погружение в проблемы больших данных и их анализ. А далее уже находят отражение актуальные подходы и методы для анализа данных. Вы узнаете о поиске похожих объектов (метрики расстояний – евклидовы и неевклидовы, поиск похожих документов – k-grams или k-shingles и minhashing) и поиске частотных объектов (ассоциативные правила, алгоритмы для поиска частотных объектов).

Получите необходимые знания о кластеризации (задача кластеризации, методы, алгоритмы k-means и CURE) и классификации текста (виды классификации; постановка задачи, подходы, применения; построение обучения классификатора; оценка качества классификации).

Отдельное внимание уделено системам рекомендации (понятие и предназначение, основные проблемы и методы их решения, типы рекомендательных систем и их плюсы и минусы; оценка качества системы) и анализу данных для интернет-рекламы (онлайн-алгоритмы, задача сопоставления, история рекламы, задача adwords).

К сожалению, лекции с 8-й по 10-ю на момент написания статьи были недоступны. Таким образом, не все проблемы, которые осветили авторы курса, могут стать объектом исследования, полный обзор, в рамках концепции автора, не открыт для изучения. Но в то же время доступные для ознакомления лекции могут оказаться полезными для формирования фундамента представлений об анализе данных.

Введение в науку о данных

  • Авторы: B. Howe.
  • Учебное заведение: Проект Coursera (coursera.org).
  • Специальность: Аналитик, Администратор баз данных.
  • Лекции: 97.
  • Материалы: Видео.
  • Уровень сложности: Специалисты.
  • Сертификат: Нет.
  • Источник: https://www.coursera.org/course/datasci.

Курс, который позволяет составить наиболее полное представление об основах науки о данных (Data Science). В аннотации курса обращается внимание на то, что эта область деятельности требует наличия множества навыков, а традиционные программы обучения не позволяют приобрести их все и в должной мере.

Для успешного освоения курса необходимо иметь средний (intermediate) уровень в области программирования баз данных. По градации B. Howe (Вашингтонский университет), автора курса, – это эквивалентно двум годам обучения в колледже США со специализацией в ИТ.

Если вам интересна проблематика больших данных, то курс стоит прослушать. В нем достаточно подробно освещается широкий круг проблем и инструментов: история науки, приводятся примеры больших данных, реляционная алгебра в связи с базами данных, параллельные базы данных и организация параллельных запросов, Hadoop, MapReduce, алгоритмы Big Data, хранилища «ключ-значение» (key-value stores) и NoSQL, компромиссы между SQL и NoSQL, статистическое моделирование, машинное обучение, визуализация, визуальный анализ данных, анализ графов (включая PageRank, семантический веб и многое другое), этические проблемы при работе с большими данными.

Итак, изучив все лекции, вы получите необходимые теоретические знания о Data Science и практические навыки для эффективной работы с большими данными.

Технология обработки больших объемов данных

  • Авторы: Д. Барашев, А. Дольник.
  • Учебное заведение: Проект Лекториум (lektorium.tv).
  • Специальность: Аналитик, Администратор баз данных.
  • Лекции: 10.
  • Материалы: Видео.
  • Уровень сложности: Специалисты.
  • Сертификат: Нет.
  • Источник: http://www.lektorium.tv/course/22932.

Одно из центральных мест при работе с большими данными занимают проблемы хранения и обработки. На сегодняшний день в этой области развития ИТ-технологий есть ряд интересных решений, уже прошедших успешные внедрения и активно использующихся. О них и идет речь в курсе, который является хорошим введение в указанную проблематику.

Важную роль в обработке больших данных играют файловые системы. Этот курс поможет расширить свое представление о распределенных файловых системах, их истории и функционировании. В качестве примеров разбирается архитектура GFS и Apache HDFS.

Ни один курс, посвященный обработке больших данных, не может не содержать информацию о MapReduce. Отметим, что, помимо общих проблем, таких, как, например, назначение MapReduce, рассматриваются проблемы его эффективности. Также авторы акцентировали внимание на полнотекстовом поиске в большом количестве документов (рассматриваются актуальные для решения проблемы структуры данных, методы обработки, а также соответствие документа запросу), а также на статическом ранге документов и распределенных вычислениях на графах. Затрагивается ряд интересных вопросов: статический независимый от запроса ранг документов и его вариант – PageRank, вычисление PageRank с использованием MapReduce, системы распределенного выполнения алгоритмов на графах.

Еще одной обязательной составляющей при разговоре о хранилищах для больших данных является NoSQL. Особенность лекции в том, что в ней после введения в NoSQL рассказывается о Google BigTable. Среди проблем, нашедших отражение, можно выделить предпосылки появления СУБД NoSQL, их разновидности и основные отличия от реляционных СУБД, подробная информация о Google BigTable.

В целом в лекциях получило освещение большое количество проблем, связанных с обработкой больших данных. Из тех, что не отражены выше, еще можно упомянуть, например, следующие: CAP-теорема; модели согласованности; средства интеграции больших объемов данных; создание ETL-процесса (на примере обработки отчетов о продажах в торговой сети); поиск похожих документов (сопутствующие вопросы – схожесть объектов, покрытие текста перекрывающимися n-граммами, понижение размерности множества, пространственно-чувствительное хеширование).

Курс позволяет получить базовое представление о подходах и методах обработки больших данных. В сочетании с предыдущими рассмотренными курсами этот позволит укрепить фундамент знаний в области Data Scince и Big Data.

Параллельное программирование в Hadoop

  • Авторы: А. Созыкин.
  • Учебное заведение: Сайт автора (http://www.asozykin.ru).
  • Специальность: Аналитик, Администратор баз данных, Программист.
  • Лекции: 6.
  • Материалы: Презентации (в формате .ppt).
  • Уровень сложности: Специалисты.
  • Сертификат: Нет.
  • Источник: http://www.asozykin.ru/courses/hadoop.

Вы получите общее представление о технологиях Hadoop и MapReduce: что такое Hadoop, и каков его состав, его архитектура, какие задачи призваны решать Hadoop и MapReduce, кем используется Hadoop. Внимание уделено основам Hadoop HDFS и ее архитектуре, функциям MAP и Reduce, месту MapRecude в Hadoop, потоку данных MapReduce, программированию Hadoop и системам на его основе.

В заключение курса дана информация об основах MapReduce API (базовые компоненты MapReduce API, Mapper, Reducer, Driver), а также основах администрирования Hadoop (установка, администрирование MapReduce и администрирование HDFS).


Комментарии отсутствуют

Добавить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

               Copyright © Системный администратор

Яндекс.Метрика
Tel.: (499) 277-12-41
Fax: (499) 277-12-45
E-mail: sa@samag.ru