Анализ и обработка больших данных::Журнал СА 7-8.2014
www.samag.ru
     
Поиск   
              
 www.samag.ru    Web  0 товаров , сумма 0 руб.
E-mail
Пароль  
 Запомнить меня
Регистрация | Забыли пароль?
Журнал "Системный администратор"
Журнал «БИТ»
Подписка
Архив номеров
Где купить
Наука и технологии
Авторам
Рекламодателям
Контакты
   

  Опросы
  Статьи

День сисадмина  

Учите матчасть! Или как стать системным администратором

Лето – время не только отпусков, но и хорошая возможность определиться с профессией

 Читать далее...

День сисадмина  

Живой айтишник – это всегда движение. Остановка смерти подобна

Наши авторы рассказывают о своем опыте и дают советы начинающим системным администраторам.

 Читать далее...

Виртуализация  

Рынок решений для виртуализации

По данным «Обзора российского рынка инфраструктурного ПО и перспектив его развития», сделанного

 Читать далее...

Книжная полка  

Как стать креативным и востребованным

Издательский дом «Питер» предлагает новинки компьютерной литературы, а также книги по бизнесу

 Читать далее...

Книжная полка  

От создания сайтов до разработки и реализации API

В издательстве «БХВ» недавно вышли книги, которые будут интересны системным администраторам, создателям

 Читать далее...

Разбор полетов  

Ошибок опыт трудный

Как часто мы легко повторяем, что не надо бояться совершать ошибки, мол,

 Читать далее...

Принципы проектирования  

Dependency Inversion Principle. Принцип инверсии зависимостей в разработке

Мы подошли к последнему принципу проектирования приложений из серии SOLID – Dependency

 Читать далее...

Рынок труда  

Вакансия: Администратор 1С

Администратор 1С – это специалист, который необходим любой организации, где установлены программы

 Читать далее...

Книжная полка  

Книги для профессионалов, студентов и пользователей

Книги издательства «БХВ» вышли книги для тех, кто хочет овладеть самыми востребованными

 Читать далее...

Принципы проектирования  

Interface Segregation Principle. Принцип разделения интерфейсов в проектировании приложений

Эта статья из серии «SOLID» посвящена четвертому принципу проектирования приложений – Interface

 Читать далее...

Книжная полка  

Секрет успешных людей

Книги издательства «БХВ» по ИТ рассчитаны на разные категории читателей: от новичков

 Читать далее...

Учебные центры  

Карьерные мечты нужно воплощать! А мы поможем

Школа Bell Integrator открывает свои двери для всех, кто хочет освоить перспективную

 Читать далее...

Гость номера  

Дмитрий Галов: «Нельзя сказать, что люди становятся доверчивее, скорее эволюционирует ландшафт киберугроз»

Использование мобильных устройств растет. А вместе с ними быстро растет количество мобильных

 Читать далее...

Прошу слова  

Твердая рука в бархатной перчатке: принципы soft skills

Лауреат Нобелевской премии, специалист по рынку труда, профессор Лондонской школы экономики Кристофер

 Читать далее...

1001 и 1 книга  
19.03.2018г.
Просмотров: 11252
Комментарии: 0
Потоковая обработка данных

 Читать далее...

19.03.2018г.
Просмотров: 9505
Комментарии: 0
Релевантный поиск с использованием Elasticsearch и Solr

 Читать далее...

19.03.2018г.
Просмотров: 9554
Комментарии: 0
Конкурентное программирование на SCALA

 Читать далее...

19.03.2018г.
Просмотров: 5975
Комментарии: 0
Машинное обучение с использованием библиотеки Н2О

 Читать далее...

12.03.2018г.
Просмотров: 6684
Комментарии: 0
Особенности киберпреступлений в России: инструменты нападения и защита информации

 Читать далее...

12.03.2018г.
Просмотров: 3978
Комментарии: 0
Глубокое обучение с точки зрения практика

 Читать далее...

12.03.2018г.
Просмотров: 2903
Комментарии: 0
Изучаем pandas

 Читать далее...

12.03.2018г.
Просмотров: 3704
Комментарии: 0
Программирование на языке Rust (Цветное издание)

 Читать далее...

19.12.2017г.
Просмотров: 3714
Комментарии: 0
Глубокое обучение

 Читать далее...

19.12.2017г.
Просмотров: 6204
Комментарии: 0
Анализ социальных медиа на Python

 Читать далее...

19.12.2017г.
Просмотров: 3055
Комментарии: 0
Основы блокчейна

 Читать далее...

19.12.2017г.
Просмотров: 3359
Комментарии: 0
Java 9. Полный обзор нововведений

 Читать далее...

16.02.2017г.
Просмотров: 7171
Комментарии: 0
Опоздавших не бывает, или книга о стеке

 Читать далее...

17.05.2016г.
Просмотров: 10552
Комментарии: 0
Теория вычислений для программистов

 Читать далее...

30.03.2015г.
Просмотров: 12264
Комментарии: 0
От математики к обобщенному программированию

 Читать далее...

18.02.2014г.
Просмотров: 13901
Комментарии: 0
Рецензия на книгу «Читаем Тьюринга»

 Читать далее...

13.02.2014г.
Просмотров: 9033
Комментарии: 0
Читайте, размышляйте, действуйте

 Читать далее...

12.02.2014г.
Просмотров: 6996
Комментарии: 0
Рисуем наши мысли

 Читать далее...

10.02.2014г.
Просмотров: 5304
Комментарии: 3
Страна в цифрах

 Читать далее...

18.12.2013г.
Просмотров: 4532
Комментарии: 0
Большие данные меняют нашу жизнь

 Читать далее...

18.12.2013г.
Просмотров: 3345
Комментарии: 0
Компьютерные технологии – корень зла для точки роста

 Читать далее...

Друзья сайта  

 Анализ и обработка больших данных

Архив номеров / 2014 / Выпуск №7-8 (140-141) / Анализ и обработка больших данных

Рубрика: Карьера/Образование /  Образование в сети

Игорь Штомпель ИГОРЬ ШТОМПЕЛЬ, инженер, системный администратор. Сфера профессиональных интересов – свободное программное обеспечение, keepercoder@gmail.com

Анализ и обработка больших данных

Все большую популярность в ИТ-технологиях набирает концепция больших данных. Наука о данных (Data Science, Datalogy) стала самостоятельной академической дисциплиной. Познакомимся с рядом курсов, в которых раскрываются современные достижения в этой области ИТ-технологий

Введение в аналитику больших массивов данных

  • Авторы: Ю. Аникин, И. Борисова, Н. Загоруйко, А. Зырянов, Е. Павловский.
  • Учебное заведение: Интернет-Университет Информационных Технологий (ИНТУИТ, intuit.ru).
  • Специальность: Аналитик, Администратор баз данных.
  • Лекции: 28.
  • Материалы: Видео, презентации (в формате .pptx).
  • Уровень сложности: Специалисты.
  • Сертификат: Да.
  • Источник: http://intuit.ru/studies/courses/12385/1181/info.

Данный курс призван помочь получить представление о состоянии аналитики больших массивов данных.

Начало лекций – введение в проблемы больших данных (Big Data), в котором дается общее понятие о дисциплине, вводится термин «большие данные» и раскрываются общие процессы аналитики в данной области, включая описание специальности Data Scientist. Далее авторы предлагают обратить внимание на Data Mining, в рамках которого они касаются основ когнитивного анализа данных, классификации задач и функции конкурентного сходства, создания алгоритмов с использованием FriS-функции, информативности и выбора признаков, обнаружения ошибок и заполнения пробелов.

Для статической обработки данных используется язык R. Из лекций можно получить о нем общие сведения, включая основные функции, типы данных и синтаксис языка. После изучения теории Big Data, Data Mining и теории и практики языка R нужно познакомиться с инструментарием Data Mining, ведь не будем забывать, что курс посвящен аналитике больших данных. На этом этапе сам язык R уже рассматривается как инструмент Data Mining. Так, например, уделяется внимание решению задач, включая взаимодействие R и Hadoop. Кроме того, дается информация о Weka (свободное ПО для анализа данных), библиотеках для Data Mining и, в частности, о библиотеке Pandas (Python Data Analysis Library – свободное ПО для структурирования и анализа данных).

В заключение исследуются технологии хранения больших данных. От изучения вопроса о необходимости новых хранилищ, а также свойств больших данных и ограничений RDBMS до требований ACID, CAP-теоремы, архитектуры BASE, NoSQL, MapReduce, а также колоночных, документо-ориентированных и графовых хранилищ.

Курс можно рассматривать как хорошее введение в проблематику аналитической обработки данных, от которого можно оттолкнуться в поиске и получении более глубокой информации в данной области.

Обзорный курс по анализу данных

  • Авторы: Ю. Киселева.
  • Учебное заведение: Проект Лекториум (lektorium.tv).
  • Специальность: Аналитик, Администратор баз данных.
  • Лекции: 12.
  • Материалы: Видео, презентации.
  • Уровень сложности: Специалисты.
  • Сертификат: Нет.
  • Источник: http://www.lektorium.tv/course/22822.

Можно предложить в качестве обзорного курса по проблемам анализа данных, он был опубликован проектом «Лекториум». Начало – погружение в проблемы больших данных и их анализ. А далее уже находят отражение актуальные подходы и методы для анализа данных. Вы узнаете о поиске похожих объектов (метрики расстояний – евклидовы и неевклидовы, поиск похожих документов – k-grams или k-shingles и minhashing) и поиске частотных объектов (ассоциативные правила, алгоритмы для поиска частотных объектов).

Получите необходимые знания о кластеризации (задача кластеризации, методы, алгоритмы k-means и CURE) и классификации текста (виды классификации; постановка задачи, подходы, применения; построение обучения классификатора; оценка качества классификации).

Отдельное внимание уделено системам рекомендации (понятие и предназначение, основные проблемы и методы их решения, типы рекомендательных систем и их плюсы и минусы; оценка качества системы) и анализу данных для интернет-рекламы (онлайн-алгоритмы, задача сопоставления, история рекламы, задача adwords).

К сожалению, лекции с 8-й по 10-ю на момент написания статьи были недоступны. Таким образом, не все проблемы, которые осветили авторы курса, могут стать объектом исследования, полный обзор, в рамках концепции автора, не открыт для изучения. Но в то же время доступные для ознакомления лекции могут оказаться полезными для формирования фундамента представлений об анализе данных.

Введение в науку о данных

  • Авторы: B. Howe.
  • Учебное заведение: Проект Coursera (coursera.org).
  • Специальность: Аналитик, Администратор баз данных.
  • Лекции: 97.
  • Материалы: Видео.
  • Уровень сложности: Специалисты.
  • Сертификат: Нет.
  • Источник: https://www.coursera.org/course/datasci.

Курс, который позволяет составить наиболее полное представление об основах науки о данных (Data Science). В аннотации курса обращается внимание на то, что эта область деятельности требует наличия множества навыков, а традиционные программы обучения не позволяют приобрести их все и в должной мере.

Для успешного освоения курса необходимо иметь средний (intermediate) уровень в области программирования баз данных. По градации B. Howe (Вашингтонский университет), автора курса, – это эквивалентно двум годам обучения в колледже США со специализацией в ИТ.

Если вам интересна проблематика больших данных, то курс стоит прослушать. В нем достаточно подробно освещается широкий круг проблем и инструментов: история науки, приводятся примеры больших данных, реляционная алгебра в связи с базами данных, параллельные базы данных и организация параллельных запросов, Hadoop, MapReduce, алгоритмы Big Data, хранилища «ключ-значение» (key-value stores) и NoSQL, компромиссы между SQL и NoSQL, статистическое моделирование, машинное обучение, визуализация, визуальный анализ данных, анализ графов (включая PageRank, семантический веб и многое другое), этические проблемы при работе с большими данными.

Итак, изучив все лекции, вы получите необходимые теоретические знания о Data Science и практические навыки для эффективной работы с большими данными.

Технология обработки больших объемов данных

  • Авторы: Д. Барашев, А. Дольник.
  • Учебное заведение: Проект Лекториум (lektorium.tv).
  • Специальность: Аналитик, Администратор баз данных.
  • Лекции: 10.
  • Материалы: Видео.
  • Уровень сложности: Специалисты.
  • Сертификат: Нет.
  • Источник: http://www.lektorium.tv/course/22932.

Одно из центральных мест при работе с большими данными занимают проблемы хранения и обработки. На сегодняшний день в этой области развития ИТ-технологий есть ряд интересных решений, уже прошедших успешные внедрения и активно использующихся. О них и идет речь в курсе, который является хорошим введение в указанную проблематику.

Важную роль в обработке больших данных играют файловые системы. Этот курс поможет расширить свое представление о распределенных файловых системах, их истории и функционировании. В качестве примеров разбирается архитектура GFS и Apache HDFS.

Ни один курс, посвященный обработке больших данных, не может не содержать информацию о MapReduce. Отметим, что, помимо общих проблем, таких, как, например, назначение MapReduce, рассматриваются проблемы его эффективности. Также авторы акцентировали внимание на полнотекстовом поиске в большом количестве документов (рассматриваются актуальные для решения проблемы структуры данных, методы обработки, а также соответствие документа запросу), а также на статическом ранге документов и распределенных вычислениях на графах. Затрагивается ряд интересных вопросов: статический независимый от запроса ранг документов и его вариант – PageRank, вычисление PageRank с использованием MapReduce, системы распределенного выполнения алгоритмов на графах.

Еще одной обязательной составляющей при разговоре о хранилищах для больших данных является NoSQL. Особенность лекции в том, что в ней после введения в NoSQL рассказывается о Google BigTable. Среди проблем, нашедших отражение, можно выделить предпосылки появления СУБД NoSQL, их разновидности и основные отличия от реляционных СУБД, подробная информация о Google BigTable.

В целом в лекциях получило освещение большое количество проблем, связанных с обработкой больших данных. Из тех, что не отражены выше, еще можно упомянуть, например, следующие: CAP-теорема; модели согласованности; средства интеграции больших объемов данных; создание ETL-процесса (на примере обработки отчетов о продажах в торговой сети); поиск похожих документов (сопутствующие вопросы – схожесть объектов, покрытие текста перекрывающимися n-граммами, понижение размерности множества, пространственно-чувствительное хеширование).

Курс позволяет получить базовое представление о подходах и методах обработки больших данных. В сочетании с предыдущими рассмотренными курсами этот позволит укрепить фундамент знаний в области Data Scince и Big Data.

Параллельное программирование в Hadoop

  • Авторы: А. Созыкин.
  • Учебное заведение: Сайт автора (http://www.asozykin.ru).
  • Специальность: Аналитик, Администратор баз данных, Программист.
  • Лекции: 6.
  • Материалы: Презентации (в формате .ppt).
  • Уровень сложности: Специалисты.
  • Сертификат: Нет.
  • Источник: http://www.asozykin.ru/courses/hadoop.

Вы получите общее представление о технологиях Hadoop и MapReduce: что такое Hadoop, и каков его состав, его архитектура, какие задачи призваны решать Hadoop и MapReduce, кем используется Hadoop. Внимание уделено основам Hadoop HDFS и ее архитектуре, функциям MAP и Reduce, месту MapRecude в Hadoop, потоку данных MapReduce, программированию Hadoop и системам на его основе.

В заключение курса дана информация об основах MapReduce API (базовые компоненты MapReduce API, Mapper, Reducer, Driver), а также основах администрирования Hadoop (установка, администрирование MapReduce и администрирование HDFS).


Комментарии отсутствуют

Добавить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

               Copyright © Системный администратор

Яндекс.Метрика
Tel.: (499) 277-12-41
Fax: (499) 277-12-45
E-mail: sa@samag.ru