Анализ и обработка больших данных::Журнал СА 7-8.2014
www.samag.ru
     
Поиск   
              
 www.samag.ru    Web  0 товаров , сумма 0 руб.
E-mail
Пароль  
 Запомнить меня
Регистрация | Забыли пароль?
Журнал "Системный администратор"
Журнал «БИТ»
Подписка
Архив номеров
Где купить
Наука и технологии
Авторам
Рекламодателям
Контакты
   

  Опросы
  Статьи

Дата-центры  

Дата-центры: есть ли опасность утечки данных?

Российские компании уже несколько лет испытывают дефицит вычислительных мощностей. Рост числа проектов,

 Читать далее...

Книжная полка  

Защиты много не бывает

Среди книжных новинок издательства «БХВ» есть несколько изданий, посвященных методам социальной инженерии

 Читать далее...

Событие  

В банке рассола ждет сисадмина с полей фрактал-кукумбер

Читайте впечатления о слете ДСА 2024, рассказанные волонтером и участником слета

 Читать далее...

Организация бесперебойной работы  

Бесперебойная работа ИТ-инфраструктуры в режиме 24/7 Как обеспечить ее в нынешних условиях?

Год назад ИТ-компания «Крок» провела исследование «Ключевые тренды сервисного рынка 2023». Результаты

 Читать далее...

Книжная полка  

Читайте и познавайте мир технологий!

Издательство «БХВ» продолжает радовать выпуском интересных и полезных, к тому же прекрасно

 Читать далее...

СУБД PostgreSQL  

СУБД Postgres Pro

Сертификация по новым требованиям ФСТЭК и роль администратора без доступа к данным

 Читать далее...

Критическая инфраструктура  

КИИ для оператора связи. Готовы ли компании к повышению уровня кибербезопасности?

Похоже, что провайдеры и операторы связи начали забывать о требованиях законодательства

 Читать далее...

Архитектура ПО  

Архитектурные метрики. Качество архитектуры и способность системы к эволюционированию

Обычно соответствие программного продукта требованиям мы проверяем через скоуп вполне себе понятных

 Читать далее...

Как хорошо вы это знаете  

Что вам известно о разработках компании ARinteg?

Компания ARinteg (ООО «АРинтег») – системный интегратор на российском рынке ИБ –

 Читать далее...

Графические редакторы  

Рисование абстрактных гор в стиле Paper Cut

Векторный графический редактор Inkscape – яркий представитель той прослойки open source, с

 Читать далее...

День сисадмина  

Учите матчасть! Или как стать системным администратором

Лето – время не только отпусков, но и хорошая возможность определиться с профессией

 Читать далее...

День сисадмина  

Живой айтишник – это всегда движение. Остановка смерти подобна

Наши авторы рассказывают о своем опыте и дают советы начинающим системным администраторам.

 Читать далее...

Виртуализация  

Рынок решений для виртуализации

По данным «Обзора российского рынка инфраструктурного ПО и перспектив его развития», сделанного

 Читать далее...

Книжная полка  

Как стать креативным и востребованным

Издательский дом «Питер» предлагает новинки компьютерной литературы, а также книги по бизнесу

 Читать далее...

1001 и 1 книга  
19.03.2018г.
Просмотров: 6457
Комментарии: 0
Машинное обучение с использованием библиотеки Н2О

 Читать далее...

12.03.2018г.
Просмотров: 7150
Комментарии: 0
Особенности киберпреступлений в России: инструменты нападения и защита информации

 Читать далее...

12.03.2018г.
Просмотров: 4431
Комментарии: 0
Глубокое обучение с точки зрения практика

 Читать далее...

12.03.2018г.
Просмотров: 3096
Комментарии: 0
Изучаем pandas

 Читать далее...

12.03.2018г.
Просмотров: 3894
Комментарии: 0
Программирование на языке Rust (Цветное издание)

 Читать далее...

19.12.2017г.
Просмотров: 3910
Комментарии: 0
Глубокое обучение

 Читать далее...

19.12.2017г.
Просмотров: 6397
Комментарии: 0
Анализ социальных медиа на Python

 Читать далее...

19.12.2017г.
Просмотров: 3244
Комментарии: 0
Основы блокчейна

 Читать далее...

19.12.2017г.
Просмотров: 3540
Комментарии: 0
Java 9. Полный обзор нововведений

 Читать далее...

16.02.2017г.
Просмотров: 7379
Комментарии: 0
Опоздавших не бывает, или книга о стеке

 Читать далее...

17.05.2016г.
Просмотров: 10735
Комментарии: 0
Теория вычислений для программистов

 Читать далее...

30.03.2015г.
Просмотров: 12454
Комментарии: 0
От математики к обобщенному программированию

 Читать далее...

18.02.2014г.
Просмотров: 14122
Комментарии: 0
Рецензия на книгу «Читаем Тьюринга»

 Читать далее...

13.02.2014г.
Просмотров: 9205
Комментарии: 0
Читайте, размышляйте, действуйте

 Читать далее...

12.02.2014г.
Просмотров: 7151
Комментарии: 0
Рисуем наши мысли

 Читать далее...

10.02.2014г.
Просмотров: 5457
Комментарии: 3
Страна в цифрах

 Читать далее...

18.12.2013г.
Просмотров: 4691
Комментарии: 0
Большие данные меняют нашу жизнь

 Читать далее...

18.12.2013г.
Просмотров: 3506
Комментарии: 0
Компьютерные технологии – корень зла для точки роста

 Читать далее...

04.12.2013г.
Просмотров: 3218
Комментарии: 0
Паутина в облаках

 Читать далее...

03.12.2013г.
Просмотров: 3457
Комментарии: 0
Рецензия на книгу «MongoDB в действии»

 Читать далее...

02.12.2013г.
Просмотров: 3101
Комментарии: 0
Не думай о минутах свысока

 Читать далее...

Друзья сайта  

 Анализ и обработка больших данных

Архив номеров / 2014 / Выпуск №7-8 (140-141) / Анализ и обработка больших данных

Рубрика: Карьера/Образование /  Образование в сети

Игорь Штомпель ИГОРЬ ШТОМПЕЛЬ, инженер, системный администратор. Сфера профессиональных интересов – свободное программное обеспечение, keepercoder@gmail.com

Анализ и обработка больших данных

Все большую популярность в ИТ-технологиях набирает концепция больших данных. Наука о данных (Data Science, Datalogy) стала самостоятельной академической дисциплиной. Познакомимся с рядом курсов, в которых раскрываются современные достижения в этой области ИТ-технологий

Введение в аналитику больших массивов данных

  • Авторы: Ю. Аникин, И. Борисова, Н. Загоруйко, А. Зырянов, Е. Павловский.
  • Учебное заведение: Интернет-Университет Информационных Технологий (ИНТУИТ, intuit.ru).
  • Специальность: Аналитик, Администратор баз данных.
  • Лекции: 28.
  • Материалы: Видео, презентации (в формате .pptx).
  • Уровень сложности: Специалисты.
  • Сертификат: Да.
  • Источник: http://intuit.ru/studies/courses/12385/1181/info.

Данный курс призван помочь получить представление о состоянии аналитики больших массивов данных.

Начало лекций – введение в проблемы больших данных (Big Data), в котором дается общее понятие о дисциплине, вводится термин «большие данные» и раскрываются общие процессы аналитики в данной области, включая описание специальности Data Scientist. Далее авторы предлагают обратить внимание на Data Mining, в рамках которого они касаются основ когнитивного анализа данных, классификации задач и функции конкурентного сходства, создания алгоритмов с использованием FriS-функции, информативности и выбора признаков, обнаружения ошибок и заполнения пробелов.

Для статической обработки данных используется язык R. Из лекций можно получить о нем общие сведения, включая основные функции, типы данных и синтаксис языка. После изучения теории Big Data, Data Mining и теории и практики языка R нужно познакомиться с инструментарием Data Mining, ведь не будем забывать, что курс посвящен аналитике больших данных. На этом этапе сам язык R уже рассматривается как инструмент Data Mining. Так, например, уделяется внимание решению задач, включая взаимодействие R и Hadoop. Кроме того, дается информация о Weka (свободное ПО для анализа данных), библиотеках для Data Mining и, в частности, о библиотеке Pandas (Python Data Analysis Library – свободное ПО для структурирования и анализа данных).

В заключение исследуются технологии хранения больших данных. От изучения вопроса о необходимости новых хранилищ, а также свойств больших данных и ограничений RDBMS до требований ACID, CAP-теоремы, архитектуры BASE, NoSQL, MapReduce, а также колоночных, документо-ориентированных и графовых хранилищ.

Курс можно рассматривать как хорошее введение в проблематику аналитической обработки данных, от которого можно оттолкнуться в поиске и получении более глубокой информации в данной области.

Обзорный курс по анализу данных

  • Авторы: Ю. Киселева.
  • Учебное заведение: Проект Лекториум (lektorium.tv).
  • Специальность: Аналитик, Администратор баз данных.
  • Лекции: 12.
  • Материалы: Видео, презентации.
  • Уровень сложности: Специалисты.
  • Сертификат: Нет.
  • Источник: http://www.lektorium.tv/course/22822.

Можно предложить в качестве обзорного курса по проблемам анализа данных, он был опубликован проектом «Лекториум». Начало – погружение в проблемы больших данных и их анализ. А далее уже находят отражение актуальные подходы и методы для анализа данных. Вы узнаете о поиске похожих объектов (метрики расстояний – евклидовы и неевклидовы, поиск похожих документов – k-grams или k-shingles и minhashing) и поиске частотных объектов (ассоциативные правила, алгоритмы для поиска частотных объектов).

Получите необходимые знания о кластеризации (задача кластеризации, методы, алгоритмы k-means и CURE) и классификации текста (виды классификации; постановка задачи, подходы, применения; построение обучения классификатора; оценка качества классификации).

Отдельное внимание уделено системам рекомендации (понятие и предназначение, основные проблемы и методы их решения, типы рекомендательных систем и их плюсы и минусы; оценка качества системы) и анализу данных для интернет-рекламы (онлайн-алгоритмы, задача сопоставления, история рекламы, задача adwords).

К сожалению, лекции с 8-й по 10-ю на момент написания статьи были недоступны. Таким образом, не все проблемы, которые осветили авторы курса, могут стать объектом исследования, полный обзор, в рамках концепции автора, не открыт для изучения. Но в то же время доступные для ознакомления лекции могут оказаться полезными для формирования фундамента представлений об анализе данных.

Введение в науку о данных

  • Авторы: B. Howe.
  • Учебное заведение: Проект Coursera (coursera.org).
  • Специальность: Аналитик, Администратор баз данных.
  • Лекции: 97.
  • Материалы: Видео.
  • Уровень сложности: Специалисты.
  • Сертификат: Нет.
  • Источник: https://www.coursera.org/course/datasci.

Курс, который позволяет составить наиболее полное представление об основах науки о данных (Data Science). В аннотации курса обращается внимание на то, что эта область деятельности требует наличия множества навыков, а традиционные программы обучения не позволяют приобрести их все и в должной мере.

Для успешного освоения курса необходимо иметь средний (intermediate) уровень в области программирования баз данных. По градации B. Howe (Вашингтонский университет), автора курса, – это эквивалентно двум годам обучения в колледже США со специализацией в ИТ.

Если вам интересна проблематика больших данных, то курс стоит прослушать. В нем достаточно подробно освещается широкий круг проблем и инструментов: история науки, приводятся примеры больших данных, реляционная алгебра в связи с базами данных, параллельные базы данных и организация параллельных запросов, Hadoop, MapReduce, алгоритмы Big Data, хранилища «ключ-значение» (key-value stores) и NoSQL, компромиссы между SQL и NoSQL, статистическое моделирование, машинное обучение, визуализация, визуальный анализ данных, анализ графов (включая PageRank, семантический веб и многое другое), этические проблемы при работе с большими данными.

Итак, изучив все лекции, вы получите необходимые теоретические знания о Data Science и практические навыки для эффективной работы с большими данными.

Технология обработки больших объемов данных

  • Авторы: Д. Барашев, А. Дольник.
  • Учебное заведение: Проект Лекториум (lektorium.tv).
  • Специальность: Аналитик, Администратор баз данных.
  • Лекции: 10.
  • Материалы: Видео.
  • Уровень сложности: Специалисты.
  • Сертификат: Нет.
  • Источник: http://www.lektorium.tv/course/22932.

Одно из центральных мест при работе с большими данными занимают проблемы хранения и обработки. На сегодняшний день в этой области развития ИТ-технологий есть ряд интересных решений, уже прошедших успешные внедрения и активно использующихся. О них и идет речь в курсе, который является хорошим введение в указанную проблематику.

Важную роль в обработке больших данных играют файловые системы. Этот курс поможет расширить свое представление о распределенных файловых системах, их истории и функционировании. В качестве примеров разбирается архитектура GFS и Apache HDFS.

Ни один курс, посвященный обработке больших данных, не может не содержать информацию о MapReduce. Отметим, что, помимо общих проблем, таких, как, например, назначение MapReduce, рассматриваются проблемы его эффективности. Также авторы акцентировали внимание на полнотекстовом поиске в большом количестве документов (рассматриваются актуальные для решения проблемы структуры данных, методы обработки, а также соответствие документа запросу), а также на статическом ранге документов и распределенных вычислениях на графах. Затрагивается ряд интересных вопросов: статический независимый от запроса ранг документов и его вариант – PageRank, вычисление PageRank с использованием MapReduce, системы распределенного выполнения алгоритмов на графах.

Еще одной обязательной составляющей при разговоре о хранилищах для больших данных является NoSQL. Особенность лекции в том, что в ней после введения в NoSQL рассказывается о Google BigTable. Среди проблем, нашедших отражение, можно выделить предпосылки появления СУБД NoSQL, их разновидности и основные отличия от реляционных СУБД, подробная информация о Google BigTable.

В целом в лекциях получило освещение большое количество проблем, связанных с обработкой больших данных. Из тех, что не отражены выше, еще можно упомянуть, например, следующие: CAP-теорема; модели согласованности; средства интеграции больших объемов данных; создание ETL-процесса (на примере обработки отчетов о продажах в торговой сети); поиск похожих документов (сопутствующие вопросы – схожесть объектов, покрытие текста перекрывающимися n-граммами, понижение размерности множества, пространственно-чувствительное хеширование).

Курс позволяет получить базовое представление о подходах и методах обработки больших данных. В сочетании с предыдущими рассмотренными курсами этот позволит укрепить фундамент знаний в области Data Scince и Big Data.

Параллельное программирование в Hadoop

  • Авторы: А. Созыкин.
  • Учебное заведение: Сайт автора (http://www.asozykin.ru).
  • Специальность: Аналитик, Администратор баз данных, Программист.
  • Лекции: 6.
  • Материалы: Презентации (в формате .ppt).
  • Уровень сложности: Специалисты.
  • Сертификат: Нет.
  • Источник: http://www.asozykin.ru/courses/hadoop.

Вы получите общее представление о технологиях Hadoop и MapReduce: что такое Hadoop, и каков его состав, его архитектура, какие задачи призваны решать Hadoop и MapReduce, кем используется Hadoop. Внимание уделено основам Hadoop HDFS и ее архитектуре, функциям MAP и Reduce, месту MapRecude в Hadoop, потоку данных MapReduce, программированию Hadoop и системам на его основе.

В заключение курса дана информация об основах MapReduce API (базовые компоненты MapReduce API, Mapper, Reducer, Driver), а также основах администрирования Hadoop (установка, администрирование MapReduce и администрирование HDFS).


Комментарии отсутствуют

Добавить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

               Copyright © Системный администратор

Яндекс.Метрика
Tel.: (499) 277-12-45
E-mail: sa@samag.ru