Рубрика:
Карьера/Образование /
Образование в сети
|
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|
ИГОРЬ ШТОМПЕЛЬ, инженер, системный администратор. Сфера профессиональных интересов – свободное программное обеспечение, keepercoder@gmail.com
Анализ и обработка больших данных
Все большую популярность в ИТ-технологиях набирает концепция больших данных. Наука о данных (Data Science, Datalogy) стала самостоятельной академической дисциплиной. Познакомимся с рядом курсов, в которых раскрываются современные достижения в этой области ИТ-технологий
Введение в аналитику больших массивов данных
- Авторы: Ю. Аникин, И. Борисова, Н. Загоруйко, А. Зырянов, Е. Павловский.
- Учебное заведение: Интернет-Университет Информационных Технологий (ИНТУИТ, intuit.ru).
- Специальность: Аналитик, Администратор баз данных.
- Лекции: 28.
- Материалы: Видео, презентации (в формате .pptx).
- Уровень сложности: Специалисты.
- Сертификат: Да.
- Источник: http://intuit.ru/studies/courses/12385/1181/info.
Данный курс призван помочь получить представление о состоянии аналитики больших массивов данных.
Начало лекций – введение в проблемы больших данных (Big Data), в котором дается общее понятие о дисциплине, вводится термин «большие данные» и раскрываются общие процессы аналитики в данной области, включая описание специальности Data Scientist. Далее авторы предлагают обратить внимание на Data Mining, в рамках которого они касаются основ когнитивного анализа данных, классификации задач и функции конкурентного сходства, создания алгоритмов с использованием FriS-функции, информативности и выбора признаков, обнаружения ошибок и заполнения пробелов.
Для статической обработки данных используется язык R. Из лекций можно получить о нем общие сведения, включая основные функции, типы данных и синтаксис языка. После изучения теории Big Data, Data Mining и теории и практики языка R нужно познакомиться с инструментарием Data Mining, ведь не будем забывать, что курс посвящен аналитике больших данных. На этом этапе сам язык R уже рассматривается как инструмент Data Mining. Так, например, уделяется внимание решению задач, включая взаимодействие R и Hadoop. Кроме того, дается информация о Weka (свободное ПО для анализа данных), библиотеках для Data Mining и, в частности, о библиотеке Pandas (Python Data Analysis Library – свободное ПО для структурирования и анализа данных).
В заключение исследуются технологии хранения больших данных. От изучения вопроса о необходимости новых хранилищ, а также свойств больших данных и ограничений RDBMS до требований ACID, CAP-теоремы, архитектуры BASE, NoSQL, MapReduce, а также колоночных, документо-ориентированных и графовых хранилищ.
Курс можно рассматривать как хорошее введение в проблематику аналитической обработки данных, от которого можно оттолкнуться в поиске и получении более глубокой информации в данной области.
Обзорный курс по анализу данных
- Авторы: Ю. Киселева.
- Учебное заведение: Проект Лекториум (lektorium.tv).
- Специальность: Аналитик, Администратор баз данных.
- Лекции: 12.
- Материалы: Видео, презентации.
- Уровень сложности: Специалисты.
- Сертификат: Нет.
- Источник: http://www.lektorium.tv/course/22822.
Можно предложить в качестве обзорного курса по проблемам анализа данных, он был опубликован проектом «Лекториум». Начало – погружение в проблемы больших данных и их анализ. А далее уже находят отражение актуальные подходы и методы для анализа данных. Вы узнаете о поиске похожих объектов (метрики расстояний – евклидовы и неевклидовы, поиск похожих документов – k-grams или k-shingles и minhashing) и поиске частотных объектов (ассоциативные правила, алгоритмы для поиска частотных объектов).
Получите необходимые знания о кластеризации (задача кластеризации, методы, алгоритмы k-means и CURE) и классификации текста (виды классификации; постановка задачи, подходы, применения; построение обучения классификатора; оценка качества классификации).
Отдельное внимание уделено системам рекомендации (понятие и предназначение, основные проблемы и методы их решения, типы рекомендательных систем и их плюсы и минусы; оценка качества системы) и анализу данных для интернет-рекламы (онлайн-алгоритмы, задача сопоставления, история рекламы, задача adwords).
К сожалению, лекции с 8-й по 10-ю на момент написания статьи были недоступны. Таким образом, не все проблемы, которые осветили авторы курса, могут стать объектом исследования, полный обзор, в рамках концепции автора, не открыт для изучения. Но в то же время доступные для ознакомления лекции могут оказаться полезными для формирования фундамента представлений об анализе данных.
Введение в науку о данных
Курс, который позволяет составить наиболее полное представление об основах науки о данных (Data Science). В аннотации курса обращается внимание на то, что эта область деятельности требует наличия множества навыков, а традиционные программы обучения не позволяют приобрести их все и в должной мере.
Для успешного освоения курса необходимо иметь средний (intermediate) уровень в области программирования баз данных. По градации B. Howe (Вашингтонский университет), автора курса, – это эквивалентно двум годам обучения в колледже США со специализацией в ИТ.
Если вам интересна проблематика больших данных, то курс стоит прослушать. В нем достаточно подробно освещается широкий круг проблем и инструментов: история науки, приводятся примеры больших данных, реляционная алгебра в связи с базами данных, параллельные базы данных и организация параллельных запросов, Hadoop, MapReduce, алгоритмы Big Data, хранилища «ключ-значение» (key-value stores) и NoSQL, компромиссы между SQL и NoSQL, статистическое моделирование, машинное обучение, визуализация, визуальный анализ данных, анализ графов (включая PageRank, семантический веб и многое другое), этические проблемы при работе с большими данными.
Итак, изучив все лекции, вы получите необходимые теоретические знания о Data Science и практические навыки для эффективной работы с большими данными.
Технология обработки больших объемов данных
- Авторы: Д. Барашев, А. Дольник.
- Учебное заведение: Проект Лекториум (lektorium.tv).
- Специальность: Аналитик, Администратор баз данных.
- Лекции: 10.
- Материалы: Видео.
- Уровень сложности: Специалисты.
- Сертификат: Нет.
- Источник: http://www.lektorium.tv/course/22932.
Одно из центральных мест при работе с большими данными занимают проблемы хранения и обработки. На сегодняшний день в этой области развития ИТ-технологий есть ряд интересных решений, уже прошедших успешные внедрения и активно использующихся. О них и идет речь в курсе, который является хорошим введение в указанную проблематику.
Важную роль в обработке больших данных играют файловые системы. Этот курс поможет расширить свое представление о распределенных файловых системах, их истории и функционировании. В качестве примеров разбирается архитектура GFS и Apache HDFS.
Ни один курс, посвященный обработке больших данных, не может не содержать информацию о MapReduce. Отметим, что, помимо общих проблем, таких, как, например, назначение MapReduce, рассматриваются проблемы его эффективности. Также авторы акцентировали внимание на полнотекстовом поиске в большом количестве документов (рассматриваются актуальные для решения проблемы структуры данных, методы обработки, а также соответствие документа запросу), а также на статическом ранге документов и распределенных вычислениях на графах. Затрагивается ряд интересных вопросов: статический независимый от запроса ранг документов и его вариант – PageRank, вычисление PageRank с использованием MapReduce, системы распределенного выполнения алгоритмов на графах.
Еще одной обязательной составляющей при разговоре о хранилищах для больших данных является NoSQL. Особенность лекции в том, что в ней после введения в NoSQL рассказывается о Google BigTable. Среди проблем, нашедших отражение, можно выделить предпосылки появления СУБД NoSQL, их разновидности и основные отличия от реляционных СУБД, подробная информация о Google BigTable.
В целом в лекциях получило освещение большое количество проблем, связанных с обработкой больших данных. Из тех, что не отражены выше, еще можно упомянуть, например, следующие: CAP-теорема; модели согласованности; средства интеграции больших объемов данных; создание ETL-процесса (на примере обработки отчетов о продажах в торговой сети); поиск похожих документов (сопутствующие вопросы – схожесть объектов, покрытие текста перекрывающимися n-граммами, понижение размерности множества, пространственно-чувствительное хеширование).
Курс позволяет получить базовое представление о подходах и методах обработки больших данных. В сочетании с предыдущими рассмотренными курсами этот позволит укрепить фундамент знаний в области Data Scince и Big Data.
Параллельное программирование в Hadoop
Вы получите общее представление о технологиях Hadoop и MapReduce: что такое Hadoop, и каков его состав, его архитектура, какие задачи призваны решать Hadoop и MapReduce, кем используется Hadoop. Внимание уделено основам Hadoop HDFS и ее архитектуре, функциям MAP и Reduce, месту MapRecude в Hadoop, потоку данных MapReduce, программированию Hadoop и системам на его основе.
В заключение курса дана информация об основах MapReduce API (базовые компоненты MapReduce API, Mapper, Reducer, Driver), а также основах администрирования Hadoop (установка, администрирование MapReduce и администрирование HDFS).
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|