www.samag.ru
Журнал «БИТ. Бизнес&Информационные технологии»      
Поиск   
              
 www.samag.ru    Web  0 товаров , сумма 0 руб.
E-mail
Пароль  
 Запомнить меня
Регистрация | Забыли пароль?
Журнал "Системный администратор"
Журнал «БИТ»
Подписка
Архив номеров
Где купить
Авторам
Рекламодателям
Контакты
   

  Опросы
  Статьи

Интеграция Open Source-решений  

Open Source в облачной среде

Облачные решения становятся всё более популярными в мире. Компании стремятся использовать их для

 Читать далее...

Автоматизация  

Нейросеть вам в руки! Как использовать ИИ для автоматизации задач

Использование ИИ для автоматизации задач помогает компании получить конкурентное преимущество, поскольку объединение

 Читать далее...

Рынок труда  

Специалист по этическому ИИ, инженер по квантовым вычислениям или аналитик по метавселенной?

Новые тенденции в развитии ИТ могут привести к возникновению новых специальностей в

 Читать далее...

Книжная полка  

Учитесь убеждать и побеждать

Издательство «БХВ», как всегда, порадовало своих читателей хорошими книжными новинками. Кроме популярных

 Читать далее...

Сетевая инфраструктура  

Как удаленная работа меняет подход к сетевой инфраструктуре?

С увеличением числа сотрудников, работающих из дома, организации сталкиваются с необходимостью создания

 Читать далее...

Мониторинг  

Какой мониторинг нужен сегодня?

По мнению экспертов ГК InfoWatch, действия сотрудников – самая распространенная причина инцидентов

 Читать далее...

Книжная полка  

Руководство для тех, кто увлечен ИИ, программированием. И дизайном

Накануне лета издательство «БХВ» выпустило книжные новинки, от которых любителям чтения будет

 Читать далее...

Мобильные приложения  

Искусственный интеллект в мобильных приложениях: возможности и перспективы

Обзор современных применений ИИ в мобильных приложениях, анализ перспектив развития этой технологии,

 Читать далее...

ИТ-образование  

Как сделать ИТ-образование эффективным?

Эксперты ИТ-отрасли отвечают на вопросы «СА». Обсуждаем ключевые аспекты для улучшения образовательных

 Читать далее...

Work-life balance  

Как айтишнику найти баланс между работой и личной жизнью?

Обсуждаем инструменты для эффективного управления временем, снижения уровня стресса и достижения гармонии. На

 Читать далее...

Книжная полка  

Всё самое нужное – под одной обложкой

Отличительная черта книжных новинок, выпущенных недавно издательством «БХВ» – это их универсальность. Не просто

 Читать далее...

ИТ-инфраструктура  

Системы мониторинга ИТ-инфраструктуры-2025

Без мониторинга ИТ-инфраструктуры не обходится ни одна компания, хотя бы потому, что

 Читать далее...

Открытое ПО  

Безопасность Open Source: рискуем или контролируем?

Компания «Кросс технолоджис» изучила, как используется ПО с открытым кодом в компаниях

 Читать далее...

Работа с нейросетью  

Скажи, есть ли у тебя AI, и я скажу, кто ты

Недавно сервис по поиску работы SuperJob выяснил, что каждый второй россиянин уже

 Читать далее...

1001 и 1 книга  
19.03.2018г.
Просмотров: 9411
Комментарии: 0
Машинное обучение с использованием библиотеки Н2О

 Читать далее...

12.03.2018г.
Просмотров: 9646
Комментарии: 0
Особенности киберпреступлений в России: инструменты нападения и защита информации

 Читать далее...

12.03.2018г.
Просмотров: 7055
Комментарии: 0
Глубокое обучение с точки зрения практика

 Читать далее...

12.03.2018г.
Просмотров: 4406
Комментарии: 0
Изучаем pandas

 Читать далее...

12.03.2018г.
Просмотров: 5191
Комментарии: 0
Программирование на языке Rust (Цветное издание)

 Читать далее...

19.12.2017г.
Просмотров: 5191
Комментарии: 0
Глубокое обучение

 Читать далее...

19.12.2017г.
Просмотров: 7860
Комментарии: 0
Анализ социальных медиа на Python

 Читать далее...

19.12.2017г.
Просмотров: 4560
Комментарии: 0
Основы блокчейна

 Читать далее...

19.12.2017г.
Просмотров: 4821
Комментарии: 0
Java 9. Полный обзор нововведений

 Читать далее...

16.02.2017г.
Просмотров: 8809
Комментарии: 0
Опоздавших не бывает, или книга о стеке

 Читать далее...

17.05.2016г.
Просмотров: 12240
Комментарии: 0
Теория вычислений для программистов

 Читать далее...

30.03.2015г.
Просмотров: 13826
Комментарии: 0
От математики к обобщенному программированию

 Читать далее...

18.02.2014г.
Просмотров: 15591
Комментарии: 0
Рецензия на книгу «Читаем Тьюринга»

 Читать далее...

13.02.2014г.
Просмотров: 10459
Комментарии: 0
Читайте, размышляйте, действуйте

 Читать далее...

12.02.2014г.
Просмотров: 8488
Комментарии: 0
Рисуем наши мысли

 Читать далее...

10.02.2014г.
Просмотров: 6722
Комментарии: 4
Страна в цифрах

 Читать далее...

18.12.2013г.
Просмотров: 5867
Комментарии: 0
Большие данные меняют нашу жизнь

 Читать далее...

18.12.2013г.
Просмотров: 4712
Комментарии: 0
Компьютерные технологии – корень зла для точки роста

 Читать далее...

04.12.2013г.
Просмотров: 4437
Комментарии: 0
Паутина в облаках

 Читать далее...

03.12.2013г.
Просмотров: 4654
Комментарии: 1
Рецензия на книгу «MongoDB в действии»

 Читать далее...

Друзья сайта  

 Анализ и обработка больших данных

Архив номеров / 2014 / Выпуск №7-8 (140-141) / Анализ и обработка больших данных

Рубрика: Карьера/Образование /  Образование в сети

Игорь Штомпель ИГОРЬ ШТОМПЕЛЬ, инженер, системный администратор. Сфера профессиональных интересов – свободное программное обеспечение, keepercoder@gmail.com

Анализ и обработка больших данных

Все большую популярность в ИТ-технологиях набирает концепция больших данных. Наука о данных (Data Science, Datalogy) стала самостоятельной академической дисциплиной. Познакомимся с рядом курсов, в которых раскрываются современные достижения в этой области ИТ-технологий

Введение в аналитику больших массивов данных

  • Авторы: Ю. Аникин, И. Борисова, Н. Загоруйко, А. Зырянов, Е. Павловский.
  • Учебное заведение: Интернет-Университет Информационных Технологий (ИНТУИТ, intuit.ru).
  • Специальность: Аналитик, Администратор баз данных.
  • Лекции: 28.
  • Материалы: Видео, презентации (в формате .pptx).
  • Уровень сложности: Специалисты.
  • Сертификат: Да.
  • Источник: http://intuit.ru/studies/courses/12385/1181/info.

Данный курс призван помочь получить представление о состоянии аналитики больших массивов данных.

Начало лекций – введение в проблемы больших данных (Big Data), в котором дается общее понятие о дисциплине, вводится термин «большие данные» и раскрываются общие процессы аналитики в данной области, включая описание специальности Data Scientist. Далее авторы предлагают обратить внимание на Data Mining, в рамках которого они касаются основ когнитивного анализа данных, классификации задач и функции конкурентного сходства, создания алгоритмов с использованием FriS-функции, информативности и выбора признаков, обнаружения ошибок и заполнения пробелов.

Для статической обработки данных используется язык R. Из лекций можно получить о нем общие сведения, включая основные функции, типы данных и синтаксис языка. После изучения теории Big Data, Data Mining и теории и практики языка R нужно познакомиться с инструментарием Data Mining, ведь не будем забывать, что курс посвящен аналитике больших данных. На этом этапе сам язык R уже рассматривается как инструмент Data Mining. Так, например, уделяется внимание решению задач, включая взаимодействие R и Hadoop. Кроме того, дается информация о Weka (свободное ПО для анализа данных), библиотеках для Data Mining и, в частности, о библиотеке Pandas (Python Data Analysis Library – свободное ПО для структурирования и анализа данных).

В заключение исследуются технологии хранения больших данных. От изучения вопроса о необходимости новых хранилищ, а также свойств больших данных и ограничений RDBMS до требований ACID, CAP-теоремы, архитектуры BASE, NoSQL, MapReduce, а также колоночных, документо-ориентированных и графовых хранилищ.

Курс можно рассматривать как хорошее введение в проблематику аналитической обработки данных, от которого можно оттолкнуться в поиске и получении более глубокой информации в данной области.

Обзорный курс по анализу данных

  • Авторы: Ю. Киселева.
  • Учебное заведение: Проект Лекториум (lektorium.tv).
  • Специальность: Аналитик, Администратор баз данных.
  • Лекции: 12.
  • Материалы: Видео, презентации.
  • Уровень сложности: Специалисты.
  • Сертификат: Нет.
  • Источник: http://www.lektorium.tv/course/22822.

Можно предложить в качестве обзорного курса по проблемам анализа данных, он был опубликован проектом «Лекториум». Начало – погружение в проблемы больших данных и их анализ. А далее уже находят отражение актуальные подходы и методы для анализа данных. Вы узнаете о поиске похожих объектов (метрики расстояний – евклидовы и неевклидовы, поиск похожих документов – k-grams или k-shingles и minhashing) и поиске частотных объектов (ассоциативные правила, алгоритмы для поиска частотных объектов).

Получите необходимые знания о кластеризации (задача кластеризации, методы, алгоритмы k-means и CURE) и классификации текста (виды классификации; постановка задачи, подходы, применения; построение обучения классификатора; оценка качества классификации).

Отдельное внимание уделено системам рекомендации (понятие и предназначение, основные проблемы и методы их решения, типы рекомендательных систем и их плюсы и минусы; оценка качества системы) и анализу данных для интернет-рекламы (онлайн-алгоритмы, задача сопоставления, история рекламы, задача adwords).

К сожалению, лекции с 8-й по 10-ю на момент написания статьи были недоступны. Таким образом, не все проблемы, которые осветили авторы курса, могут стать объектом исследования, полный обзор, в рамках концепции автора, не открыт для изучения. Но в то же время доступные для ознакомления лекции могут оказаться полезными для формирования фундамента представлений об анализе данных.

Введение в науку о данных

  • Авторы: B. Howe.
  • Учебное заведение: Проект Coursera (coursera.org).
  • Специальность: Аналитик, Администратор баз данных.
  • Лекции: 97.
  • Материалы: Видео.
  • Уровень сложности: Специалисты.
  • Сертификат: Нет.
  • Источник: https://www.coursera.org/course/datasci.

Курс, который позволяет составить наиболее полное представление об основах науки о данных (Data Science). В аннотации курса обращается внимание на то, что эта область деятельности требует наличия множества навыков, а традиционные программы обучения не позволяют приобрести их все и в должной мере.

Для успешного освоения курса необходимо иметь средний (intermediate) уровень в области программирования баз данных. По градации B. Howe (Вашингтонский университет), автора курса, – это эквивалентно двум годам обучения в колледже США со специализацией в ИТ.

Если вам интересна проблематика больших данных, то курс стоит прослушать. В нем достаточно подробно освещается широкий круг проблем и инструментов: история науки, приводятся примеры больших данных, реляционная алгебра в связи с базами данных, параллельные базы данных и организация параллельных запросов, Hadoop, MapReduce, алгоритмы Big Data, хранилища «ключ-значение» (key-value stores) и NoSQL, компромиссы между SQL и NoSQL, статистическое моделирование, машинное обучение, визуализация, визуальный анализ данных, анализ графов (включая PageRank, семантический веб и многое другое), этические проблемы при работе с большими данными.

Итак, изучив все лекции, вы получите необходимые теоретические знания о Data Science и практические навыки для эффективной работы с большими данными.

Технология обработки больших объемов данных

  • Авторы: Д. Барашев, А. Дольник.
  • Учебное заведение: Проект Лекториум (lektorium.tv).
  • Специальность: Аналитик, Администратор баз данных.
  • Лекции: 10.
  • Материалы: Видео.
  • Уровень сложности: Специалисты.
  • Сертификат: Нет.
  • Источник: http://www.lektorium.tv/course/22932.

Одно из центральных мест при работе с большими данными занимают проблемы хранения и обработки. На сегодняшний день в этой области развития ИТ-технологий есть ряд интересных решений, уже прошедших успешные внедрения и активно использующихся. О них и идет речь в курсе, который является хорошим введение в указанную проблематику.

Важную роль в обработке больших данных играют файловые системы. Этот курс поможет расширить свое представление о распределенных файловых системах, их истории и функционировании. В качестве примеров разбирается архитектура GFS и Apache HDFS.

Ни один курс, посвященный обработке больших данных, не может не содержать информацию о MapReduce. Отметим, что, помимо общих проблем, таких, как, например, назначение MapReduce, рассматриваются проблемы его эффективности. Также авторы акцентировали внимание на полнотекстовом поиске в большом количестве документов (рассматриваются актуальные для решения проблемы структуры данных, методы обработки, а также соответствие документа запросу), а также на статическом ранге документов и распределенных вычислениях на графах. Затрагивается ряд интересных вопросов: статический независимый от запроса ранг документов и его вариант – PageRank, вычисление PageRank с использованием MapReduce, системы распределенного выполнения алгоритмов на графах.

Еще одной обязательной составляющей при разговоре о хранилищах для больших данных является NoSQL. Особенность лекции в том, что в ней после введения в NoSQL рассказывается о Google BigTable. Среди проблем, нашедших отражение, можно выделить предпосылки появления СУБД NoSQL, их разновидности и основные отличия от реляционных СУБД, подробная информация о Google BigTable.

В целом в лекциях получило освещение большое количество проблем, связанных с обработкой больших данных. Из тех, что не отражены выше, еще можно упомянуть, например, следующие: CAP-теорема; модели согласованности; средства интеграции больших объемов данных; создание ETL-процесса (на примере обработки отчетов о продажах в торговой сети); поиск похожих документов (сопутствующие вопросы – схожесть объектов, покрытие текста перекрывающимися n-граммами, понижение размерности множества, пространственно-чувствительное хеширование).

Курс позволяет получить базовое представление о подходах и методах обработки больших данных. В сочетании с предыдущими рассмотренными курсами этот позволит укрепить фундамент знаний в области Data Scince и Big Data.

Параллельное программирование в Hadoop

  • Авторы: А. Созыкин.
  • Учебное заведение: Сайт автора (http://www.asozykin.ru).
  • Специальность: Аналитик, Администратор баз данных, Программист.
  • Лекции: 6.
  • Материалы: Презентации (в формате .ppt).
  • Уровень сложности: Специалисты.
  • Сертификат: Нет.
  • Источник: http://www.asozykin.ru/courses/hadoop.

Вы получите общее представление о технологиях Hadoop и MapReduce: что такое Hadoop, и каков его состав, его архитектура, какие задачи призваны решать Hadoop и MapReduce, кем используется Hadoop. Внимание уделено основам Hadoop HDFS и ее архитектуре, функциям MAP и Reduce, месту MapRecude в Hadoop, потоку данных MapReduce, программированию Hadoop и системам на его основе.

В заключение курса дана информация об основах MapReduce API (базовые компоненты MapReduce API, Mapper, Reducer, Driver), а также основах администрирования Hadoop (установка, администрирование MapReduce и администрирование HDFS).


Комментарии отсутствуют

Добавить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

               Copyright © Системный администратор

Яндекс.Метрика
Tel.: (499) 277-12-45
E-mail: sa@samag.ru