Рубрика:
Книжная полка /
«СА» рекомендует
|
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|
Глубокое обучение с подкреплением: теория и практика на языке Python
Издательство «Питер» выпустило в серии «Библиотека программиста» полезную и интересную книгу «Глубокое обучение с подкреплением: теория и практика на языке Python». Ее авторы Лаура Грессер и Ван Лун Кенг называют ее руководством для тех, кто только изучает компьютерные науки (студенты), и для разработчиков программного обеспечения, которые знакомы с основными принципами машинного обучения и знают Python. Прочитав эту книгу, вы быстро изучите теорию и язык программирования, а также научитесь на практике реализовывать алгоритмы глубокого обучения с подкреплением. С любезного согласия издательства публикуем ознакомительный текст из нее, демонстрирующий значимость и глубину книги.
С глубоким обучением с подкреплением (reinforcement learning, RL) мы впервые познакомились, когда DeepMind достиг беспрецедентной производительности в аркадных играх Atari. Используя лишь изображения и не располагая первоначальными знаниями о системе, агенты впервые достигли поведения уровня человека.
Идея искусственного агента, обучающегося методом проб и ошибок, самостоятельно, без учителя, поражала воображение. Это было новым впечатляющим подходом к машинному обучению и несколько отличалось от более привычного обучения с учителем.
Мы решили работать вместе над изучением этой темы. Мы читали книги и статьи, проходили онлайн-курсы, штудировали код и пытались реализовать основные алгоритмы. К нам пришло понимание того, что глубокое обучение с подкреплением сложно не только в концептуальном отношении – реализация любого алгоритма требует таких же усилий, как и большой инженерный проект.
По мере продвижения мы все больше узнавали о характерных чертах глубокого RL – взаимосвязях и различиях между алгоритмами. Формирование целостной картины модели шло с трудом, поскольку глубокое RL – новая область исследований и теоретические знания еще не были оформлены в виде книги. Нам пришлось учиться по исследовательским статьям и онлайн-лекциям.
Другой трудностью был большой разрыв между теорией и реализацией. Зачастую из-за большого количества компонентов и настраиваемых гиперпараметров алгоритмы глубокого RL капризны и ненадежны. Для успеха необходимы корректная совместная работа всех компонентов и подходящие гиперпараметры. Из теории далеко не сразу становятся понятными детали правильной реализации, но они очень важны. Ресурс, объединяющий теорию и практику, был бы неоценим во время нашего обучения.
<...>
Полную версию статьи читайте в журнале Подпишитесь на журнал Купите в Интернет-магазине
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|