На нашем ресурсе вы можете полностью погрузиться в мир книги «Искусственный интеллект. Машинное обучение» — читайте её онлайн бесплатно в полной, несокращённой версии. Если предпочитаете слушать — воспользуйтесь аудиоформатом; хотите сохранить — скачайте через торрент в fb2. Жанр произведения — Знания и навыки, Компьютерная литература, Программирование. Также на странице доступно подробное описание, авторская аннотация, краткое содержание и живые отзывы читателей. Мы постоянно пополняем библиотеку и улучшаем сервис, чтобы создавать лучшее пространство для всех ценителей качественной литературы.
Искусственный интеллект. Машинное обучение

Автор
Дата выхода
19 марта 2024
🔍 Загляните за кулисы "Искусственный интеллект. Машинное обучение" — аннотация, авторский взгляд и ключевые моменты
Перед погружением в полный текст предлагаем познакомиться с произведением поближе. Здесь собраны авторские заметки, аннотация и краткое содержание "Искусственный интеллект. Машинное обучение" — всё, что поможет понять глубину замысла и подготовиться к чтению. Материалы представлены в оригинальной авторской редакции (Джейд Картер) и сохраняют аутентичность произведения. Если чего-то не хватает — сообщите нам в комментариях, и мы дополним описание. Читайте мнения других участников сообщества: их отзывы часто раскрывают скрытые смыслы и добавляют новые грани понимания. А после прочтения обязательно вернитесь сюда — ваш отзыв станет ценным вкладом в общее обсуждение книги.
Описание книги
Исследуйте мир машинного обучения с этой книгой, предназначенной для тех, кто стремится погрузиться в фундаментальные принципы и передовые методы этой динамично развивающейся области. От введения в основные концепции до глубокого погружения в продвинутые техники и приложения, каждая глава представляет собой комплексное исследование, подкрепленное практическими примерами и советами. Будучи ориентиром как для начинающих, так и для опытных практиков, данная книга поможет вам освоить ключевые навыки, необходимые для эффективного применения методов машинного обучения в реальных задачах.
📚 Читайте "Искусственный интеллект. Машинное обучение" онлайн — полный текст книги доступен бесплатно
Перед вами — полная электронная версия книги "Искусственный интеллект. Машинное обучение", адаптированная для комфортного онлайн-чтения. Мы разбили произведение на страницы для удобной навигации, а умная система запоминает, на какой странице вы остановились — можно закрыть браузер и вернуться к чтению позже, не тратя время на поиски. Персонализируйте процесс: меняйте шрифты, размер текста и фон под свои предпочтения. Погружайтесь в мир литературы где угодно и когда угодно — любимые книги теперь всегда под рукой.
Текст книги
Таким образом, метод Q-обучения позволяет агенту научиться выбирать оптимальные действия в зависимости от текущего состояния среды, минимизируя количество шагов до достижения цели.
Динамическое программирование
Динамическое программирование (DP) в обучении с подкреплением (RL) – это метод, используемый для решения задач, в которых среда представляет собой марковский процесс принятия решений (MDP). Основная идея DP заключается в рекурсивном вычислении оптимальных значений функций ценности для каждого состояния или пары состояние-действие.
Принцип оптимальности Беллмана является основой динамического программирования в RL. Он утверждает, что оптимальные значения функций ценности удовлетворяют принципу оптимальности, то есть оптимальное значение функции ценности для каждого состояния равно максимальной сумме награды, которую агент может получить, начиная с этого состояния и действуя оптимально в дальнейшем.
В DP агент прогнозирует будущие награды, используя текущее состояние и действие, а также функцию перехода, которая определяет вероятности перехода из одного состояния в другое при выполнении определенного действия. Затем агент обновляет значения функций ценности для каждого состояния на основе полученных прогнозов, применяя операцию оптимальности Беллмана.
Одним из ключевых преимуществ динамического программирования является его эффективность при наличии модели среды, которая позволяет точно предсказывать будущие состояния и награды. Однако этот метод ограничен применением в средах с большим пространством состояний из-за высокой вычислительной сложности при хранении и обновлении значений функций ценности для каждого состояния.
Пример 1
Примером задачи, решаемой с использованием динамического программирования в обучении с подкреплением, может быть задача управления роботом на основе MDP. Представим себе робота, который находится в лабиринте и должен найти оптимальный путь к выходу, минимизируя количество шагов.
1.











