На нашем ресурсе вы можете полностью погрузиться в мир книги «Введение в облачные и распределенные информационные системы» — читайте её онлайн бесплатно в полной, несокращённой версии. Если предпочитаете слушать — воспользуйтесь аудиоформатом; хотите сохранить — скачайте через торрент в fb2. Жанр произведения — Знания и навыки, Компьютерная литература, Книги о компьютерах. Также на странице доступно подробное описание, авторская аннотация, краткое содержание и живые отзывы читателей. Мы постоянно пополняем библиотеку и улучшаем сервис, чтобы создавать лучшее пространство для всех ценителей качественной литературы.
Введение в облачные и распределенные информационные системы

Автор
Дата выхода
29 декабря 2020
🔍 Загляните за кулисы "Введение в облачные и распределенные информационные системы" — аннотация, авторский взгляд и ключевые моменты
Перед погружением в полный текст предлагаем познакомиться с произведением поближе. Здесь собраны авторские заметки, аннотация и краткое содержание "Введение в облачные и распределенные информационные системы" — всё, что поможет понять глубину замысла и подготовиться к чтению. Материалы представлены в оригинальной авторской редакции (Тимур Машнин) и сохраняют аутентичность произведения. Если чего-то не хватает — сообщите нам в комментариях, и мы дополним описание. Читайте мнения других участников сообщества: их отзывы часто раскрывают скрытые смыслы и добавляют новые грани понимания. А после прочтения обязательно вернитесь сюда — ваш отзыв станет ценным вкладом в общее обсуждение книги.
Описание книги
Облачные и распределенные вычислительные системы — это быстро развивающаяся IT-область хранения и обработки данных. Современные облачные и распределенные вычислительные системы строятся на основе общих концепций и алгоритмов, таких как облако, MapReduce, NoSQL базы данных, распределенные алгоритмы, масштабируемость и многое другое. Познакомьтесь с этими фундаментальными понятиями облачных и распределенных информационных систем и узнайте, как эти системы работают изнутри.
📚 Читайте "Введение в облачные и распределенные информационные системы" онлайн — полный текст книги доступен бесплатно
Перед вами — полная электронная версия книги "Введение в облачные и распределенные информационные системы", адаптированная для комфортного онлайн-чтения. Мы разбили произведение на страницы для удобной навигации, а умная система запоминает, на какой странице вы остановились — можно закрыть браузер и вернуться к чтению позже, не тратя время на поиски. Персонализируйте процесс: меняйте шрифты, размер текста и фон под свои предпочтения. Погружайтесь в мир литературы где угодно и когда угодно — любимые книги теперь всегда под рукой.
Текст книги
И у вас есть шаблон, который может быть регулярным выражением или просто словом, или набором слов, и вы хотите вывести все строки текста, соответствующие этому шаблону.
Таким образом, Map будет принимать на вход каждую строку текста и проверять ее на соответствие шаблону, а затем выводить эту строку как ключ.
Reduce будет просто копировать промежуточные данные на выход, не выполняя никакой обработки, если вы конечно не захотите, например, соединить все строки.
Решая такую простую задачу на одной машине, для больших объемов данных, вы можете потратить очень много времени.
Преимущество распределенного grep здесь в скорости обработки.
С помощью MapReduce вы можете запускать ваше приложение, даже если ваши данные распределены на нескольких серверах.
Итак, как программировать с MapReduce?
С точки зрения пользователя, пользователь записывает программу map, ее метод map, а также записывает программу reduce, и ее метод reduce.
Затем запускает работу, определяя количество задач map и reduce, и затем ожидает результата.
По сути, работа пользователя очень простая, потому что пользователю не нужно много знать о Hadoop или распределенном программировании.
Это внутри, реализация парадигмы MapReduce, и собственно планировщик должен обеспечить распараллеливание map, он должен разделить данные между различными задачами map.
И он должен передать данные из map в reduce, при этом разделяя ключи по reduce задачам.
А также необходимо распараллелить reduce.
Другими словами, необходимо запланировать сами задачи reduce.
И, наконец, необходимо реализовать хранилище для ввода map, для вывода map, которое совпадает с вводом reduce, а также реализовать вывод reduce.
Кроме того, нужно обеспечить, чтобы фаза reduce стартовала только после окончания фазы map.
Итак, как решить все эти проблемы?
В облаке распараллелить map легко, потому что каждая задача map является независимой от другой задачи map, и поэтому эти задачи map могут быть определены для выполнения любому серверу.
Обычно задачи map назначаются серверу, к которому эти данные наиболее близко находятся, чтобы уменьшить сетевые издержки.
Далее необходимо гарантировать, чтобы все исходящие записи map с одним и тем же ключом были присвоены одному и тому же reduce.
И это поможет перевести данные с map на reduce.
В этом случае вы используете функцию partitioning.











