На нашем сайте вы можете читать онлайн «Введение в облачные и распределенные информационные системы». Эта электронная книга доступна бесплатно и представляет собой целую полную версию без сокращений. Кроме того, доступна возможность слушать аудиокнигу, скачать её через торрент в формате fb2 или ознакомиться с кратким содержанием. Жанр книги — Знания и навыки, Компьютерная литература, Книги о компьютерах. Кроме того, ниже доступно описание произведения, предисловие и отзывы читателей. Регулярные обновления библиотеки и улучшения функционала делают наше сообщество идеальным местом для любителей книг.
Введение в облачные и распределенные информационные системы

Автор
Дата выхода
29 декабря 2020
Краткое содержание книги Введение в облачные и распределенные информационные системы, аннотация автора и описание
Прежде чем читать книгу целиком, ознакомьтесь с предисловием, аннотацией, описанием или кратким содержанием к произведению Введение в облачные и распределенные информационные системы. Предисловие указано в том виде, в котором его написал автор (Тимур Машнин) в своем труде. Если нужная информация отсутствует, оставьте комментарий, и мы постараемся найти её для вас. Обратите внимание: Читатели могут делиться своими отзывами и обсуждениями, что поможет вам глубже понять книгу. Не забудьте и вы оставить свое впечатие о книге в комментариях внизу страницы.
Описание книги
Облачные и распределенные вычислительные системы — это быстро развивающаяся IT-область хранения и обработки данных. Современные облачные и распределенные вычислительные системы строятся на основе общих концепций и алгоритмов, таких как облако, MapReduce, NoSQL базы данных, распределенные алгоритмы, масштабируемость и многое другое. Познакомьтесь с этими фундаментальными понятиями облачных и распределенных информационных систем и узнайте, как эти системы работают изнутри.
Введение в облачные и распределенные информационные системы читать онлайн полную книгу - весь текст целиком бесплатно
Перед вами текст книги, разбитый на страницы для удобства чтения. Благодаря системе сохранения последней прочитанной страницы, вы можете бесплатно читать онлайн книгу Введение в облачные и распределенные информационные системы без необходимости искать место, на котором остановились. А еще, у нас можно настроить шрифт и фон для комфортного чтения. Наслаждайтесь любимыми книгами в любое время и в любом месте.
Текст книги
И у вас есть шаблон, который может быть регулярным выражением или просто словом, или набором слов, и вы хотите вывести все строки текста, соответствующие этому шаблону.
Таким образом, Map будет принимать на вход каждую строку текста и проверять ее на соответствие шаблону, а затем выводить эту строку как ключ.
Reduce будет просто копировать промежуточные данные на выход, не выполняя никакой обработки, если вы конечно не захотите, например, соединить все строки.
Решая такую простую задачу на одной машине, для больших объемов данных, вы можете потратить очень много времени.
Преимущество распределенного grep здесь в скорости обработки.
С помощью MapReduce вы можете запускать ваше приложение, даже если ваши данные распределены на нескольких серверах.
Итак, как программировать с MapReduce?
С точки зрения пользователя, пользователь записывает программу map, ее метод map, а также записывает программу reduce, и ее метод reduce.
Затем запускает работу, определяя количество задач map и reduce, и затем ожидает результата.
По сути, работа пользователя очень простая, потому что пользователю не нужно много знать о Hadoop или распределенном программировании.
Это внутри, реализация парадигмы MapReduce, и собственно планировщик должен обеспечить распараллеливание map, он должен разделить данные между различными задачами map.
И он должен передать данные из map в reduce, при этом разделяя ключи по reduce задачам.
А также необходимо распараллелить reduce.
Другими словами, необходимо запланировать сами задачи reduce.
И, наконец, необходимо реализовать хранилище для ввода map, для вывода map, которое совпадает с вводом reduce, а также реализовать вывод reduce.
Кроме того, нужно обеспечить, чтобы фаза reduce стартовала только после окончания фазы map.
Итак, как решить все эти проблемы?
В облаке распараллелить map легко, потому что каждая задача map является независимой от другой задачи map, и поэтому эти задачи map могут быть определены для выполнения любому серверу.
Обычно задачи map назначаются серверу, к которому эти данные наиболее близко находятся, чтобы уменьшить сетевые издержки.
Далее необходимо гарантировать, чтобы все исходящие записи map с одним и тем же ключом были присвоены одному и тому же reduce.
И это поможет перевести данные с map на reduce.
В этом случае вы используете функцию partitioning.











