Хорошие программисты для обмена больших объемов данных, представленного MapReduce потока заданий

Хорошие программисты для обмена больших объемов данных MapReduce поток заданий , представленную

A, определение MapReduce

MapReduce параллельно вычислительная модель для обработки больших данных, рамы и Интернет.

Его основная идея заключается в том : карты (карта) и уменьшение (уменьшение)

1) MapReduce представляет собой кластер на основе высокопроизводительной параллельной вычислительной платформы

2) MapReduce является основой программного обеспечения, работающая параллельных вычислений

3) модель программирования MapReduce представляет собой метод параллельно и

Два, MapReduce основные функции:

Во- вторых, основная функция MapReduce

1) Расчет планирования задач и данных разбиения

2) данные / код для взаимного позиционирования

3) Оптимизация системы

4) обнаружение ошибок и восстановление

Три , вычислительные задачи представлен процесс работы

В то время, чтобы узнать это, мы сталкиваемся с некоторыми проблемами:

1) Во-первых, проблема стоит, как распределены данные?

2) сократить большой файл в соответствии с родом способом, были выброшены на разных машинах?

3) после того, как вырубка каким-то образом, это как бросить разные машины?

4) Какая машина, назначенная для задачи? Как распределение?

5) Как получить задачу решить?

С этими вопросами мы должны узнать о работе процесса представления от процесса , чтобы найти ответ на наши проблемы.

Конкретный процесс представления работы, мы используем слова суммированы следующим образом:

1, то клиент отправляет задание на ResourceManager (п.м.).

2, ет положить очереди и возвращает JobId информации о пути к файлу.

3, клиентские вычислительные ресурсы , необходимые, загружать путь HDFS хранения (включая информацию о задании и информации фрагмента).

4, клиент , чтобы вернуть RM готовую информацию о ресурсах, работа в очередь, сказал ему , что он может начать работу, ждать планирования п.м.

5, тт, прежде чем планирования, запрос ресурсов nodemanager (нм), нм Контейнер начинается, он получает задание на ресурс, приобретенные HDFS контейнер, а затем взаимодействовать с клиентом потребности в ресурсах были рассчитаны, клиент начинает посылать applicationmaster (утра) команды.

6, после запуска утра, применение вычислительных ресурсов (MapTask) ет путем анализа информации фрагмента.

7, ет получить информацию Просмотр нма ресурсы, с помощью балансировки нагрузки машины необходимо, нма каждого сердцебиения запрашивает задачи, возложенные на их собственную информацию описания работы из принятого сообщения машина подберет задание от HDFS вычислительные ресурсы, а также взаимодействовать с утром, Посылают команды для запуска maptask.

8, после окончания Maptask, уведомление часов, затем отпустите maptask ресурсы, посылает сообщение ет, применение reducetask ресурсов.

9, распределение ресурсов п.м., то начать reducetask.

10, reducetask maptask завершил сбор данных, снизить логику запуска. После выполнения, уведомление часов, затем отпустите reducetask ресурсов. Я уведомит гт. Я высвободить ресурсы.

Хорошие программисты для обмена больших объемов данных, представленного MapReduce потока заданий

рекомендация