Системы анализа и обработки данных

СИСТЕМЫ АНАЛИЗА И ОБРАБОТКИ ДАННЫХ

ISSN (печатн.): 2782-2001          ISSN (онлайн): 2782-215X
English | Русский

Последний выпуск
№2(94) Апрель - Июнь 2024

Особенности развёртывания, настройки и применения инструментария apache hadoop на windows и unix-подобных операционных системах

Выпуск № 2 (55) Апрель - Июнь 2014
Авторы:

БОТЫГИН И.А.,
ЗАБЕЙВОРОТА А.В.
Аннотация
Актуальность работы обусловлена необходимостью обработки больших объемов разнородных данных. Цель работы: выявить особенности настройки и применения свободно распространяемого инструментария проектирования распределенных систем для хранения, анализа и обработки данных на базе проекта Apache Software Foundation – Apache Hadoop. Методы исследования: экспериментальный анализ отладки и тестирования разработанных программных кодов в средах специализированных фреймворков. Результаты: описаны алгоритмические схемы формирования инфраструктур, необходимых для функционирования Apache Hadoop, и процесс настройки Apache Hadoop для ОС Windows (Cygwin) и Ubuntu. Процесс управления осуществлялся через FS shell-интерпретатор, запускаемый из консоли операционной системы. Исследована базовая схема взаимодействия компонентов архитектуры Apache Hadoop при организации распределенной обработки данных. Показана возможность формирования кластера компьютеров с неограниченным горизонтальным масштабированием и параллельным выполнением заданий. Проведено сравнение способа конфигурирования приложений на основе Java-классов и подхода на основе xml-конфигураций с использованием Spring Hadoop-фреймворка, который комбинирует возможности Spring Framework с возможностью Apache Hadoop. Показывается возможность платформы Spring Hadoop  обеспечить слабую связанность компонентов и поддержку всестороннего доступа к данным HDFS, тем самым делая решение более гибким и модульным. Предложена и апробирована технологическая схема создания приложения, реализующего парадигму MapReduce.

 
Ключевые слова: Apache Hadoop, фреймворк Spring Hadoop, MapReduce-вычисления, параллельные вычисления, хранилища данных, масштабируемость, распределенная файловая система Hadoop, большие данные, управление кластером Apache Hadoop, мониторинг кластера Apache Hadoop, развертывание кластера Apache Hadoop

Список литературы
[1] What is Apache Hadoop? // MapR: [website]. – 2014. – URL: http://www.mapr.com/products/apache-hadoop (дата обращения: 20.01.2014).

[2] Enterprise Hadoop: the ecosystem of projects // Hortonworks: [website]. – [2011–2014]. – URL: http://hortonworks.com/hadoop/ (дата обращения: 20.01.2014).

[3] Hadoop and Big Data // Cloudera: [website]. – 2014. – URL: http://www.cloudera.com/content/cloudera/en/ about/hadoop-and-big-data.html (дата обращения: 20.01.2014).

[4] Hadoop scales fast on Google Cloud Platform. – 2014. – URL: https://cloud.google.com/solutions/hadoop/? gclid=CKzJ1NjltL4CFSLbcgodY24AXQ (дата обращения: 20.01.2014).

[5] Apache Hadoop: [offic. website]. – 2014. – URL: http://hadoop.apache.org (дата обращения: 20.04.2013).

[6] Java SE Runtime Environment 7 Downloads // Oracle: [website]. – URL: http://www.oracle.com/technetwork/java /javase/downloads/jre7-downloads-1880261.html (дата обращения: 20.04.2013).

[7] Cygwin project // Cygwin: [website]. – [2000–2013]. – URL: http://www.cygwin.com (дата обращения: 20.01.2014).

[8] Документация [по Spring Hadoop] // Spring: [website]. – URL: http://spring.io/docs (дата обращения: 20.04.2013).

[9] Spring for Apache Hadoop // Spring: [website]. – 2014. – URL: http://projects.spring.io/spring-hadoop/ (дата обращения: 20.01.2014).

 
Просмотров: 3908