Системы анализа и обработки данных

Особенности развёртывания, настройки и применения инструментария apache hadoop на windows и unix-подобных операционных системах

Выпуск № 2 (55) Апрель - Июнь 2014

Авторы:

Аннотация
Авторы
Список литературы
Статистика

Аннотация
Актуальность работы обусловлена необходимостью обработки больших объемов разнородных данных. Цель работы: выявить особенности настройки и применения свободно распространяемого инструментария проектирования распределенных систем для хранения, анализа и обработки данных на базе проекта Apache Software Foundation – Apache Hadoop. Методы исследования: экспериментальный анализ отладки и тестирования разработанных программных кодов в средах специализированных фреймворков. Результаты: описаны алгоритмические схемы формирования инфраструктур, необходимых для функционирования Apache Hadoop, и процесс настройки Apache Hadoop для ОС Windows (Cygwin) и Ubuntu. Процесс управления осуществлялся через FS shell-интерпретатор, запускаемый из консоли операционной системы. Исследована базовая схема взаимодействия компонентов архитектуры Apache Hadoop при организации распределенной обработки данных. Показана возможность формирования кластера компьютеров с неограниченным горизонтальным масштабированием и параллельным выполнением заданий. Проведено сравнение способа конфигурирования приложений на основе Java-классов и подхода на основе xml-конфигураций с использованием Spring Hadoop-фреймворка, который комбинирует возможности Spring Framework с возможностью Apache Hadoop. Показывается возможность платформы Spring Hadoop обеспечить слабую связанность компонентов и поддержку всестороннего доступа к данным HDFS, тем самым делая решение более гибким и модульным. Предложена и апробирована технологическая схема создания приложения, реализующего парадигму MapReduce.

Ключевые слова: Apache Hadoop, фреймворк Spring Hadoop, MapReduce-вычисления, параллельные вычисления, хранилища данных, масштабируемость, распределенная файловая система Hadoop, большие данные, управление кластером Apache Hadoop, мониторинг кластера Apache Hadoop, развертывание кластера Apache Hadoop

БОТЫГИН И.А.
к. т. н., доцент, Национальный исследовательский Томский политехнический университет, e-mail:
bia@tpu.ru
Orcid:

ЗАБЕЙВОРОТА А.В.
магистрант, Национальный исследовательский Томский политехнический университет, e-mail:
ghmulti@gmail.com
Orcid:

Список литературы
[1] What is Apache Hadoop? // MapR: [website]. – 2014. – URL: http://www.mapr.com/products/apache-hadoop (дата обращения: 20.01.2014).

[2] Enterprise Hadoop: the ecosystem of projects // Hortonworks: [website]. – [2011–2014]. – URL: http://hortonworks.com/hadoop/ (дата обращения: 20.01.2014).

[3] Hadoop and Big Data // Cloudera: [website]. – 2014. – URL: http://www.cloudera.com/content/cloudera/en/ about/hadoop-and-big-data.html (дата обращения: 20.01.2014).

[4] Hadoop scales fast on Google Cloud Platform. – 2014. – URL: https://cloud.google.com/solutions/hadoop/? gclid=CKzJ1NjltL4CFSLbcgodY24AXQ (дата обращения: 20.01.2014).

[5] Apache Hadoop: [offic. website]. – 2014. – URL: http://hadoop.apache.org (дата обращения: 20.04.2013).

[6] Java SE Runtime Environment 7 Downloads // Oracle: [website]. – URL: http://www.oracle.com/technetwork/java /javase/downloads/jre7-downloads-1880261.html (дата обращения: 20.04.2013).

[7] Cygwin project // Cygwin: [website]. – [2000–2013]. – URL: http://www.cygwin.com (дата обращения: 20.01.2014).

[8] Документация [по Spring Hadoop] // Spring: [website]. – URL: http://spring.io/docs (дата обращения: 20.04.2013).

[9] Spring for Apache Hadoop // Spring: [website]. – 2014. – URL: http://projects.spring.io/spring-hadoop/ (дата обращения: 20.01.2014).

Просмотров аннотации: 1915
Скачиваний полного текста: 2465
Просмотров интерактивной версии: 0

СИСТЕМЫ АНАЛИЗА И ОБРАБОТКИ ДАННЫХ

Особенности развёртывания, настройки и применения инструментария apache hadoop на windows и unix-подобных операционных системах