На первую страницу Курсы для специалистов Курсы ЕГАИС Психология - Управление - Маркетинг Курсы  Big Data Science  

Телефон: 7(495)933-00-06 / О компании / Наши координаты / Карта сайта /  

Курсы Big Data Science

Микроинформ логотип

Курсы Big Data Science в Микроинформ

 Курс: BD-INTR Основы Hadoop

Примечание: с 9 января 2019 года данный курс проводится в объединенном формате по дистрибутивам Hadoop версии 2 компаний Cloudera/HortonWorks/ArenaData на выбор для пользователей. Для корпоративного формата обучения возможна выделенная программа по одному из этих дистрибутивов Hadoop (уточняйте у менеджера).

Курс «Основы Hadoop» представляет собой сокращенную версию курса «Администрирование кластера Hadoop» и проводится параллельно с данным курсом в 3 дня, согласно утвержденной программе, на платформе Cloudera, HortonWorks или ArenaData Hadoop по выбору.

Ориентирован: на системных администраторов, системных архитекторов, разработчиков Hadoop, желающих получить теоретические знания и практические навыки по установке, настройке и использованию кластера Hadoop с использованием дистрибутивов Cloudera и HortonWorks
Предварительный уровень подготовки:

  • Начальный опыт работы в Unix, опыт работы с текстовым редактором vi.
Продолжительность: 3 дня, 24 академических часа.
Методические материалы: учебные материалы в эл. виде.
Документ об окончании курса: свидетельство учебного центра Микроинформ.
Квалификационный тест: нет.

Данный курс содержит базовые сведения по установке и настройке кластера Hadoop, выполнению основных операций в файловой системе HDFS, запуска задач MapReduce, основам управления ресурсами Hadoop с помощью планировщика задач YARN и знакомит слушателей с концепциями использования Hadoop и компонент экосистемы Hadoop (MapReduce, Apache Hive, Apache Pig, Apache Flume, Apache Sqoop и Apache Spark) для организации хранения больших данных и процессинга.

Курс построен на сквозных практических примерах с тренировочными наборами данных для запуска batch и потоковых (streaming) задач в Hadoop кластере развернутого в облачной инфраструктуре Amazone Web Services с использованием дистрибутивов Cloudera Distributed Hadoop или HortonWorks HDP/ArenaData Hadoop, а также программного обеспечения управления кластером Cloudera Manager или Apache Ambari.

Программа курса

  1. Основы Hadoop и Big Data
    • Что такое Big Data. Понимание проблемы Big Data. Эволюция систем распределенных вычислений Hadoop. Концепция Data Lake.
  2. Архитектура Apache Hadoop
    • Hadoop сервисы и основные компоненты: Name node. Data Node. YARN. HDFS.
    • Отказоустойчивость и высокая доступность.
    • Batch процессинг.
    • Потоковая обработка
  3. Распределенная файловая система HDFS
    • Основы HDFS: Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Дисковые квоты.
    • Архитектура HDFS. Управление репликацией. Политики гибридного хранения данных HDFS.
    • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы. Кодеки компрессии.
    • Импорт(загрузка) данных на HDFS
  4. MapReduce
    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2. Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce.
  5. Установка кластера
    • Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoop кластера в облаке.
  6. Архитектура YARN
    • Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность.
    • FIFO scheduler
    • Capacity scheduler (Планировщик по мощности)
    • Fair scheduler (Гранулярное управление ресурсами)
    • Защита очередей и доминантное управление ресурсами DRF
  7. Инструментарий Hadoop экосистемы
    • Графический интерфейс сервиса HUE
    • Введение Apache Pig
    • Введение в Apache Hive, понятие Hive таблицы, установка Hive
    • Введение в Apache sqoop — установка и выполнение базовых операций
    • Введение в Apache Flume — установка и выполнение базовых операций
    • Введение в Apache Spark — установка и выполнение базовых операций