На первую страницу Курсы для специалистов Школа Web-мастеров ИТ сервис-менеджмент и управление проектами  

Курсы Big Data Science

Микроинформ логотип

Курсы Big Data Science в Микроинформ

 Курс: BD-HADM Администрирование Hadoop-кластера
(Administering Hadoop)

Ориентирован: на системных администраторов, системных архитекторов, разработчиков Hadoop.
Предварительный уровень подготовки:

  • Начальный опыт работы в Unix.

Продолжительность: 5 дней, 40 академических часов.
Методические материалы: учебное пособие на русском языке.
Документ об окончании курса: свидетельство учебного центра Микроинформ.
Квалификационный тест: нет.

Hadoop является наиболее популярной открытой платформой для распределенных вычислений. Курс содержит расширенную информацию по планированию и развертыванию распределенных вычислительных кластеров на базе Hadoop, мониторингу и оптимизации производительности системы, резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент, настройкам безопасности системы на базе Hadoop. Данный курс включает необходимую теоретическую подготовку и наглядные практические примеры развертывания и администрирования Hadoop-кластера, в том числе в облачной инфраструктуре. Практические занятия выполняются в кластерной среде AWS с использованием программного обеспечения Cloudera Manager и подготавливают слушателей к сдаче сертификационного экзамена Cloudera Certified Administrator for Apache Hadoop (CCAH).

Программа курса

  1. Введение в Big Data
    • Что такое Big Data
    • Понимание проблемы Big Data
  2. Hadoop Distributed File System
    • Блоки HDFS
    • Основные команды работы с HDFS
    • Операции чтения и записи, назначения HDFS
    • Архитектура HDFS
  3. Архитектура Apache Hadoop
    • Отказоустойчивость Hadoop
    • Name node
    • YARN
    • Map reduce framework
    • Hadoop daemons
  4. Дизайн кластера Hadoop
    • Дистрибутивы и версии Hadoop: различия и ограничения
    • Требования программного и аппаратного обеспечения
    • Вопросы масштабирования
    • Планирование кластера
    • Оптимизация уровня ядра.
    • Hadoop в облаке.
  5. Установка кластера
    • Установка Hadoop кластера
    • Выбор начальной конфигурации
    • Начальная конфигурация HDFS и MapReduce
    • Файлы логов
    • Установка Hadoop клиентов
    • Установка Hadoop кластера в облаке
    • Выбор вендора и хостинга
    • Установка с использованием виртуального образа
    • Amazon EMR
  6. MapReduce
    • Введение в MapReduce
    • Компоненты MapReduce
    • Работа программы MapReduce
    • YARN MapReduce v2
    • Восстановление после сбоя
  7. Операции обслуживания кластера Hadoop
    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск
    • Управление узлами
    • Сетевая топология
    • Настройка высокой доступности кластера и обновлений
    • Импорт(загрузка) данных на HDFS
  8. Управление кластером Hadoop с использованием Cloudera Manager
    • Установка Cloudera Manager
    • Основные операции и задачи Cloudera Manager
    • Мониторинг с Cloudera Manager
    • Диагностика и разрешение проблем с Cloudera Manager
  9. Безопасность при работе с Big Data
    • Многопользовательский режим
    • Аутентификация и авторизация
    • Kerberos, keytabs, principals
    • Установка и конфигурирование Kerberos в Hadoop
  10. Мониторинг
    • Ganglia
    • JMX
    • Logging
    • Clustering
  11. Оптимизация и управление ресурсами
    • Поиск узких мест
    • Производительность
    • Файловая система
    • Worker Node
    • Сетевая производительность
    • FIFO scheduler
    • Планировщик емкости (Capacity scheduler)
    • Гранулярное управление ресурсами (Fair scheduler)
    • Защита очередей и доминантное управление ресурсами
  12. Troubleshooting
    • Data Node
    • Task Tracker
    • Job Tracker
    • Name Node
  13. Резервное копирование (Backup)
    • Репликация данных
    • Резервное копирование и аварийное восстановление
    • Best practices
  14. Импорт данных. 
    • Анализ логов
    • Потоковая обработка
    • Batch процессинг
    • Импорт данных из социальных сетей
  15. Инструментарий Hadoop экосистемы
    • Apache Pig - установка и функционал
    • Apache Hive, понятие Hive таблицы, установка Hive
    • Apache Scoop - установка и функционал
    • Apache Flume - установка и функционал
    • Apache Spark-установка и функционал
    • Apache HBase- установка функционал

 

Hadoop