На первую страницу Курсы для специалистов Школа Web-мастеров ИТ сервис-менеджмент и управление проектами  

Курсы Big Data Science

Микроинформ логотип

Курсы Big Data Science в Микроинформ

 Курс: BD-HDD Hadoop для разработчиков данных
(Hadoop Data Developers)

Ориентирован: на специалистов по работе с большими данными ответственных за настройку и сопровождение ввода данных в Data Lake (озеро данных), а также желающих получить теоретические знания и практические навыки по подготовке больших данных, специфики использования процессов ETL в кластерах Hadoop и организации Batch, stream и real-time процессинга больших данных с использованием компонентов экосистемы Hadoop.
Предварительный уровень подготовки:

  • Желательно иметь начальный опыт работы в Unix.
  • Желательно иметь начальный опыт работы с SQL

Продолжительность: 5 дней, 40 академических часов.
Методические материалы: учебное пособие на русском языке.
Документ об окончании курса: свидетельство учебного центра Микроинформ.

Данный курс направлен на формирование теоретических и практических навыков планирования, формирования и сопровождения Data Lake. Рассматриваются примеры интеграции, настройки и обслуживания "pipelines" - традиционных источников поступления данных (корпоративные базы данных, web-логи, файловые системы, интернет данные, транзакции) для последующего анализа больших данных. Практические занятия выполняются в AWS и локальной кластерной системе с использованием дистрибутивов Cloudera Hadoop и HortonWorks Data Platform.

Программа курса

  1. Основные концепции Hadoop
    • Основы Hadoop. Жизненный цикл аналитики больших данных. Хранение, накопление, подготовка и процессинг больших данных.
    • Архитектура HDFS. Операции чтения и записи, назначения HDFS. Блоки HDFS. Основные команды работы с HDFS.
    • Ведение в MapReduce. Компоненты MapReduce. Работа программы MapReduce. Архитектура YARN. Способы обработки распределенных данных с использованием Apache Spark, YARN и MapReduce v2/v3. 
  2. Инструменты управления кластером
    • Установка компонент Apache Spark, Hive, Impala, Hue, Pig.
    • Обзор Ambari, Tez, Mesos, ZooKeeper, Oozie, Zeppelin, визуализация данных с Hue.
  3. Хранение данных в Hadoop DFS
    • Хранение файлов в HDFS: сжатие, sequence файлы.
    • Формат AVRO, RCfile, ORC, Parquet.
    • Введение в Pig: формат хранения данных, сложные и вложенные типы данных, синтаксис Pig Latin, оптимизация операций Join.
  4. Импорт данных в кластер Hadoop
    • Импорт и обработка данных в кластере Hadoop. Интеграция с реляционными базами данных. Структура хранения данных в таблицах.
    • Введение в Sqoop: импорт и экспорт данных Sqoop, формат файлов, инкриментальный импорт, Hive экспорт.
  5. Hive
    • Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов, работа с внешними и внутренними таблицами Hive, оптимизация Join операций.
    • Операции импорта и экспорта данных и взаимодействия с внешними источниками. Настройка производительности.
  6. Cloudera Impala
    • Введение в Impala: архитектура и компоненты, Impala синтаксис, типы данных, написание запросов, загрузка данных, взаимодействие Spark, Hive. 
  7. Apache Spark
    • Архитектура Apache Spark.
    • Введение в Spark: RDD & Datasets, доступ к внешним данным из Spark, интеграция с Hadoop, запуск приложений, Spark streaming, Spark SQL, Datasets, Dataframes.
  8. Потоковые данные
    • Импорт потоковых данных в кластер.
    • Использование Kafka для работы с потоковыми данными.
    • Использование Flume для работы с потоковыми данными.
    • Визуализация потоковых данных

 

Hadoop