На первую страницу Курсы для специалистов Курсы ЕГАИС Психология - Управление - Маркетинг Курсы  Big Data Science  

Телефон: 7(495)933-00-06 / О компании / Наши координаты / Карта сайта /  

Курсы Big Data Science

Микроинформ логотип

Курсы Big Data Science в Микроинформ

 Курс: BD-HIVE Hadoop SQL Hive - администратор

Ориентирован: на специалистов SQL имеющих опыт работы с реляционными базами данных для организации хранения, настройке импорта и экспорта данных с использованием Apache Hive в кластере Hadoop и желающих его применить.
Предварительный уровень подготовки:

  • Начальный опыт работы в Unix
  • Начальный опыт работы с SQL

Продолжительность: 1 день, 8 академических часа.
Методические материалы: учебные материалы в эл. виде.
Документ об окончании курса: свидетельство учебного центра Микроинформ.
Квалификационный тест: нет.

Это практический тренинг по настройке доступа к большим данным в распределенной файловой системе HDFS (платформа Hadoop) с помощью интерфейса Hadoop SQL Hive. В нем рассматриваются аспекты доступа к не структурированным данным с использованием Apache Hive, Cloudera Impala, Apache HBase, Spark SQL, использование и оптимизация запросов операций JOIN и SELECT, оптимизация доступа с помощью партиций и buckets.

Курс будет полезен для администраторов и разработчиков Apache Hive. Рассматриваются методы доступа к данным с использованием HiveQL, загрузка и выгрузка данных в Hive, HDFS, реляционные БД и NoSQL, организация и оптимизация хранения данных с использованием Hive на HDFS, вопросы интеграции с другими инструментами экосистемы Hadoop. Практические занятия выполняются в AWS и локальной кластерной системе с использованием дистрибутивов Cloudera Hadoop, HortonWorks, Arenadata.

Программа курса

1. Основные концепции Hive

  • Архитектура Hive.
  • Инструменты администрирования и исполнения запросов: beeline/Hive shell & HUE Query Editor.
  • Схема чтения и записи в Hive.
  • Структура и формат хранения файлов HIVE.
  • Синтаксис HiveQL. Hive DDL и DML операции.

2. Импорт и экспорт в Hive

  • Загрузка данных в таблицы Hive.
  • Внешние и управляемые таблицы.
  • Оптимизации производительности с использование Partition, Buckets.
  • Импорт/экспорт данных БД.
  • Форматы хранения данных и применение компрессии.

3. Реализация JOIN в Hive

  • Map JOIN.
  • Comon JOIN.
  • Skewed JOIN.
  • Collocated JOIN.
  • Форматы хранения данных и применение компрессии.

4. Advanced Hive

  • Интеграция Hive с Pig, Impala, Hbase, Spark, Sqoop.
  • Thrift сервер
  • User Defined Functions
  • Hive на Spark.
  • Hive на Tez

5. Сценарии применения Hive