На первую страницу Курсы для специалистов Школа Web-мастеров ИТ сервис-менеджмент и управление проектами  
 

Авторизованные курсы корпорации Dell EMC

 

Курс: (MR-1CP-ETAAMUSD) Advanced Methods in Data Science & Big Data Аnalytics
Расширенные методы для аналитики больших данных

Ориентирован: на специалистов-аналитиков данных, специалистов по работе с большими данными, прошедшими курс подготовки или эквивалентные знания в рамках курса «(MR-1CP-DSBDA) Data Science and Big Data Analytics (Работа с данными и аналитика больших данных)», а также для специалистов, которые хотят изучить MapReduce и методы для анализа неструктурированных данных (такие как текст).
Предварительный уровень подготовки:

Считайте вышеупомянутое перечнем необходимой подготовки слушателей курса (или памяткой). Наличие необходимой подготовки обеспечит положительный результат при прохождении курса в классе и позволит слушателям, основываясь на своих знаниях и опыте, изучить инструменты и аналитические методы, рассматриваемые в курсе.
Продолжительность: 5 дней, 40 часов.
Методические материалы: учебник EMC на английском языке.
Документ об окончании курса: сертификат EMC.
Курс готовит слушателей к сдаче сертификационного экзамена EMC Proven™ Professional Data Scientist Specialist  EMCDS  - E20-065 Advanced Analytics Specialist Exam for Data Scientists.

Курс главным образом рассматривает систему Hadoop (включая Pig, Hive, and HBase), принципы обработки информации на естественном языке (Natural Language Processing), анализ социальных сетей (Social Network Analysis), моделирование, метод машинного обучения Random Forest, полиноминальная логистическая регрессия и визуализация данных. Курс предусматривает использование вендор-нейтральных (или «open source») технологий и инструментов для демонстрации методов работы с большими данными..

Цели курса

По окончанию курса слушатели успешно выполнившие практические работы смогут:

  • Разрабатывать и применять функционал MapReduce;
  • Свободно использовать NoSQL базы данных и Hadoop инструментарий для анализа масштабируемых неструктурированных наборов данных;
  • Использовать концепции Natural Language Processing, Social Network Analysis, и методы визуализации данных;
  • Использовать продвинутые методы количественного анализа применительно к среде Hadoop;
  • Применять продвинутые методы количественного анализа для реальных наборов данных в практических работах;

Программа курса

  1. MapReduce и Hadoop
    • Знакомство с MapReduce framework
    • Apache Hadoop
    • Распределенная файловая система Hadoop (HDFS)
    • YARN
  2. Экосистема Hadoop и NoSQL
    • Экосистема Hadoop
    • Pig
    • Hive
    • NoSQL - Not Only SQL
    • HBase
    • Spark
  3. Обработка информации на естественном языке (Natural Language Processing)
    • Введение в Natural Language Processing
    • Предварительная подготовка текста
    • TFIDF
    • Концепция «bag-of-words»
    • Моделирование языка
    • POS tagging и HMM
    • Анализ тональности (Sentiment analysis) и моделирование темы
  4. Анализ социальных сетей (Social Network Analysis)
    • Введение в SNA и теорию графов
    • Наиболее важные узлы
    • Сообщество и концепция «маленького мира»
    • Проблемы сети и инструментарий SNA
  5. Теория и методы науки о данных
    • Моделирование
    • Случайные леса (Random Forest)
    • Полиноминальная логистическая регрессия (Multinominal Logistic Regression)
  6. Визуализация данных
    • Восприятие и визуализация
    • Визуализация многовариантных данных

Данный курс предусматривает, кроме теории и демонстраций, выполнение лабораторных практических заданий.