• О мероприятии
  • Программа
  • Спикеры
  • Научный семинар
  • Обучение
  • Регистрация
  • Партнеры
  • Контакты
  • О мероприятии
  • Программа
  • Спикеры
  • Научный семинар
  • Обучение
  • Регистрация
  • Партнеры
  • Контакты
ОБУЧЕНИЕ
Практические аспекты использования анализа Big Data в современной компании
Основы обработки больших объемов данных
Введение в машинное обучение

Переход к цифровой экономике: практические аспекты использования анализа больших данных в современной компании

Для сохранения конкурентоспособности в современном мире компаниям уже не достаточно полагаться на традиционные методы ведения бизнеса. Для оперативного прогнозирования экономических и технологических трендов на горизонте 5-10 лет требуется формирование новых подходов в рамках зарождающейся цифровой экономики. Одним из таких подходов является использования анализа больших данных. В рамках данного однодневного курса руководители компаний и/или отдельных подразделений крупных корпораций получат представление о том, как наиболее эффективно использовать потенциал больших данных для повышения рентабельности своих компаний.

Программа курса

Введение в машинное обучение и анализ данных:

  1. Что такое машинное обучение и анализ данных.
  2. Где можно и нужно применять анализ данных, а где нет.
  3. Какие ресурсы требуются для анализа данных.
  4. Как машинное обучение может быть использовано для решения технических задач и в операционной деятельности.

Базовые термины и понятия в машинном обучении и анализе данных:

  1. Дизайн через эксперимент, рандомизация, А/В тестирование.
  2. Причинно-следственные отношения, контрафакты.
  3. Стратегии управления качеством данных.
  4. Предвзятость данных и искажения.
  5. Бизнес интелидженс и зачем он нужен компании.
  6. Различия между машинным обучением и классическим статистическим анализом.

Как общаться с программистами:

  1. Как описать структуру проекта, основанного на данных.
  2. Как составить правильное ТЗ на разработку для программистов.
  3. Как определить успех или неуспех проекта, использующего машинное обучение.

Навыки:

  1. Повышение эффективности бизнеса благодаря внедрению business intelligence
  2. Оптимизация бизнес-процессов за счет использования современных технологий анализа данных
  3. Набор знаний и умений для выбора правильны технологических решений, исходя из текущих задач бизнеса
  4. Умение выдать правильное (=эффективное) ТЗ на разработку специалистам в анализе данных

Игорь Балк — CEO Global Innovation Labs. Предприниматель с 20-летним опытом в разработке ПО и телекоммуникациях. Под его руководством TaskPoint вошел в сотню самых перспективных стартапов по версии Innovate!2010, попал в финал конкурса MassChallenge 2010, был назван в числе 10 лучших ИТ-стартапов по версии MIT 100K ESC и заработал множество других отраслевых номинаций. До основания TaskPoint и Global Innovation Labs Игорь был соучредителем и главным техническим директором компании Unison Technologies. Игорь занимал ключевые посты в R3 Logic, PriceWaterhouseCoopers, Intermedia.NET и Intellisense (приобретена корпорацией Corning с оценкой в 750 миллионов долларов) и был соучредителем компании VISO, создателя первого онлайн-супермаркета. Является автором целого ряда научных работ и патентов. Игорь является членом программного комитета конференции DTIP MEMS/MOEMS и со-председателем орг. комитетов Internation Conferecne on Sustainable Cities и Internationa Conference on Big Data and Its Applications (BigData Conference). Член экспертного совета космического и ИТ кластеров фонда Сколково.

Место проведения: Digital October
Дата: 16.09. 2017 с 10.00 до 18.00
Стоимость обучения: 15 000 руб.
Перейти к заказу билетов

Основы обработки больших объемов данных

В ходе данного семинара на практических примерах вы узнаете, как применять алгоритмы машинного обучения и анализа данных в контексте реальных бизнес-задач, актуальных здесь и сейчас. По данным SuperJob специалисты по машинному обучению и анализу данных могут рассчитывать на зарплатные предложения в Москве — до 250 тысяч рублей, что заметно выше чем в среднем по ИТ индустрии.

Обязательным требованием к слушателям курса является владение языком Python на базовом уровне.

Программа курса

  1. Задачи обработки больших объемов данных. Вычислительные кластеры и распределенные вычисления. Обзор технологий: Apache Hadoop, Hive, Pig, Mahout, Spark, HBase, Cassandra. Примеры задач. Технология MapReduce. Apache Hadoop. Архитектура кластера Hadoop. Распределенная файловая система HDFS.
    Навыки:
    Понимание архитектуры Hadoop и основ работы с кластерами. Использование распределенных файловых систем. Подготовка данных для задач MapReduce. Умение запускать задачи в кластере Hadoop.
  2. Программирование для Hadoop. Разработка программ для Hadoop на Java. Представление данных в Hadoop, пары ключ-значение. Mapper, Reducer и Driver. Подготовка программ для запуска в кластере Hadoop. Разработка программ на Python.
    Навыки:
    Разработка программа MapReduce на Java и Python. Понимание ограничений технологии MapReduce в Hadoop.
  3. Обработка структурированных данных. Структурированные и неструктурированные данные. Apache Hive. Представление данных в HDFS в виде таблиц Hive. Язык запросов Hive SQL. Запуск задач Hive в кластере MapReduce.
    Навыки:
    Организация работы со структурированными данными в распределенном кластере. Написание запросов Hive SQL. Запуск запросов Hive SQL в распределенном кластере.
  4. Apache Spark. Трансформации и действия Spark. Кластер Spark. Взаимодействие Spark и Hadoop. Программирование на Apache Spark.
    Навыки:
    Разработка программ для Apache Spark на Python.

Преподаватель курса Андрей Созыкин (https://www.asozykin.ru/) — преподаватель с 10+ летним стажем, заведующий кафедрой высокопроизводительных компьютерных технологий УрФУ. Организовал магистерскую программу «Анализ Данных» в УрФУ совместно со школой Анализа Данных компании Яндекс. Имеет сертификаты Cloudera Certified Developer for Apache Hadoop и NVIDIA Certified Deep Learning Institute Instructor. Ведет канал на Youtube с учебными курсами по компьютерным наукам (https://www.youtube.com/channel/UC5gufuYHPSsJA-jul-iwyXA).

Место проведения: Digital October
Дата: 16.09. 2017 с 10.00 до 18.00
Стоимость обучения: 15 000 руб.
Перейти к заказу билетов

Введение в машинное обучение

Как показывает проводимая нами ежегодная конференция Big Data Conference спрос на специалистов по машинному обучению и анализу больших данных неуклонно растет и вузы не успевают выпускать необходимое количество специалистов в этой области, что приводит к возрастающему спросу со стороны таких лидеров рынка как Сбербанк, МТС, Яндекс и других. Основной фокус семинара направлен на выработку практических навыков работы с популярными методами анализа данных и машинного обучения на основе кейсов из реальной практики.

Обязательное требование к слушателям – владение языком Python на базовом уровне.

Программа курса

  1. Основы машинного обучения. Примеры практического применения. Решаемые задачи: кластеризация, классификация, регрессия. Типы обучения: с учителем, без учителя, с подкреплением. Обощение и переобучение. Обучающая, проверочная и тестовая выборки.
  2. Описательная статистика. Исследование и визуализация данных в Python. Линейная регрессия.Градиентный бустинг. Композиция последовательно уточняющих друг друга моделей. Библиотека XGBoost. Навыки: Понимание работы алгоритма градиентного бустинга. Применение XGBoost для анализа данных.
  3. Нейронные сети. Модель искусственного нейрона МакКаллока-Питса. Алгоритм обратного распространения ошибки. Глубокое обучение. Библиотеки глубокого обучения TensorFlow, Theano и Keras. Сверточные нейронные сети. Уровни свертки и подвыборки. Задачи компьютерного зрения. Регуляризация Dropout. Навыки: Разработка программ с использованием нейронных сетей. Применение нейронных сетей для задач компьютерного зрения.
  4. Рекуррентные нейронные сети. Сети долго-краткосрочной памяти. Задачи обработки текстов. Векторное представление слов. Навыки: Разработка программ с использованием нейронных сетей долго-краткосрочной памяти. Применение нейронных сетей для задач обработки текстов.
  5. Решение задачи регрессии с помощью нейронных сетей. Стандартизация данных. Навыки: Понимание роли стандартизации данных для обучения нейронной сети. Решение задач регрессии с помощью глубоких нейронных сетей.

Преподаватель курса Егор Матешук — Data Scientist компании Ostrovok.ru, в прошлом Data Scientist в Global Innovation Labs. Ведущий специалист в различных IT-проектах по анализу данных, в т.ч. прогнозирование оттока клиентов для федерального банка, разработка модели кластерного анализа для оценки эффективности программ гос.поддержки.

Научный руководитель курса Игорь Балк — CEO Global Innovation Labs. Предприниматель с 20-летним опытом в разработке ПО и телекоммуникациях. Под его руководством TaskPoint вошел в сотню самых перспективных стартапов по версии Innovate!2010, попал в финал конкурса MassChallenge 2010, был назван в числе 10 лучших ИТ-стартапов по версии MIT 100K ESC и заработал множество других отраслевых номинаций. До основания TaskPoint и Global Innovation Labs Игорь был соучредителем и главным техническим директором компании Unison Technologies. Игорь занимал ключевые посты в R3 Logic, PriceWaterhouseCoopers, Intermedia.NET и Intellisense (приобретена корпорацией Corning с оценкой в 750 миллионов долларов) и был соучредителем компании VISO, создателя первого онлайн-супермаркета. Является автором целого ряда научных работ и патентов. Игорь является членом программного комитета конференции DTIP MEMS/MOEMS и со-председателем орг. комитетов Internation Conferecne on Sustainable Cities и Internationa Conference on Big Data and Its Applications (BigData Conference). Член экспертного совета космического и ИТ кластеров фонда Сколково.

Место проведения: Digital October
Дата: 16.09. 2017 с 10.00 до 18.00
Стоимость обучения: 15 000 руб.
Перейти к заказу билетов
Big Data Conference © 2014 – 2017
  • О проекте
  • Спикеры
  • Программа
  • Научный семинар
  • Big Data Хакатон
  • Регистрация
  • Партнеры
  • Контакты