data engineer план обучения
План прокачки для получения профессии Data engineer
Последние восемь лет я работаю руководителем проектов (не пишу код на работе), что естественно негативно влияет на мой технологический бекэнд. Я решил сократить своё технологическое отставание и получить профессию Data engineer. Основной навык Data engineer — способность разрабатывать, строить и поддерживать хранилища данных.
Составил план обучения, думаю он будет полезен не только для меня. План ориентирован на самостоятельное изучение курсов. Приоритет отдается бесплатным курсам на русском языке.
Алгоритмы и структуры данных
В свой план я включил изучение Python, повторение основ математики и алгоритмизации.
Базы и хранилища данных, Business Intelligence
На мой взгляд, важно изучать современную методологию проектирования хранилищ данных Data Vault ссылка 1, ссылка 2. И лучший способ изучить его — взять и реализовать на простом примере. На GitHub есть несколько примеров реализации Data Vault ссылка. Современная книга по хранилищам данных: Modeling the Agile Data Warehouse with Data Vault by Hans Hultgren.
Для знакомства с инструментами Business Intelligence для конечных пользователей можно использовать бесплатный конструктор отчетов, дашбордов, мини хранилищ данных Power BI Desktop. Обучающие материалы: ссылка 1, ссылка 2.
Hadoop and Big Data
Заключение
Не всё из того что изучаешь получается применять на работе. Поэтому необходим дипломный проект, в котором ты попробуешь применить новые знания.
В плане нет тем связанных с анализом данных и Machine Learning, т.к. это больше относится к профессии Data Scientist. Также нет тем связанных с облаками AWS, Azure т.к. эти темы сильно зависят от выбора платформы.
Вопросы к сообществу:
Насколько адекватен мой план прокачки? Что убрать или добавить?
Какой проект посоветуете в качестве дипломной работы?
📊 Как стать дата-инженером в 2021 году?
Типичные обязанности дата-инженера:
Главные технические компетенции дата-инженера:
Как стать успешным дата-инженером в 2021 году?
Изучите языки программирования
Требования индустрии вращаются вокруг Python и Scala. Чтобы создавать качественное ПО, вам потребуется подтянуть навыки владения этими языками и получить практический опыт работы с инструментами для инженерии данных. Также желательно владеть такими языками, как Java и C++.
Освойте SQL
Изучите облачные технологии
В наше время очень важно уметь работать с облачными средами. Изучите различные виды услуг, предоставляемых облачными платформами: хранение данных, управление кластерами, управление обработкой данных, вычисления и т.д.
Придется также изучить инструменты, вроде Kafka или Hadoop для планирования рабочих процессов в экосистеме больших данных.
Лучший способ профессионального роста – следить за последними тенденциями и инновациями в области науки о данных. Следите за выходом нового программного обеспечения и появлением новых инструментов для работы с данными. Работайте над большим количеством проектов и создавайте портфолио, чтобы продемонстрировать свои технические навыки и получить хорошую должность в известной компании.
Обзор ресурсов для изучения
Алгоритмы и структуры данных
На курсах будут подробно разобраны базовые алгоритмические методы и структуры данных, наиболее часто использующиеся на практике.
Python
С помощью этих двух курсов вы освоите основы Python: изучите синтаксис языка, получите базовые навыки структурного и процедурного программирования, познакомитесь со структурами данных языка.
Облачные технологии
Если вам нравится работать в спокойной обстановке и проводить чистку необработанных данных, карьера в области дата-инженерии – правильный выбор. Самое трудное – создать портфолио и накопить опыт для получения первой работы. Значительное увеличение объема облачных услуг стало одной из основных причин столь высокого спроса на инженеров по обработке данных.
Если вы только начинаете путь в профессии, обратите внимание на курс Data Engineering образовательной онлайн-платформы GeekBrains. Занятия под руководством опытных наставников и поддержка опытных HR помогут вам продвинуться по карьерной лестнице. Вы научитесь собирать и обрабатывать данные, проектировать хранилища и работать с инфраструктурой. Специализированный опыт для этого не потребуется: программа предполагает освоение профессиональных навыков с нуля.
12 онлайн-курсов по Data Engineering
По данным Statista, к 2025 году объём рынка big data вырастет до 175 зетабайт против 41 в 2019 (график). Чтобы получить работу в этой сфере, нужно понимать, как работать с большими данными, хранящимися в облаке. Cloud4Y подготовил список из 12 платных и бесплатных курсов по инжинирингу данных, которые расширят ваши знания в этой сфере и могут стать хорошей отправной точкой на пути к облачным сертификациям.
Предисловие
Что такое специалист по обработке данных (data engineer)? Это человек, который отвечает за создание и поддержку архитектуры данных в Data Science-проекте. В его обязанности может входить обеспечение бесперебойного потока данных между сервером и приложением, интеграция нового ПО для управления данными, совершенствование основополагающих процессов данных и создание конвейеров данных.
Есть огромное количество технологий и инструментов, которыми должен владеть data engineer, чтобы работать с облачными вычислениями, хранилищами данных, ETL (extraction, transformation, loading) и пр. Причём количество требуемых навыков всё время растёт, поэтому дата-инженеру необходимо регулярно пополнять свой багаж знаний. В нашем списке есть курсы для новичков и опытных специалистов. Выбирайте, что подходит именно вам.
1. Data Engineering Nanodegree Certification (Udacity)
Вы научитесь проектировать модели данных, создавать хранилища данных и озера данных, автоматизировать конвейеры данных и работать с массивами датасетов. В конце программы вы проверите свои новые навыки, завершив проект Capstone.
2. Become a Data Engineer Certification (Coursera)
Учат с азов. Вы можете поэтапно развиваться, используя лекции и практические проекты для работы над своими навыками. К концу обучения вы будете готовы работать с ML и большими данными. Рекомендуется знать Python хотя бы на минимальном уровне.
Продолжительность: 8 месяцев, 10 часов в неделю
Язык: английский
Цена😕
Уровень: начальный
3. Become a Data Engineer: Mastering the Concepts (LinkedIn Learning)
Вы разовьёте навыки проектирования данных и навыки DevOps, научитесь создавать приложения для Big Data, создавать конвейеры данных, обрабатывать приложения в реальном времени с использованием Hazelcast и базы данных Hadoop.
Продолжительность: зависит от вас
Язык: английский
Цена: первый месяц — бесплатно
Уровень: начальный
4. Data Engineering Courses (edX)
Здесь собрана серия программ, которые знакомят вас с data engineering и учат разработке аналитических решений. Курсы делятся на категории в зависимости от уровня сложности, так что вы можете выбрать один в соответствии с вашим уровнем опыта. В процессе обучения вы научитесь использовать Spark, Hadoop, Azure и управлять корпоративными данными.
Продолжительность: зависит от вас
Язык: английский
Цена: зависит от выбранного курса
Уровень: начальный, средний, продвинутый
Этот курс стоит выбрать, если у вас есть опыт работы с Python и вы хотите углубить свои знания и построить карьеру специалиста по обработке данных. Вы научитесь строить конвейеры данных, используя Python и pandas, загружать большие наборы данных в БД Postgres после очистки, преобразования и проверки.
Продолжительность: зависит от вас
Язык: английский
Цена: зависит от формы подписки
Уровень: начальный, средний
6. Data Engineering with Google Cloud (Coursera)
Этот курс поможет вам приобрести навыки, необходимые для построения карьеры в области работы с большими данными. Например, работа с BigQuery, Spark. Вы получите знания, которые пригодятся для подготовки к признанной в отрасли сертификации Google Cloud Professional Data Engineer.
Продолжительность: 4 месяца
Язык: английский
Цена: пока бесплатно
Уровень: начальный, средний
7. Data Engineering, Big Data on Google Cloud Platform (Coursera)
Интересный курс, дающий практические знания о системах обработки данных в GCP. Во время занятий вы узнаете, как спроектировать системы, прежде чем приступить к процессу разработки. Помимо этого, вы также будете анализировать как структурированные, так и неструктурированные данные, применять автоматическое масштабирование и применять методы ML для извлечения информации.
Продолжительность: 3 месяца
Язык: английский
Цена: пока бесплатно
Уровень: начальный, средний
8. UC San Diego: Big Data Specialization (Coursera)
Курс основан на использовании инфраструктуры Hadoop и Spark и применении этих методов обработки больших данных в процессе ML. Вы познакомитесь с основами использования Hadoop с MapReduce, Spark, Pig и Hive. Узнаете, как можно строить прогнозные модели и использовать аналитику графов для моделирования проблем. Отметим, что для этого курса не требуется опыт программирования.
Продолжительность: 8 месяцев по 10 часов в неделю
Язык: английский
Цена: пока бесплатно
Уровень: начальный
9. Taming Big Data With Apache Spark and Python (Udemy)
Вы узнаете, как использовать потоковую структуру и фреймы данных в Spark3, получите представление о том, как использовать сервис Elastic MapReduce от Amazon для работы с вашим кластером в Hadoop. Научитесь определять проблемы при анализе больших данных и поймёте, как библиотеки GraphX работают с сетевым анализом и как вы можете использовать MLlib.
10. PG Program in Big Data Engineering (upGrad)
Этот курс даст вам представление о том, как работает Aadhaar, как Facebook персонализирует ленту новостей и как вообще можно использовать Data Engineering. Ключевыми темами станут обработка данных (в том числе обработка в реальном времени), MapReduce, аналитика больших данных.
11. Профессия Data Scientist (Skillbox)
Вы научитесь программировать на Python, изучите фреймворки для обучения нейронных сетей Tensorflow и Keras. Освоите базы данных MongoDB, PostgreSQL, SQLite3, научитесь работать с библиотеками Pandas, NumPy и Matpotlib.
Продолжительность: 300 часов обучения
Язык: русский
Цена: первые полгода бесплатно, затем 3900 рублей в месяц
Уровень: начальный
Вас ожидает глубокое изучение Kafka, HDFS, ClickHouse, Spark, Airflow, lambda-архитектуры и kappa-архитектуры. Вы научитесь подключать инструменты друг к другу, формируя пайплайны, получая baseline-решение. Для учёбы требуется минимальное знание Python 3.
Продолжительность: 21 занятие, 7 недель
Язык: русский
Цена: 60 000 рублей
Уровень: средний
Если у вас есть желание добавить в список ещё один хороший курс, можете отписаться в комментариях или в ЛС. Мы дополним пост.
Что ещё полезного можно почитать в блоге Cloud4Y
Подписывайтесь на наш Telegram-канал, чтобы не пропустить очередную статью. Пишем не чаще двух раз в неделю и только по делу. Также напоминаем, что 21 мая в 15:00 (мск) мы проведём вебинар на тему «Информационная безопасность бизнеса при работе на удалёнке». Если вы хотите понимать, как защитить чувствительную и корпоративную информацию при работе сотрудников из дома — регистрируйтесь!
Курсы по Data Engineer
Здесь собрано 10 онлайн-курсов обучения Data Engineering. 1 раз в неделю мы обновляем информацию о всех курсах.
Старт: 04 ноября
Срок обучения: 18 месяцев
Старт: В любой момент
Срок обучения: 12 месяцев
Старт: 05 ноября
Срок обучения: 12 месяцев
Старт: 04 ноября
Срок обучения: 2.5 месяца
Старт: В любой момент
Срок обучения: 5 месяцев
Старт: В любой момент
Срок обучения: 8 месяцев
Старт: В любой момент
Срок обучения: 4 месяца
Старт: В любой момент
Срок обучения: 4 месяца
Длительность: 95 занятий
Длительность: 25 занятий
Профессия Data Engineer
Отзывы размещены на сайте нашего партнера trustland.ru
Формат: занятия в записи, преподаватели проверяют дз, есть чат студентов курса
Особенности: самая известная школа. Доступ к записям курсов сохраняют навсегда
Дата-инженер с нуля до middle
Отзывы размещены на сайте нашего партнера trustland.ru
Начало: в любой момент, длительность: 12 месяцев, 2-3 занятия в неделю
Формат: проводятся онлайн-вебинары, проверяют дз, есть чат студентов курса
Особенности: помогают в поиске работы, составлении резюме и прохождению собеседований
Факультет Data Engineering
Отзывы размещены на сайте нашего партнера trustland.ru
Начало: 05 ноября, длительность: 12 месяцев, 2-3 занятия в неделю
Формат: проводятся онлайн-вебинары, проверяют дз, есть чат студентов курса
Особенности: официальная школа холдинга VK (Mail.ru Group)
Курс по Data Engineering
Отзывы размещены на сайте нашего партнера trustland.ru
Формат: занятия в записи, проверяют дз, есть общий чат и по выходным проводят вебинары с ответами на вопросы
Особенности: имеют хорошую репутацию. Специализируются на аналитике и разработке. По промокоду TUTORTOP скидка 45% на курс
5+ лучших онлайн-курсов дата-инженеров: обучение платно и бесплатно 2020-2021. Рейтинг, сравнение, стоимость.
В этом обзоре разберём ТОП онлайн-курсов дата-инженеров. На курсах Data Engineering научат начинающих специалистов с нуля профессии «Data Engineer» – включая трудоустройство, обучат обработке данных и созданию базы данных, работать с Big Data, строить пайплайны, создавать архитектуру БД.
1 место. Курс «Дата-инженер с нуля до middle» — Нетология
Обучение на курсе поможет вам
Окажетесь одним из первых в профессии, пока все учатся на data scientists
Станете востребованным специалистом сразу после обучения и не растеряете накопленные знания и навыки
Получите знания в концентрированном формате и с обратной связью от экспертов
А ещё вы получите
Выполните 80 домашних работ с фидбеком эксперта, а также онлайн-лабораторные и тесты
Вас ждут полезные знакомства и обмен опытом с единомышленниками
Поможем составить резюме, подготовиться к собеседованию, проконсультируем по релокации
Главный навык инженеров данных – создавать условия для хранения и организации полезных данных.
Кому будет полезен этот курс
Сможете масштабировать инфраструктуру, выбирать из множества разных специфических инструментов, внедрять в продакшн решения коллег.
Сможете вырасти в деньгах и получить интересные задачи. Станете незаменимым сотрудником, погрузитесь в ключевой продукт и его метрики.
Сможете влиться в новую сферу и приобрести базу, с которой можно постоянно развиваться — в любых компаниях и продуктах.
Чему вы научитесь
Проектировать схемы хранилищ и выбирать DWH под задачу и бюджет бизнеса среди популярных решений: Snowflake, BigQuery, Azure SQL DW, Redshift
Настраивать и конфигурировать ETL / ELT-процессы в нескольких дата-инструментах
Lambda architecture, kappa architecture, а также hdfs, yarn, hive и другими обязательными частями инфраструктуры
Построите свой конвейер обработки даннных, сборщик событий, RTDM-систему с выводом в массовые enterprise BI-решения
Сможете понимать, пояснять и обогащать данные отчётов, дашбордов и других источников информации
И включать в него модели машинного обучения, нейронные сети, сервисы оркестрирования контейнеров и проверку версионности
Структура программы
Курс состоит из трёх больших модулей
Часть 1. Хороший аналитик
Программа построена от простого к сложному. В первом модуле вы научитесь пользоваться запросами SQL и работать с классическим хранилищем данных. Узнаете, как спроектировать аналитическую базу данных для ваших нужд, создадите свой первый OLAP-куб и научитесь выбирать и подключать Business Intelligence решения.
Работа студентки Анастасии Орел, ETL-пайплайн: посмотреть на GitHub.
Часть 2. Data Engineer
Получите базовые навыки по работе с Python. Установите и запустите свой первый hadoop. Создадите витрины данных. Освоите продвинутые методы работы с данными. Выполните обработку данных при помощи Spark. Построите конвейер обработки данных. Научитесь работать с базами данных для хранения и обработки потоковых данных. Создадите облачную базу данных и запустите Pipeline в облаке.
Работа студента Владимира Герингера после прохождения модуля по Python: посмотреть на GitHub.
Часть 3. ML-engineer
В этом модуле вы познакомитесь с моделями машинного обучения, построите свой первый классификатор и регрессию и обучите нейронную сеть. Узнаете, что такое CI/CD, запустите свой первый сервис в кластере и изучите подходы к масштабируемости ML-модели.
Программа курса
SQL и получение данных
Научим работать с классическим хранилищем данных.
Business Intelligence решения и многомерная модель данных
Познакомим с основным инструментом обработки больших данных.
Продвинутые методы работы с данными
Работа с потоковыми данными
Научим работать с потоковыми данными.
Работа с данными в облаке
Гарантия возврата денег
У вас есть три занятия, чтобы попробовать. Если передумаете учиться, скажите — и мы вернём вам всю сумму.
Ключевые навыки
Мы поможем с трудоустройством
Вас ждёт бесплатная программа трудоустройства Центра развития карьеры
2 место. Курс «Data Engineering» — SkillFactory
По итогам курса вы:
Научитесь строить пайплайны данных в реальном времени
В современных компаниях накапливается большой объем данных, из которых можно извлекать важную аналитику, строить гипотезы или модели прогнозирования. Data Engineer – это специалист, который собирает данные из разных источников, очищает их и передает в удобном виде аналитикам для принятия бизнес-решений.
Аналитикам данных нужно знать, как работает хранилище данных, в каком виде там хранятся данные, как они обрабатываются и как их можно получить для анализа.
Курс ориентирован на практику и основные инструменты, подходит для тех, кто имеет базовые знания языка Python. За два месяца вы освоите все важные этапы Data Engineering.
Курс из специализации Data Science
Программа курса
Введение, практический linux
Кто такой Data Engineer и зачем ему Linux?
Современные хранилища данных
Разнообразие баз данных и их особенности
Что такое Hadoop, что он умеет и как им пользоваться
Источники данных и работа с ними
Файлы как источники данных, JDBC – структурированные данные, SQL для выгрузки данных
Apache Spark и обработка данных
Зачем нужен Apache Spark и как с ним работать
Hadoop как хранилище данных
Особенности и нюансы hdfs
Apache Airflow для оркестрации конвейеров
Настройка data pipelines
Обзор облачных хранилищ
Особенности и нюансы работы с облачными хранилищами: Google, Amazon, Azure
Преимущества курса
В рамках курса вас ждет сквозной проект – реальная задача дата инженера, на каждом новом этапе вы будете решать часть большой задачи и в финале автоматизируете весь процесс.
Курс основан на практике. Мы рассматриваем инструмент или технологию и сразу на практике ее отрабатываем.
Программа построена по принципу от простого к сложному. Вы узнаете и освоите самое важное о Data Engineering, что нужно знать инженеру данных.
В процессе обучения вам будет помогать преподаватель и команда кураторов, которые помогут разобраться с предметом и решат все технические и организационные вопросы.
Персональный сертификат о прохождении курса. По запросу предоставляется на английском языке.
3 место. Курс «Факультет Data Engineering» — GeekBrains
Вы научитесь собирать и обрабатывать данные, проектировать хранилища и работать с инфраструктурой. Повысьте квалификацию и уровень дохода вместе с GeekBrains.
Дата-инженеры помогают аналитикам и дата саентистам своевременно получать качественные данные, на основании которых принимаются взвешенные бизнес-решения и создаются конкурентоспособные продукты с применением машинного обучения, аналитических систем, корпоративные хранилища.
После курса вы сможете работать по специальностям:
А также владеть DevOps компетенциями.
Кому подойдёт курс
Вы научитесь обрабатывать самые разные источники и форматы данных, освоите обработку больших массивов данных (BigData) на распределенных системах, максимизируйте пользу, извлекаемую из данных.
У вас будет всё для ускоренного карьерного роста: комплексные знания и опыт работы с продвинутыми инструментами, методологиями и стандартами. Прокачайте свои навыки для выхода на новый уровень.
Рассмотрим знакомые темы с новых углов, приумножим имеющиеся знания, подскажем, как перейти в востребованное направление и зарабатывать больше.
Программа обучения
Научитесь собирать и обрабатывать данные, проектировать хранилища и витрины, работать с инфраструктурой и с современными фреймворками обработки данных.
141 час обучающего контента
279 часов практики
2-3 вебинара в неделю
Подготовительный блок
Мы рекомендуем пройти подготовительные курсы, чтобы закрыть возможные пробелы в знаниях.
Курсы
Git. Базовый курс
13 видео-уроков
2 часа обучающего контента
I четверть
Сбор и хранение данных
Вы погрузитесь в профессию дата-инженера: познакомитесь с понятием базы данных, научитесь использовать SQL, создавать запросы, программировать на Python. Также познакомитесь с открытыми данными, RESTful и SOAP-сервисами, форматами XML и JSON.
Курсы
Основы реляционных баз данных. MySQL
1 месяц — 12 уроков
18 часов контента, 36 часов практики
Основы Python
1 месяц — 11 уроков
17 часов контента, 34 часа практики
Методы сбора и обработки данных из интернета
1 месяц — 8 уроков
12 часов контента, 24 часа практики
Проект
Разработка собственного парсера
II четверть
Построение хранилищ данных для систем аналитики
Познакомитесь с реляционными и нереляционными базами данных, узнаете, как строить хранилища данных и выбирать архитектуры под конкретную задачу.
Курсы
Построение хранилища данных и основы ETL-процессов
1 месяц — 8 уроков
12 часов контента, 24 часа практики
Технологии OLAP + BI
1 месяц — 4 урока
13 часов контента, 27 часов практики
Введение в NoSQL баз данных. Tarantool
1 месяц — 7 уроков
14 часов контента, 12 часов практики
Проект
Хранилище для BI-системы
III четверть
Распределенные базы данных
В данной четверти вы познакомитесь с инструментами обработки больших массивов данных, в первую очередь с инструментами экосистемы Hadoop: HDFS, Yarn, Hive, Hue, Flume, Cassandra и другими. Вы освоите возможности фреймворка Apache Spark для распределённой обработки неструктурированных и слабоструктурированных данных. В конце четверти познакомитесь с популярным инструментом Apache Airflow для планирования и мониторинга пакетных процессов работы с большими данными.
Курсы
Big Data. Экосистема Hadoop
1 месяц — 8 уроков
12 часов контента, 24 часа практики
Big Data. Фреймворк Apache Spark
1 месяц — 4 урока
6 часов контента, 12 часов практики
Настройка потоков данных. Apache Airflow
1 месяц — 4 урока
8 часов контента, 18 часов практики
Проект
Полноценный ETL-пайплайн с использованием инструментов работы с большими данными
IV четверть
Real-time обработка данных и инфраструктура
В последней четверти вы освоите потоковую обработку данных с использованием инструментов Kafka и Spark Streaming. Также освоите практики DevOps, необходимые для работы дата-инженером.
Курсы
Потоковая обработка данных
1 месяц — 8 уроков
9 часов контента, 18 часов практики
Микросервисная архитектура и контейнеризация
1 месяц — 8 уроков
12 часов контента, 24 часов практики
Проект
Потоковый сервис для оценки кредитоспособности клиентов банка с использованием машинного обучения
Курсы вне четверти
Предметы с индивидуальным выбором даты старта
Курсы вне четверти являются частью основной программы обучения и обязательны к прохождению. Вы можете формировать часть расписания самостоятельно и регулировать интенсивность обучения. На прохождение этих предметов у вас есть 2.5 года с момента покупки обучения в GeekUniversity. Проходите параллельно с четвертями или после года обучения.
Курсы
Подготовка данных для ML Applications
1 месяц – 4 урока
6 часов контента, 12 часов практики
Linux. Рабочая станция
1 месяц — 8 уроков
12 часов контента, 24 часа практики
Освойте современные технологии и компетенции
Вы получите диплом о профессиональной переподготовке
Вы получаете электронный сертификат и диплом о профессиональной переподготовке, их можно приложить к портфолио и показать работодателю. Обучение проводим на основании гослицензии № 040485.
Курс «Data Engineer» — Otus
Освойте лучшие практики работы с большими данными: Architecture, Data Lake, DWH, MLOps!
Что даст вам этот курс
Курс адресован разработчикам, администраторам СУБД и всем, кто стремится повысить профессиональный уровень, освоить новые инструменты и заниматься интересными задачами в сфере работы с данными.
После обучения Data Engineering вы станете востребованным специалистом, который:
Real Case Studies: примеры внедрений, использования инструментов, оптимизации производительности, проблемы, ошибки и прикладные результаты
Высокая практическая направленность:
В течение курса будем инкрементально создавать работающий продукт, решая прикладные задачи
Целостная картина вызовов и задач современного бизнеса, и роли Инженера Данных в их решении
Востребованность у работодателей
39 работодателей уже готовы позвать на собеседование выпускников курса
Инженер данных – почему это актуально и интересно:
Необходимые знания
Курс рассчитан для программистов и администраторов, которые хотят освоить ОС Linux с нуля.
Программа обучения
В процессе обучения вы получите комплексные знания и навыки.
Модуль 1. Data Architecture
Тема 1. Инженер Данных. Задачи, навыки, инструменты, потребность на рынке
Тема 2. Архитектура аналитических приложений: базовые компоненты и принципы
Тема 3. On premises / Cloud solutions
Тема 4. Автоматизация пайплайнов и оркестрация – 1
Тема 5. Автоматизация пайплайнов и оркестрация – 2
Модуль 2. Data Lake
Тема 6. Распределенные файловые системы. HDFS / S3
Тема 7. SQL-доступ к Hadoop. Apache Hive / Presto
Тема 8. Форматы хранения данных и их особенности
Тема 9. Разбор ДЗ по 1 кейсу
Тема 10. Очереди сообщений. Обзор Kafka.
Тема 11. Выгрузка данных из внешних систем
Тема 12. Apache Spark – 1
Тема 13. Apache Spark – 2
Модуль 3. DWH
Тема 14. Аналитические СУБД. MPP-базы данных
Тема 15. Моделирование DWH – 1. Основы работы с dbt
Тема 16. Моделирование DWH – 2. Data Vault 2.0
Тема 17. DevOps практики в Аналитических приложениях. CI + CD
Тема 18. Разбор ДЗ по 2 кейсу
Тема 19. Data Quality. Управление качеством данных
Тема 20. Развертывание BI-решения
Тема 21. Мониторинг / Метаданные
Модуль 4. NoSQL/NewSQL
Тема 22. NoSQL Хранилища. Key-value
Тема 23. NoSQL Хранилища. Document-oriented
Тема 24. ELK
Тема 25. ClickHouse
Тема 26. Разбор ДЗ по 3 кейсу
Модуль 5. MLOps
Тема 27. Организация и Packaging кода
Тема 28. Docker и REST-архитектура
Тема 29. MLFlow + DVC
Тема 30. Деплоймент моделей
Тема 31. Разбор ДЗ по 4 кейсу
Тема 32. Разбор ДЗ по 5 кейсу
Модуль 6. Выпускной проект
Тема 33. Выбор темы и организация проектной работы
Тема 34. Консультация
Тема 35. Защита
После обучения вы
В результате обучения вы:
Курс «Data Engineering» — robot_dreams
Вы детально изучите все этапы обработки данных и разберете необходимые инструменты для работы с ними, научитесь строить ETL-системы и проектировать хранилища данных.
Пройдите курс DE, и вы сможете:
Кому будет полезен курс
Вы углубите знания в работе с данными, научитесь строить пайплайны, хранилища, обрабатывать и эффективнее анализировать данные.
Вы усилите свои компетенции по работе с данными, научитесь самостоятельно строить системы хранения и обработки данных.
Вы углубите знания в работе с данными, научитесь строить пайплайны, хранилища, обрабатывать и эффективнее анализировать данные.
Программа курса (занятий)
Введение в Data Engineering
Узнайте всё, что вы хотели о профессии Data Engineer: цели, направления, задачи, обязанности и функция в команде. Сравните Data Engineer vs Big Data Engineer. Ознакомьтесь с технологиями, с которыми вы будете работать во время курса. Поймите, какие задачи решает конкретная Big Data технология.
Python для Data Engineering
Научитесь работать с разными структурами данных: string, list, tuple, set, dictionary. Начните загружать данные из внешних источников с помощью Python. Узнайте специфику работы с модулями Python: import и relative import модулей.
SQL для Data Engineering
Узнайте, для чего используется SQL в Big Data. Научитесь объединять наборы данных при помощи SQL: JOIN, UNION, EXCEPT. Начните использовать SQL для аналитических запросов: аналитические функции, группирование данных, оконные функции. Поймите, как писать быстро-выполняющийся SQL.
Аналитические базы данных
Выявите различия между OLTP и OLAP системами. Поймите техническую реализацию системы управления баз данных, предназначенных для аналитики. Научитесь описывать структуру базы данных при помощи ER-модели для ее будущего конструирования (Crow’s foot notation).
Проектирование хранилищ данных
Узнайте, какое назначение хранилищ данных и какие существуют подходы к их проектированию. Научитесь проектировать (строить) хранилища данных. Освойте навык “представление данных в виде витрин”. Разберите примеры существующих хранилищ данных.
Передача данных между системами. Часть 1
Спроектируйте ETL решение. Поймите, как передавать данные между системами. Научитесь извлекать данные из внешних источников, трансформировать и очищать.
Передача данных между системами. Часть 2
Научитесь создавать, запускать и мониторить ETL при помощи Apache Airflow. Начните описывать ETL процессы, используя Directed Acyclic Graph. Напишите свой оператор Airflow для доступа к API. Подключитесь к внешним источникам данных с помощью Apache Airflow.
Распределенные вычисления. Лекция
Разберитесь с понятием распределенных систем и вычислений. Узнайте, какие задачи они решают и какие готовые решения уже существуют. Выявите отличия распределенных систем от обычных, разберите их преимущества и недостатки. Поймите, что означают свойства распределенных систем и ограничения распределенных систем в САР-теореме для вашей работы. Узнайте, на что стоит обратить внимание при построении распределенных систем и чем можно пожертвовать при решении конкретной задачи.
Экосистема Hadoop для распределенной работы с файлами
Научитесь пользоваться экосистемой Hadoop. Узнайте, в чем предназначение каждой технологии в рамках экосистемы Hadoop. Изучите альтернативы Hadoop. Начните использовать Hadoop Distributed File System.
Распределенная файловая система (HDFS)
Научитесь работать с распределенной файловой системой Hadoop. Ознакомьтесь со спектром решаемых задач. Изучите внутреннюю архитектуру HDFS и особенности её реализации. Научитесь управлять файлами, загружать, выгружать данные, администрировать кластера при помощи HDFS.
Распределенные вычисления (MapReduce)
Освойте технологию MapReduce для параллельных вычислений над большими наборами данных в компьютерных кластерах. Изучите задачи, которые решаются с помощью MapReduce. Научитесь анализировать большие объемы данных с использованием MapReduce
Распределенные вычисления в оперативной памяти (Apache Spark)
Начните обзор технологии Apache Spark, выявите её отличие от MapReduce. Поймите, почему Apache Spark флагманская технология в мире BigData. Узнайте, какие задачи решает Apache Spark. Используйте технологию Apache Spark для организации больших данных.
Работа со структурированными данными при помощи SparkSQL. Часть 1
Начните знакомство со SparkSQL — одним из синтаксисов Apache Spark. Научитесь загружать данные в Spark. Изучите работу Spark со внешними источниками данных. Совершите трансформации над структурированными данными при помощи SparkSQL.
Работа со структурированными данными при помощи SparkSQL. Часть 2
Начните выгрузку данных из Spark. Научитесь проводить аналитику на структурированных данных в Spark.
Оптимизация выполнения задач в Apache Spark
Поймите, как написать эффективный код и ускорить обработку больших данных в Apache Spark. Научитесь выявлять основные проблемы производительности Spark, устраните их. Организуйте данные в кластере Apache Spark.
Потоки данных в Apache Spark
Поймите, чем отличается обработка потоковых данных от статичных. Научитесь обрабатывать потоки данных с помощью Spark Streaming. Разберите пример программы по анализу потоковых данных.
Подведение итогов
Объедините все полученные знания. Создайте data platform. Сделайте обзор полного цикла подготовки и реализации проекта. Начните подготовку к курсовому проекту.
Защита курсового проекта
Получите тему курсового проекта. Ознакомьтесь с форматом работы. Выполните ряд обязательных требований для реализации проекта. Успешно защитите его.