data science обучение заочно
Науки о данных (Data Science)
Стремительное развитие общества связано с двумя ключевыми направлениями науки и технологий: методами работы с большими данными (Big Data) и искусственным интеллектом (Artificial Intelligence). На стыке указанных дисциплин и существует магистерская программа «Науки о данных (Data Science)»
Выпускники программы смогут овладеть спектром новейших эффективных математических технологий, не включенных в классические математические учебники, которые будут существенно способствовать повышению их конкурентоспособности и востребованности.
Контакты
Плужникова Ирина Геннадьевна,
начальник отдела, менеджер
Телефон: +7(495)772-95-90 доб. 27330
E-mail: ipluzhnikova@hse.ru
Петрова Анастасия Алексеевна, методист
Телефон: +7(495)772-95-90 доб. 27329
E-mail: aa.petrova@hse.ru
Преимущества программы
В силу мультидисциплинарности наук о данных, призванных предоставлять средства анализа информационных, социальных, правовых, психологических, экономических, языковых и других явлений, программа будет интересной выпускникам бакалавриатов и специалитетов различных образовательных направлений. Среди преподавателей программы – сотрудники всех департаментов факультета компьютерных наук НИУ ВШЭ, высокотехнологичных IT-компаний (Яндекс и др.) и научно-исследовательских институтов РАН.
Обучение на программе проходит в новом корпусе НИУ ВШЭ: Покровский бульвар, 11, г. Москва.
Что я буду изучать
Оригинальный образовательный стандарт данной магистерской программы обеспечивает возможность выбора специализации. Распределение студентов по специализациям происходит уже после зачисления на программу по итогам собеседований и тестирований с учетом пожеланий студентов.
В рамках программы доступны 4 специализации: «Интеллектуальные системы и структурный анализ», «Анализ Интернет-данных», «Теоретическая информатика», «Технологии моделирования сложных систем».
Специализация «Интеллектуальные системы и структурный анализ» посвящена изучению основ интеллектуального анализа данных (методов кластеризации, классификации, прогнозирования и др.), классического искусственного интеллекта (различные подходы, связанные с интерпретируемыми и сертифицируемыми системами искусственного интеллекта, построением баз знаний, моделированием приближенных рассуждений, анализом формальных понятий), машинному (в том числе глубокому) обучению, нейросетевым решениям и технологиям, обработке естественных языков (чат-боты, машинный перевод), функциональным аспектам составляющих и компонент реальных систем искусственного интеллекта, их построению и реализации, разработке графического интерфейса, а также многому другому.
Среди основных дисциплин специализации:
Специализация «Анализ Интернет-данных» реализуется совместно с компанией Яндекс. На ней действуют два трека: базовый и продвинутый.
Продвинутый трек создан для тех, кто уже закончил Школу анализа данных Яндекса или бакалавриат в области Data Science. Такие студенты сразу начинают погружаться в приложения и фундаментальные дисциплины, такие как байесовские и нейробайесовские методы, теория глубинного обучения и другие.
Среди преподавателей специализации есть как ученые, так и разработчики из Яндекса и других компаний. Продуманное сочетание теории и практики позволяет выпускникам специализации работать как исследователями в ведущих научных лабораториях, так и аналитиками или разработчиками машинного обучения в лучших IT-компаниях.
Некоторые из дисциплин специализации:
Специализация «Теоретическая информатика» предназначена для студентов, заинтересованных в изучении теоретических аспектов компьютерных наук. Обязательные курсы специализации покрывают базовые разделы теоретической информатики, такие как теория вычислений, теория алгоритмов и теория обучения. Предполагается, что после этой специализации выпускник сможет вести научную деятельность в области компьютерных наук и смежных областях, а также сможет работать в индустрии на позиции высококвалифицированного специалиста.
Студенты специализации будут изучать такие дисциплины, как:
Специализация «Технологии моделирования сложных систем» создана на базе Института проблем передачи информации РАН – одного из самых передовых институтов в области как прикладной науки так и фундаментальной. На факультете компьютерных наук ИППИ представлен двумя направлениями «Распознающие системы» и «Телекоммуникационные системы».
В зависимости от выбранного трека студенты получат необходимый набор знаний для развития в соответствующей научной и/или индустриальной области. Оба направления содержат, как базовые дисциплины, необходимые для освоения основ, так и специальные дисциплины, предполагающие глубокое погружение в предметную область. Важной особенностью специализации является то, что преподавателями на ней являются передовыми учеными и специалистами в своих областях, что дает возможность для студентов не только обзавестись знаниями, но и умениями, что в дальнейшем будет являться конкурентным преимуществом на рынке труда. Для усердных студентов, увлеченных наукой, специализация даёт возможность не только освоить знания, но и создать новые, описав их в научной статье (за 2020 год 2 студента специализации стали соавторами статей, принятых в международные журналы с самым высоким рейтингом).
Среди дисциплин специализации доступны следующие курсы:
Подробное описание всех дисциплин программы доступно в разделе аннотаций.
Во время обучения
На различных этапах учебного процесса, в рамках проектной работы и практик студенты проходят стажировку в ведущих IT-компаниях, научно-исследовательских институтах РАН, международных и научно-учебных лабораториях ФКН.
Помимо изучения основных дисциплин, у студентов есть возможность включать в курсы, преподаваемые в Школе анализа данных Яндекс, Сколтехе, МГУ и проч. Также обучение на магистерской программе предусматривает возможность получения второго диплома за рубежом.
Значимой частью учебного процесса всех специализаций являются научно-исследовательские семинары. Программа семинара включает четыре основных вида деятельности, ориентированных на то, чтобы научить студента умению получить результаты, представить их, понять и изложить чужие результаты, а также умению принять участие в научной дискуссии. Это:
На семинарах затрагиваются такие области научной деятельности, как искусственный интеллект (Artificial Intelligent), разработка интеллектуальных систем (Intelligent Systems Development), Прикладная теория графов (Applied Graph Theory), анализ сетей (Network Analysis), Мультимодальная кластеризация (Multi-Modal Clustering), рекомендательные системы (Recommender Systems) и многое другое.
Во время обучения студентов ждут проекты – отдельный вид самостоятельной деятельности. Проектная работа направлена на приобретение опыта самоорганизации в группах, получение и развитие навыков графического представления результатов, приближенных решений задач. Реализация проектов не привязана к модульной системе.
Перспективы после обучения
Студенты получают диплом магистра по направлению подготовки 01.04.02 «Прикладная математика и информатика» и овладевают такими навыками, как обработка больших объемов данных и построение поисковых систем.
Выпускники программы работают в ведущих российских и зарубежных организациях:
Что нужно знать для поступления
В 2021 году на данную специальность открыто 65 бюджетных мест, 15 платных для граждан РФ и 20 платных для иностранцев. После окончания обучения вы получаете диплом магистра по направлению 01.04.02 «Прикладная математика и информатика».
Вступительными испытаниями выступают высшая математика и английский язык. Программа вступительных испытаний и демоверсия опубликованы на сайте приемной комиссии.
Граждане РФ могут поступить по результатам вступительных экзаменов или Олимпиады для студентов и выпускников вузов. Могут устанавливаться льготы для участников других Олимпиад, к примеру, Я – профессионал.
Поступление на общих основаниях регламентируется Правилами приема.
Поступающие в НИУ ВШЭ (г. Москва) имеют право принимать участие в конкурсе на две образовательные программы магистратуры одновременно, и на места по договорам об оказании платных образовательных услуг.
Прием документов производится в июне-июле 2021 года. Зачисление в августе 2021 года. Распределение по специализациям – на организационных собраниях в конце августа-начале сентября. На специализацию АИД производится отбор.
Для иностранных граждан организован отдельный конкурс (портфолио + собеседование) как на бюджетные, так и на платные места. Подача документов заканчивается 15 августа 2021 года.
Подробнее о поступлении читайте на странице Траектория поступления.
Самообучение в Data science, с нуля до Senior за два года
Хочу поделиться методами освоения Data science с нуля человеком из другой ИТ специальности. Цель: дать понять, подходит ли Вам эта специальность в принципе, и рассказать про эффективные подходы к самообучению, которые мне помогли (отдельно планирую потом детальные статьи по отдельным темам).
Отличные материалы уже существуют по большинству конкретных тем, я сам по ним учился.
Думаю, многим будут полезны «мета» материалы о том, как выбирать курсы и статьи, по которым учиться. Например, я пересмотрел десятки статей и книг, пробовал много разных он-лайн курсов, но полезной оказалась лишь малая часть всего доступного. Надеюсь, что смогу серьезно сэкономить вам время и помочь достигнуть большего, показав более эффективный путь самообучения.
И важно сказать сразу: я верю, что любой человек с аналитическими способностями и структурным мышлением может стать специалистом по машинному обучению/data science. Еще 4 года назад я сомневался, потеряв веру в свои математические способности из-за преподавателей университета. Теперь верю: основы машинного обучения и минимально необходимую математику сможет выучить любой сильно замотивированный человек.
Когда я понял, что скоро мне стукнет 30 лет, решил уйти в другую сферу и переехать из РФ. В своей сфере (1С) я был карьерно успешен, но стало ясно, что дальнейший рост очень затруднителен и требует выполнять работу, которая мне неинтересна и почти противна.
Через полгода перебора вариантов решил, что Data science мне интереснее всего.
Ещё через год имел достаточную квалификацию и прошёл собеседование на работу в Чехии (оговорка: у меня еще до этого было неплохое знание английского).
Ещё через год стал Senior Data scientist в Vodafone (мой LinkedIn).
Мне помогло то, что до этого я сформировал привычки к самообразованию, а экономность не позволила мне пойти по самому простому пути: найти онлайн курс с именитыми преподами, заплатить им много денег и довериться, что они всему научат лучше всего. В итоге я перебирал много бесплатно доступных книг и курсов (книги часто были найдены на b-ok.org). Из всех курсов и книг отбирал самые лучшие, забрасывая то, что казалось слишком теоретизированными или плохо структурированным.
На основе этих десятков книг и курсов я и сформировал то мнение, которым хочу поделить. Вероятно, существует еще более эффективный и быстрый способ научится этому всему. То, как учился я, было всего-лишь быстрее большинства платных программ, которые я видел, и заодно бесплатным (на многие лучшие англоязычные курсы всегда можно записаться бесплатно; покупал я только книги русских авторов и пару книг, которые иначе не смог найти).
Сначала надо понять, что такое Data science/машинное обучение и подойдет ли оно вам
Потому что если это просто модное слово и вы хотите получать много денег или работать в Гугл, то легче заработать на позиции маркетолога или веб-аналитика, и это тоже достаточно аналитичная работа.
Если вы человек творческий, возможно, разработка интерфейсов (фронтенд, мобильные приложения) вам подойдёт больше.
Если вы от природы аналитик и любите разбираться в данных, но программирование вас не заинтересует, а на изучение всей математики вам не хватает времени, стоит выбрать тот же самый учебный путь! Просто сделать акцент на мнее математических задачах, и не лезть в программироване сложных систем. Аналитики, знающие основы data science, тоже нужны в компаниях.
Важно, чтобы работа зажигала. Без искреннего интереса «грызть» Data science будет тяжело, потому что надо разобраться в куче нюансов, особенно если у вас нет за плечами хороших знаний в статистике, линейной алгебре и мат.анализе.
Как понять, будет ли вам интересно заниматься именно data science?
Мне кажется, что идеально эту роль выполняет книга Datasmart (выше писал сайт, на котором я нашёл её бесплатно). На русский она тоже переведена: «Много цифр. Анализ больших данных при помощи Excel, Джон Форман». Хотя, если вы хотите работать в data science, знание английского необходимо (технический английский выучить намного легче разговорного, и это будет очень полезно для любой работы в ИТ).
Эта книга показывет многие из технических методов Data science на уровне интуиции и даёт сразу достаточно детальное представление о решаемых задачах и где в бизнесе можно применить данные модели.
Если эта книга не вызовет интерес разобраться во всех указанных алгоритмах детальнее, вероятно, работа в data science не для вас.
Если книга интересн вызовет, но вам также хочется больше программировать, скорее всего, вам интересно будет стать machine learning engineer. Разница между data scientist и machine learning engineer в том, что первый должен общаться с людьми и понимать, какую задачу имеет смысл решать, а второй должен уметь состыковать программы с «искусственным интеллектом» с другими ИТ системами, мобильными телефонами или требованиями обрабатывать огромные объемы данных.
Что учить
Если вы решили, что готовы «грызть гранит науки», то в образовании специалиста data science есть два кита:
Непосредственные методы Data science, которые стоят на трёх математических черепахах: теории вероятностей и статистике, линейной алгебре и основах мат.анализа (только основах, там требуется минимум сверх школьного курса «алегбра и начало анализа»). Кстати, вся эта математика далеко не так сложна. Проблема в том, что её плохо и неинтересно объясняют во многих вузах. Позже поделюсь советами, как её можно легче освоить.
Программирование на Python (+SQL и подобные), которое позволит применить все изученные методы с помощью логичных и простых в своей сути библиотек готовых функций.
Даже примерный учебный план для изучения методов Data science требует отдельного поста. Ниже напишу чуть подробнее про Python и SQL
Английский необходим!
Принципы эффективного обучения
Программирование: что и как учить?
Что такое SQL и зачем его учить?
SQL является стандартом для получения данных в нужном виде из разных баз данных. Это тоже своеобразный язык программирования, который дополнительно к своему основному языку используют многие программисты. Большинство самых разных баз данных использует один и тот же язык с относительно небольшими вариациями.
Как учить SQL:
Наберите в Гугле «sql tutorial» и начните учиться по первой же ссылке. Если она вдруг окажется платной, выберете другую. По SQL полно качественных бесплатных курсов.
На русском языке тоже полно курсов. Выбирайте бесплатные.
На изучение достаточно всего лишь от 10 часов (общее понимание), до 20 часов (уверенное владение большей частью всего необходимого).
Почему именно Python?
У всех других языков программирования какие-либо специализированные библиотеки для машинного обучения есть только в зачаточном состоянии.
Как учить Python
Прочитать основы и пройти все упражнения с этого сайта можно за 5-40 часов, в зависимости от вашего предыдущего опыта.
После этого варианты (все эти книги есть и на русском):
Learning Python, by Mark Lutz (5 издание). Существует и на русском.
Есть много книг, которые сразу обучают использованию языка в практических задачах, но не дают полного представления о детальных возможностях языка.
Эта книга, наоборот, разбирает Python досконально. Поэтому по началу её чтение будет идти медленнее, чем аналоги. Но зато, прочтя её, вы будете способны разобраться во всём.
Я прочёл её почти целиком в поездах в метро за месяц. А потом сразу был готов писать целые программы, потому что самые основы были заложены в pythontutor.ru, а эта книга детально разжевывает всё.
В качестве практики берите, что угодно, когда дочитаете эту книгу до 32 главы, и решайте реальные примеры (кстати, главы 21-31 не надо стараться с первого раза запоминать детально. Просто пробежите глазами, чтобы вы понимали что вообще Python умеет).
Не надо эту книгу (и никакую другую) стараться вызубрить и запомнить все детали сразу. Просто позже держите её под рукой и обращайтесь к ней при необходимости.
Прочитав эту книгу, и придя на первую работу с кучей опытных коллег, я обнаружил, что некоторые вещи знаю лучше них.
Python Crash Course, by Eric Matthes
Automate the Boring Stuff with Python
Книга хороша примерами того, что можно делать с помощью Python. Рекомендую просмотреть их все, т.к. они уже похожи на реальные задачи, с которыми приходится сталкиваться на практике, в том числе специалисту по анализу данных.
Какие трудозатраты?
Путь с нуля до уровня владения Python, на котором я что-то уже мог, занял порядка 100ч. Через 200ч я уже чувствовал себя уверенно и мог работать над проектом вместе с коллегами.
Следующие статьи по данной теме
Для желающих могу выступить в роли ментора
Data Science: лучшие учебные курсы и программы сертификации
Можно получить два-три десятка Data Science-сертификатов, но по-настоящему стоящих программ сертификации из сферы науки о данных, по моему мнению, не так уж и много. Я хочу рассказать о нескольких таких программах, поддерживаемых авторитетными организациями. Эти программы я оцениваю по разным признакам. В частности — по объёму рассматриваемых в их рамках тем, по их «весу» в глазах потенциального работодателя, по репутации организации, реализующей программу. В последние несколько лет я являюсь и специалистом по анализу данных, и дата-сайентистом. Всё это время у меня формировалось понимание того, что сильнее всего влияет на успех человека в сфере Data Science (DS).
Здесь я рассмотрю ведущие программы Data Science-сертификации, входящие в список, собранный ресурсом Indeed. Из этого списка я выбрал четыре, которые кажутся мне наиболее достойными. Им и посвящён этот материал.
Google Certified Professional Data Engineer
Возможно, эта программа сертификации, которую я рассматриваю первой, кого-то удивит, так как она относится к сфере, отличной от Data Science. Но, несмотря на это, я уверен в том, что навыки и обязанности дата-инженера похожи на те, что характерны для дата-сайентистов. Ещё я думаю, что прохождение подобной сертификации может стать конкурентным преимуществом на рынке труда, так как дата-сайентист, получивший подобный сертификат, сможет эффективно работать не только в сфере науки о данных, но и в сфере инжиниринга данных.
Вот некоторые темы, знание которых проверяется на экзамене:
Общие сведения об экзамене:
Google Data Machine Learning Engineer
Это — ещё одна программа сертификации, которую тоже нельзя назвать программой, нацеленной исключительно на Data Science. Она, скорее, направлена на достаточно узкую тему, находящуюся в пределах науки о данных. Речь идёт о машинном обучении. Многие дата-сайентисты могут настолько привыкнуть к работе в Jupyter Notebook (ведь именно этому учат на большинстве DS-курсов), что необходимость вывода моделей в продакшн, необходимость их развёртывания на веб-сайте или в мобильной среде может вызвать у них серьёзные сложности. Поэтому тем, кто работает в сфере Data Science, весьма полезно будет ознакомиться и с вопросами практического применения моделей, что расширит их кругозор и сделает их работу эффективнее.
Вот темы, которые поднимаются на экзамене:
Общие сведения об экзамене:
IBM Data Science Professional Certificate
Это — уже не просто программа сертификации. Тут речь идёт о наборе учебных курсов, на которых можно изучить то, что проверяется во время прохождения испытаний. Эта программа сертификации, в отличие от предыдущих, ориентирована исключительно на саму науку о данных. А это, безусловно, именно та тема, которая нам особенно интересна. Ещё одной ценной особенностью этой программы является тот факт, что она подготовлена IBM, а пройти её можно на платформе Coursera. Обе эти компании известны и имеют хорошую репутацию.
Вот — 10 курсов, которые входят в состав учебной программы:
Общие сведения о программе учебных курсов:
Microsoft Certified Azure Data Scientist Associate
Как видите, в этом обзоре представлены программы сертификации от ведущих игроков IT-рынка. В их число входит и Microsoft. Если поучиться, поработать, пройти тестирование в любой из подобных компаний — это может пойти на пользу карьере дата-сайентиста. Представленная здесь программа напоминает смесь тех программ, о которых мы говорили выше. Это, с одной стороны, сертификация, но с другой — перед сертификацией тут же можно и подучиться, либо самостоятельно и бесплатно, либо — с инструктором и за деньги.
Вот темы, которые поднимаются на экзамене:
Итоги
В итоге скажу, что если вы сможете пройти все вышеописанные программы сертификации — полагаю, что вы будете более чем готовы к работе дата-сайентиста. Эти сертификации направлены на проверку знаний по популярным платформам и инструментам, а также — на проверку навыков, связанных с практическим использованием моделей. В частности, речь идёт о работе с бизнес-задачами, об анализе данных, о моделировании, о создании и развёртывании моделей. Конечно, если вы попробуете найти работу в компании, проводящей сертификацию, наличие сертификата повысит ваши шансы на успех. Подбирая себе программу сертификации учитывайте то, что те, о которых шла тут речь, я, руководствуясь собственным видением ситуации, выбрал из списка программ с ресурса Indeed. Есть ещё множество подобных программ. Вам, вполне возможно, подойдёт что-то совсем другое.
Как вы посоветовали бы учиться и сертифицироваться тому, кто хочет работать в сфере Data Science?
Магистр по наукам о данных
Первая в России англоязычная магистерская программа, реализуемая полностью онлайн на образовательной платформе Coursera.
Цель программы — подготовить специалистов по современному анализу данных (data scientist), разработчиков машинного обучения (machine learning engineer) и будущих исследователей в области data science. Программа сочетает теорию с интенсивной практикой: отработка всех полученных навыков происходит на реальных проектах и задачах из индустрии.
Контакты
Москва,
Покровский бульвар, 11, корпус T, каб. T921
Телефон:
+7 (495) 772-95-90 *27356 Email: mds@hse.ru
Программа реализуется полностью в онлайн-формате
О чём эта программа?
Машинное обучение и анализ данных — крайне востребованное направление на сегодня. И в компаниях, и в науке появляется всё больше данных, и их можно использовать для извлечения экономической выгоды, получения новых знаний и результатов. Для этого нужны специалисты по работе с данными и построению сложных моделей на их основе.
Программа “Master of data science” рассчитана на подготовку специалистов по трём направлениям:
Программа создана для тех, кто хочет разобраться в data science, получить практический опыт решения большого количества реальных задач и заинтересован в начале карьеры в этом направлении.
Преимущества нашей магистратуры
Требования к поступающим
Для поступления в магистратуру необходимо иметь диплом бакалавра или специалиста по любому направлению.
В программе предусмотрено полноценное изучение математики для анализа данных, программирования и алгоритмов, поэтому даже студенты с непрофильным бакалаврским образованием смогут выровнять свой уровень и полноценно изучить все дальнейшие курсы.
Для поступления необходимо обладать знаниями по базовым разделам математики и на достаточном уровне владеть математической культурой. Зачисление на программу будет осуществлено по итогам вступительного онлайн-экзамена по математике с прокторингом.
Во время обучения
В рамках программы студенты могут выбрать один из трёх треков — два карьерно-ориентированных, цель которых подготовить студентов к трудоустройству на конкретные позиции, и один исследовательский:
С первого семестра студенты изучают программирование (Python, SQL), алгоритмы и структуры данных, математику для анализа данных. Завершается изучение курсов блока математики и программирования проектом по сбору и обработке больших массивов данных.
В середине второго семестра обучения студенты определяются с треком и далее изучают курсы в соответствии с выбранным направлением.
Помимо стандартных курсов, сочетающих теорию и практические задания, в программе предусмотрены еще два крупных проектных курса: по машинному обучению и финальный проект (выпускная квалификационная работа, которая может быть посвящена проектной или исследовательской задаче).
Для успешного освоения программы студентам необходимо набрать 120 кредитов.
Всё обучение на магистерской программе будет проходить полностью онлайн. Контроль за самостоятельностью выполнения заданий будет осуществляться стандартными для онлайн-программ средствами: еженедельное общение в формате форумов и вебинаров, проведение ключевых контрольных мероприятий с прокторингом, проведение защиты проектов и дипломной работы посредством видеоконференций.
После магистратуры
Выпускники программы могут начать карьеру по направлению анализа данных и машинного обучения, претендовать на позиции Junior Data Scientist или Junior Machine Learning Engineer. Также выпускники смогут начать академическую карьеру и заняться исследованиями в области data science в аспирантуре.
Стоимость обучения
Стоимость за весь период обучения в 2021-м году: 1 350 000 рублей.
Плата за обучение вносится частями (по семестрам).
На программе предусмотрены скидки в размере 20% и 50%. Условия предоставления доступны на сайте.
Вебинары
C записями прошедших мероприятий (дней открытых дверей, индустриальных вебинаров) можно ознакомиться по ссылке