дата сайнс обучение с нуля

7 бесплатных курсов по Data Science для начинающих

Большие данные перестали быть просто модным словом и теперь применяются в сферах от IT до ритейла. Самое время начать разбираться в моделях анализа данных, погрузиться в массивы информации и получить опыт в интересном направлении — Data Scientist. Держите курсы, в которых изучите теорию и наберетесь практики. Профи не станете, но первый шаг сделаете.

дата сайнс обучение с нуля

1. A crash course in Data Scienc​e

Курс хочет быстро научить разбираться в работе с большими данными. Здесь не будет кучи технических терминов — всё сосредоточено на понимании общих принципов больших данных: основные термины, роль больших данных в бизнесе, основные инструменты, используемые для работы с большими объемами информации. В общем, хороший курс для знакомства с темой.

2. Building a Data Scien​ce Team

На этом курсе речь пойдет о команде аналитики больших данных. Узнаете какие роли должны быть в команде, как управлять такими командами, как подобрать подходящих специалистов и эффективно выстроить рабочий процесс.

3. The Data Scientist’s Too​lbox

Время практики! Авторы курса дают обзор типов данных, рассказывают о подходах и методологиях обработки информациии. После вводной теории, вас познакомят с инструментами для работы: Git, R и RStudio — самые популярные штуки, которые помогают обрабатывать массивы информации, и украсят резюме дата майнера!

4. Stepic Contest. Data Sci​ence

Еще одно обзорное путешествие в мир больших данных. Крутизна курса заключается в его умении автоматически адаптироваться под любой уровень знаний студента. Stepik недавно запустили самонастраиваемые программы, поэтому советуем скорее оценить на благо знаний и улучшения сервиса 🙂

5. Data Science Essen​tials

Как собирать данные, подготавливать массивы к обработке, извлекать из них пользу и визуализировать результаты — всему научат на курсе! Будет много практики с применением Microsoft Azure Machine Learning, R и Python. Познакомитесь с процессами передачи данных между хранилищами, поработаете со статистикой больших данных и даже прокачаетесь в машинном обучении.

6. Data Sci​ence

Если с программированием у вас не очень — не отчаивайтесь. Не одним R и Python можно проложить путь в Data Science, потому что на помощь придет Excel. В этом курсе узнаете всё про обработку данных с помощью старого доброго Excel.

Источник

Курсы и книги для изучения data science c нуля

В статье привожу курсы и книги, которые мне кажутся наиболее оптимальными для изучения машинного обучения/data science c нуля. Стараюсь привести список, который будет наиболее кратким и одновременно даст все знания, необходимые для начала работы на практике, без серьезных пробелов в знаниях.

Disclaimer

Понять исходя из чего составлены данные рекомендации можно прочитав предыдущие статьи, в которых описаны мой путь и принципы самообучения, а также общие соображения о том, как выстраивать этапы обучения:

Рекомендации данной статьи будут устаревать, и наверняка, и сейчас существуют отличные курсы и книги, которые могли бы в него входить. Но это, как минимум, одни из лучших материалов по своим темам. Для подготовки данного списка были отброшены десятки курсов и книг, которые тоже нацелены на обучение с нуля, но хуже излагают фундаментельные концепции.

Не привожу материалов о нейронных сетях потому что, в большинстве случаев, считаю неэффективным начинать изучение с них, или изучать их на ранних этапах самообучения.

Необходимые базовые навыки

Знание основ программирования: Python и SQL

Невозможно заниматься машинным обучением или data science не владея программированием в Python или R (Начинать лучше с Python). Также, подавляющее большинство вакансий в «классическом» машинном обучении (решение бизнес-задач, и работа с изначально числовыми/статистическими данными) потребует знание SQL. Базовые рекомендации по их изучению есть в статье Самообучение в Data science, с нуля до Senior за два года.

Математика

Также невозможно стать хорошим специалистом без достаточного уровня математики. Но, мне кажется, эффективнее изучать математику постепенно, предварительно знакомясь с теми целями в которых она применяется.

Тем не менее, есть определенный минимально-необходимый базовый уровень: понимание производных (школьная программа алгебры), понимание градиентного спуска (градиент, обычно, объясняют в начальных курсах математического анализа в университете, и объяснение есть также в курсах о машинном обучении), знания основ дискретной математики, теории вероятностей и статистики.

Основы теории вероятностей неплохо объяснены в специализации: Математика для анализа данных. Необходимый минимум теории вероятностей дан в последнем курсе специализации, который не требует знаний из 2 и 3 курсов. Курсы 2 и 3 дают знания, полезные для понимания градиентного спуска и для изучения нейронных сетей и некоторых других методов машинного обучения. По указанным темам мне очень нравится англоязычная специализация Math for machine learning, от London Imperial College.

Если у вас проблемы с пониманием производных и пределов (школьная программа, самые продвинутые её темы), то, если понимаете английский: крайне рекомендую все курсы от Robert Ghrist. Более интуитивное и наглядное объяснение математики я вообще не встречал. На русском поищите курсы на coursera.org, также неплохие бесплатные курсы по математике есть на stepik.org

Начальный уровень

Книги и статьи, рекомендуемый минимум

Данные статьи и курс дают отличные базовые знания и навыки для изучения основ машинного обучения. Также в статьях дан хороший список дополнительных материалов. По данным статьям существуют также лекции (лекции я не смотрел, т.к. статьи, субъективно, намного эффективнее). Для меня данные материалы стали отличным дополнение к он-лайн курсу Воронцова (ниже). Освоив курс и данные статьи долгое время мне хватало только отработки навыков применения данных методов, не изучая ничего сверх них. В этих статьях — тему 8 можно смело пропустить, по теме 2 — больше смотрите на seaborn и имейте в виде что синтаксис команд данных библиотек уже устарел (полезно научиться пользоваться официальной документацией, чтобы понять как такие вещи делать на практике).

Но, потенциально, эта книга может заменить оба источника выше. Или можно прочесть то же самое, другими словами, и закрепить материал.

Дополнительные печатные источники

Отмечу, все книги, написанные на английском, я изначально читал в оригинале. Не могу ручаться за качество перевода. И настоятельно рекомендую попробовать их осилить в оригинале, т.к. это даст необходимый уровень знаний языка, для чтение документации к программным библиотекам, которые придется использовать для использования данных методов. Подобная документация на русский вообще не переводится. Подобный базовый уровень получить легче, чем кажется.

Курсы

Необходимый минимум

дата сайнс обучение с нуляВажно понимать в каких рамках можно доверять прогнозам, полученным разными моделями.

Альтернативные курсы

Возможно, курс Воронцова потребует сразу слишком много базовых или дополнительных знаний (умения работать с jupyter, pandas). В этом случае, возможно, проще будет сначала пройти следующую комбинацию курсов. Также, в чём-то специализация от Яндекса будет подробнее.

Специализация от Яндекс «Машинное обучение и анализ данных» (Если записываться на отдельные курсы и в последней форме при записи выбрать вариант «только аудит» то все занятия можно просмотреть бесплатно). В 3 курсе специализации,на первом этапе, можно осваивать только 1 неделю, о кластеризации. Остальные темы сложнее, и могут не пригодиться в первое время; можно просмотреть наискосок. Весь 4 курс, по началу погружения в специалиность, рекомендую просмотреть, чтобы было общее представление, но не обязательно досконально разбираться.. Эти вещи легко забываются, и не всем встречаются на пратике.

Отработка базовых навыков

Kaggle полезен сразу несколькии вещами: можно посмотреть разные реальные (и не очень) задачи, решаемые с помощью машинного обучения, и изучить пути решения, которые применяют другие спецалисты (и на этом сайте соревнуются в своих навыках в т.ч. топовые специалисты мировго уровня). У них также есть хорошие бесплатные мини-курсы по разным темам, в рамках которых, в том числе, можно отработать навыки на тестовых задачах.

Обязательно следует ознакомиться с документацией

дата сайнс обучение с нуля

В статьях сообщества ODS (см.выше) дано множество ссылок на дополнительные источники. Рекомендую с ними ознакомиться. Также, через сайт сообщества можно найти видеозаписи многих семинаров, в которых также иногда рассматриваются очень полезные и фундаментальные темы. Например, мне были полезны все выстпления от основателя сообщества, Алексея Натенкина (прогнозирование временных рядов, еще пример)

Разные смежные концепции, которые необходимо знать

дата сайнс обучение с нуля

С большой долей вероятности, если вы будете делать какой-нибудь сравнительный анализ различных групп (рекламных компаний, поведения людей и т.п.) вам придется столкнуться с парадоксом Симпсона (отличное видео). Важно отточить его понимание, т.к. от его последствий необходимо защищася, и даже зная о нём, я не всегда осозновал что встречаюсь с ним в практике.

Другие полезные книги/ материалы

Куча англоязычных статей по использованию разных библиотеке, в основном очень начального уровня, регулярно публикуется на сайте https://towardsdatascience.com; до 3 статей в месяц можно читать бесплатно.

Необходимые технические знания

Что я упустил?

Готов выступить ментором в самообучении

Посчитав, что мой опыт самообучения и быстрый рост доказывают эффективность отобранных мной подходов, книг и курсов, я решил заняться менторством.

В результате такого общения некоторые поняли, что им лучше уйти в другую сферу (программирование, биг дата), некоторым я смог скорректировать учебный/карьерный план под индивидуальные потребности, кому-то я посоветовал тех, кто сможет помочь лучше меня, а кого-то спас (?) от неэффективной траты времени на тупиковые проекты (решение задач в машинном обучении, без понимания принципов машинного обучения).

Источник

Data Science: лучшие учебные курсы и программы сертификации

Можно получить два-три десятка Data Science-сертификатов, но по-настоящему стоящих программ сертификации из сферы науки о данных, по моему мнению, не так уж и много. Я хочу рассказать о нескольких таких программах, поддерживаемых авторитетными организациями. Эти программы я оцениваю по разным признакам. В частности — по объёму рассматриваемых в их рамках тем, по их «весу» в глазах потенциального работодателя, по репутации организации, реализующей программу. В последние несколько лет я являюсь и специалистом по анализу данных, и дата-сайентистом. Всё это время у меня формировалось понимание того, что сильнее всего влияет на успех человека в сфере Data Science (DS).

дата сайнс обучение с нуля

Здесь я рассмотрю ведущие программы Data Science-сертификации, входящие в список, собранный ресурсом Indeed. Из этого списка я выбрал четыре, которые кажутся мне наиболее достойными. Им и посвящён этот материал.

Google Certified Professional Data Engineer

дата сайнс обучение с нуля

Возможно, эта программа сертификации, которую я рассматриваю первой, кого-то удивит, так как она относится к сфере, отличной от Data Science. Но, несмотря на это, я уверен в том, что навыки и обязанности дата-инженера похожи на те, что характерны для дата-сайентистов. Ещё я думаю, что прохождение подобной сертификации может стать конкурентным преимуществом на рынке труда, так как дата-сайентист, получивший подобный сертификат, сможет эффективно работать не только в сфере науки о данных, но и в сфере инжиниринга данных.

Вот некоторые темы, знание которых проверяется на экзамене:

Общие сведения об экзамене:

Google Data Machine Learning Engineer

дата сайнс обучение с нуля

Это — ещё одна программа сертификации, которую тоже нельзя назвать программой, нацеленной исключительно на Data Science. Она, скорее, направлена на достаточно узкую тему, находящуюся в пределах науки о данных. Речь идёт о машинном обучении. Многие дата-сайентисты могут настолько привыкнуть к работе в Jupyter Notebook (ведь именно этому учат на большинстве DS-курсов), что необходимость вывода моделей в продакшн, необходимость их развёртывания на веб-сайте или в мобильной среде может вызвать у них серьёзные сложности. Поэтому тем, кто работает в сфере Data Science, весьма полезно будет ознакомиться и с вопросами практического применения моделей, что расширит их кругозор и сделает их работу эффективнее.

Вот темы, которые поднимаются на экзамене:

Общие сведения об экзамене:

IBM Data Science Professional Certificate

дата сайнс обучение с нуля

Это — уже не просто программа сертификации. Тут речь идёт о наборе учебных курсов, на которых можно изучить то, что проверяется во время прохождения испытаний. Эта программа сертификации, в отличие от предыдущих, ориентирована исключительно на саму науку о данных. А это, безусловно, именно та тема, которая нам особенно интересна. Ещё одной ценной особенностью этой программы является тот факт, что она подготовлена IBM, а пройти её можно на платформе Coursera. Обе эти компании известны и имеют хорошую репутацию.

Вот — 10 курсов, которые входят в состав учебной программы:

Общие сведения о программе учебных курсов:

Microsoft Certified Azure Data Scientist Associate

дата сайнс обучение с нуля

Как видите, в этом обзоре представлены программы сертификации от ведущих игроков IT-рынка. В их число входит и Microsoft. Если поучиться, поработать, пройти тестирование в любой из подобных компаний — это может пойти на пользу карьере дата-сайентиста. Представленная здесь программа напоминает смесь тех программ, о которых мы говорили выше. Это, с одной стороны, сертификация, но с другой — перед сертификацией тут же можно и подучиться, либо самостоятельно и бесплатно, либо — с инструктором и за деньги.

Вот темы, которые поднимаются на экзамене:

Итоги

В итоге скажу, что если вы сможете пройти все вышеописанные программы сертификации — полагаю, что вы будете более чем готовы к работе дата-сайентиста. Эти сертификации направлены на проверку знаний по популярным платформам и инструментам, а также — на проверку навыков, связанных с практическим использованием моделей. В частности, речь идёт о работе с бизнес-задачами, об анализе данных, о моделировании, о создании и развёртывании моделей. Конечно, если вы попробуете найти работу в компании, проводящей сертификацию, наличие сертификата повысит ваши шансы на успех. Подбирая себе программу сертификации учитывайте то, что те, о которых шла тут речь, я, руководствуясь собственным видением ситуации, выбрал из списка программ с ресурса Indeed. Есть ещё множество подобных программ. Вам, вполне возможно, подойдёт что-то совсем другое.

Как вы посоветовали бы учиться и сертифицироваться тому, кто хочет работать в сфере Data Science?

Источник

Как самостоятельно выучиться на дата-саентиста — адаптированная подборка

Меня зовут Айра, я веду блог про математику, продукты и ML, делаю проекты в DS/ML, а также курсы по созданию ML-проектов. От своей аудитории блога и знакомых часто получаю вопросы в духе «Cтоит ли тратить деньги на тот или иной дорогой курс с codename «Стань DS за два месяца» или все же выучиться на дата-саентиста самостоятельно и бесплатно, и в таком случае, с чего начать?»

Недавно собрала ответ на этот вопрос достаточно развернуто, на мой взгляд, чтобы поделиться им с широкой аудиторией. Не все платные курсы плохие (хотя большинство — да — из-за механизмов отбора, продаж и слабой программы), но о них напишу отдельно. Мне кажется, нужно учитывать больше персонализированных параметров для того, чтобы грамотно выбирать хороший курс за деньги.

Во-первых, в список вошли бесплатные онлайн-курсы и ресурсы для самостоятельного обучения, которые проходила сама или советует профессиональное сообщество аналитиков и дата-саентистов (часто упоминающиеся в ODS.ai), где не нужно проходить какой-то отбор или быть ограниченным офлайн-посещением.

Во-вторых, конечно, это далеко не полный список онлайн-курсов, который вы можете встретить, зато в него попали лучшие курсы от сильных математических и Computer Science-школ мир и другие распространенные ресурсы среди профи из того, что я смогла отфильтровать на свой вкус.

В-третьих, начну с короткого списка, с которого, как мне кажется, стоит начинать обучение предмету, и он идет сразу же следующим абзацем.

С чего советую начать, чтобы тратить время эффективно?

Предполагая, что начинающий дата-саентист уже прошел подготовительные курсы а-ля гарвардский CS50 по основам программирования, pythontutor.ru или курс на Stepik от Института Биоинформатики, посоветую несколько шагов, которые должны стать твердой базой. Далее ссылки все полные, чтобы было легче копировать:

Зарегистрироваться в самом популярном в СНГ профессиональном slack-сообществе Open Data Science ODS.ai, вступить в как можно больше чатов, в том числе про менторство, обучение и карьеру и общаться с местными, чтобы расширить свой кругозор относительно работодателей, требований к прохождению интервью, к позиции и их различиях в разных компаниях и др, найти хороших наставников, тк. такие в сообществе есть!

Пройти вводный курс «Математика и Python для анализа данных» на Coursera — платный, недорогой и хороший. www.coursera.org/learn/mathematics-and-python

По программированию — пройти в leetcode.com все релевантные упражнения: это бесплатные или недорогие в премиальной версии в соотношении цена/качество тренажеры (в нем есть в том числе упражнения на интервью в FAANG).

Пройти mlcourse.ai — это открытый курс машинного обучения от ODS. Авторы смогли разработать курс машинного обучения с балансом между теорией и практикой, когда в лекции вы разбираете достаточно подробно математику, а затем упражняетесь сначала в блокноте, затем на Kaggle.

Для обучения решению разнообразных задач и оптимизации кода — участвовать в соревнованиях по анализу данных и машинному обучению на платформе kaggle.com.

Математика для DS/ML

Приятный курс Стэнфорда по DS «Introduction to Statistics» www.coursera.org/learn/stanford-statistics

Коротенький интерактивный курс по теории вероятностей и математической статистике «Seeing Theory» seeing-theory.brown.edu/

Хороший вводный курс по математике для анализа данных, более объёмный «Специализация Математика для анализа данных:. Можно послушать только интересную тему: дискретная математика / линейная алгебра / математический анализ / теория вероятностей. www.coursera.org/specializations/maths-for-data-analysis

Довольно подробная и читаемая книга по теорверу и матстату «Dekking, A Modern Introduction to Probability and Statistics» cis.temple.edu/

Python&SQL для DS/ML

Упомянутый выше бесплатный тренажер по Python с нуля: pythontutor.ru/

Отличный курс по инструментам по DS от IBM «Специализация Data Science Fundamentals with Python and SQL» www.coursera.org/specializations/data-science-fundamentals-python-sql

Упомянутый выше русский курс по питону и математике (платный, недорогой и хороший) «Математика и Python для анализа данных (Coursera)» www.coursera.org/learn/mathematics-and-python

Упомянутый выше https://leetcode.com/: пройти все релевантные упражнения, это бесплатные или недорогие в премиальной версии в соотношении цена/качество тренажеры (в нем есть в том числе упражнения на интервью в FAANG).

Начальные курсы по ML

Как бы этот курс не ругали из-за устаревшего языка программирования Octave (на котором пишут на Matlab), на мой вкус — это пока что самый простой и понятный курс по ML. Машинное обучение (Coursera) https://www.coursera.org/learn/machine-learning — стэнфордский курс по машинному обучению от Andrew Ng

mlcourse.ai — это открытый курс машинного обучения от ODS. Авторы смогли разработать курс машинного обучения с балансом между теорией и практикой, когда в лекции вы разбираете достаточно подробно математику, а затем упражняетесь сначала в блокноте, затем на Kaggle.

Более продвинутые курсы по ML

Если хочется погрузиться в математические доказательства методов машинного обучения, то есть прекрасные ШАДовские лекции К.В. Воронцова: плейлист «Курс «Машинное обучение» 2019” на YouTube-канале “Компьютерные науки», www.youtube.com/watc? v=SZkrxWhI5qM&list=PLJOzdkh8T5krxc4HsHbB8g8f0hu7973fK&index=2

Также хорош ежегодный гарвардский курс «Advanced Topics in Data Science CS109B». harvard-iacs.github.io/2020-CS109B/

Или курс по углубленным алгоритмам Advanced ML от ВШЭ: «Специализация Продвинутое машинное обучение» www.coursera.org/specializations/aml

Deep learning

(Мне кажется, можно пройти один курс из списка, а остальные смотреть на предмет дополнений)

Рекомендованный Стэнфордовский курс по DL «CS231n: Convolutional Neural Networks for Visual Recognition» cs231n.github.io/

Хороший курс от Университета Карнеги—Меллон «11-785 Introduction to Deep Learning» deeplearning.cs.cmu.edu/F21/index.html

Курс от MIT: «Practical Deep Learning for Coders» https://course.fast.ai/

ШАДовский курс по глубокому обучению доступен в github: «Practical_DL» github.com/yandexdataschool/Practical_DL

Бесплатные классные курсы от МФТИ: dlschool.org/

Также есть курс по DL у ODS.ai, который тоже советуют проходить в самом сообществе: «Deep Learning на пальцах» dlcourse.ai/

А еще есть курс у Samsung AI Research Center на Stepik.org stepik.org/course/50352/info

Natural Language Processing

Стэнфордовский «CS224n: Natural Language Processing with Deep Learning » web.stanford.edu/class/cs224n/

Второй курс у Samsung AI Research Center на Stepik.org https://stepik.org/course/54098/promo

Reinforcement Learning & Self-driving cars

От Deepmind «RL Course by David Silver» www.youtube.com/watc? v=2pWv7GOvuf0

Австралийский курс StarAi «Deep Reinforcement Learning Course » www.starai.io/course/

Data Engineering & MLOps

Бесплатный курс по DE от Дмитрия Аношина, дата-инженера из Microsoft, ex-Amazon: Getting start with Data Engineering and Analytics https://datalearn.ru/ (курс готовится in progress)

Соревнования

Ну, и для обучения решению разнообразных задач и оптимизации кода — участвуйте в Kaggle. https://kaggle.com/

Кроме Kaggle, есть еще несколько соревнований:

Источник

👨‍🎓️📊 Как научиться Data Science онлайн: 12 шагов от новичка до профи

дата сайнс обучение с нуля

Leo Matyushkin

дата сайнс обучение с нуля

1. Определитесь, кем вы хотите стать 💭

К. В. Воронцов в интервью Юрию Кашницкому и Алексею Натекину (полная текстовая расшифровка в нашей статье «Мнения экспертов индустрии Data Science о развитии отрасли»)

В приведённой ниже записи доклада создатель сообщества Open Data Science (о сообществе мы расскажем ниже) Алексей Натекин показывает, чем отличаются Data Analyst, Data Engineer и Data Scientist.

2. Подтяните математическую базу ➕

На Stepik есть подходящие бесплатные видеокурсы по каждой из областей с тестированием знаний:

Занимаясь по видеолекциям, не забывайте о возможности ускоренной перемотки. Чтобы задействовать моторную память и глубже проработать материал, ведите конспект.

3. Учитесь программировать 👨‍💻️

Кроме математики, нужно уметь программировать. Обычно в качестве основного языка аналитики данных выбирают Python или R. На Stepik есть хорошие курсы по обоим языкам, в том числе с упором на анализ данных:

Совмещая наиболее мощные и стабильные библиотеки R и Python в некоторых случаях можно повысить эффективность расчётов или избежать изобретения велосипедов для реализации каких-либо статистических моделей.

Во вторую очередь, это повышение скорости и удобства выполнения проектов, в случае если разные люди в вашей команде (или вы сами) обладают хорошими знаниями разных языков. Здесь может помочь разумная комбинация имеющихся навыков программирования на R и Python.

4. Учитесь пользоваться инструментами 🛠️

Одним из самых популярных инструментов для обмена результатами анализа данных стали блокноты Jupyter:

Немногие курсы заостряют на этом внимание, но на практике данные обычно хранятся в базах данных – SQL или NoSQL. Для дальнейшей работы потребуется научится с ними общаться:

5. Пройдите столько курсов Data Science, сколько сможете 🎓

В качестве дополнения к курсам на MOOC-платформах можно смотреть YouTube-курсы, приведённые нами в статье 30 YouTube-каналов и плейлистов о Data Science :

Не волнуйтесь, если вы проходите курсы быстрее (или медлее), чем это предполагали авторы. Интервал времени, необходимый для прохождения курса – вещь субъективная, тем более, что часть знаний в курсах пересекается.

Учебники на русском:

Учебники на английском:

6. Присоединитесь к сообществу Open Data Science 👥

Много интересного можно почерпнуть из англоязычных агрегаторов новостей из мира науки о данных:

Чтобы следить за мероприятиями в мире данных, заглядывайте время от времени на нашу страницу мероприятий или подпишитесь в телеграм-боте @event_listener_bot на тег Data Science.

7. Участвуйте в соревнованиях (не только Kaggle) 🤼

Мнения экспертов о Kaggle:

До появления таких массовых соревнований методы ранжировались по типам задач, и создавалось много различных мифов, развенчанных в результате верификации на таких конкурсах, а другие методы становились популярны. Так был разрекламирован бустинг и глубокое обучение.

Александр Дьяконов в интервью Юрию Кашницкому и Алексею Натекину

Главный плюс Kaggle – есть механизм, где можно давать задачи на конкурс. Минус в том, что часто задача выхолащивается, придумывается искусственный функционал. Либо выборка не очень соответствует реальным данным и условиям применения.
С помощью Kaggle мы узнаём, кто лучший решатель задач и где есть центры компетенции. Но мы можем с грустью узнать, что все победители в лидер борде применяли что-то настолько замороченное, что мы не сможем строить на этом бизнес-процесс. При этом может существовать на два порядка более простое решение, дающее на полпроцента худший результат, но решающее бизнес-задачу.

Я смотрю на конкурсы анализа данных, как на новый механизм тендеров в том, что можно назвать цифровой экономикой. Это экономический механизм для того, чтобы понимать насколько эффективно та или иная задача сейчас может быть решена и найти быстро того, кто может решить эту задачу. Эффективность несопоставима с любыми открытыми или закрытыми тендерами, независимо от степени бюрократии.

Плюс конкурсов – это способ популяризации тех или иных задач в сообществе. Конкурсы анализа данных в ближайшие годы возьмут на себя социально значимую миссию – объяснить обществу, где нужен Data Science. Это может стать точкой входа в любую отрасль науки/ Чтобы, например, сделать эксперимент в области физики, нужно обучиться этой профессии, иметь доступ к экспериментальному оборудованию.

Выкладываются данные с Большого адронного коллайдера, и вы можете попытаться обработать их на своём рабочем компьютере. У вас нет физической установки, но есть данные с неё. То же самое с данными из биоинформатики, молекулярной биологии, геологии. Вы поймёте как добывают нефть, как залегают полезные ископаемые, станет понятно многое про астрономию, социологию. Мы сократили путь людям к познанию мира, дали возможность погрузиться в современную науку через анализ данных, открытые датасеты и конкурсы.

Константин Воронцов в интервью Юрию Кашницкому и Алексею Натекину

8. Изучите специальные вопросы Data Science 👁️‍🗨️

Наука о данных – невероятно обширная междисциплинарная область, и для решения конкретных задач потребуются специальные навыки. После знакомства с Kaggle вам станет понятнее, в каких востребованных знаниях у вас есть пробелы.

Обратите внимание на следующие курсы Stepik:

Также пригодятся YouTube-каналы:

Не переставайте учиться. Просмотрите топ и сайдбар сабреддитов по темам, смежным машинному обучению:

9. По итогам каждого курса делайте проект 🏗️

Можно отталкиваться не от проекта, а интересного датасета. Список популярных реестров:

Множество обсуждений с идеями проектов можной найти на Quora:

Для каждого проекта создавайте публичный репозиторий на GitHub. Доводите результат до ума, делитесь ими в своём блоге и сообществе. Вносите вклад в сторонние проекты, публикуйте свои идеи и мысли. Всё это поможет составить портфолио и познакомиться с людьми, работающими над родственными задачами.

10. Читайте научные статьи🔬

Главные языки науки о данных это не Python или R, а английский язык и язык математики. Хотя появляется всё больше курсов на русском языке, самая актуальная информация — в последних международных статьях.

К академическому языку нелегко привыкнуть. Чтобы эффективно работать с научными публикациями, прочитайте наш материал «Как правильно искать и читать научные статьи?»

Препринты статей публикуются на сайте arXiv. Самые полезные для дата-сайентистов разделы:

11. Устройтесь на стажировку/работу по Data Science🕴

Data Science – востребованная профессия с высокой конкуренцией. Но даже результаты собеседований участники сообщества превращают в данные. Существует множество списков вопросов для подготовки к интервью на позицию data scientist’а:

В этом году с этим труднее, но надеемся, что скоро вернутся летние школы и стажировки:

Обязательно воспользуйтесь своими навыками в майнинге данных для анализа рынка труда – проанализируйте, какие навыки встречаются в вакансиях чаще, чтобы их максимально отточить. Оцените, какой доход можно ожидать с учётом трат на месте, аренды жилья и переезда в другой город.

В следующем видео Валерий Бабушкин интересно рассказывает о карьере в Data Science и типичных ошибках на собеседованиях.

Как готовиться к собеседованиям? Каких навыков и знаний не хватает специалистам, приходящим на работу в индустрии Data Science?

Александр Дьяконов в интервью Юрию Кашницкому и Алексею Натекину

12. Поделитесь опытом с сообществом 📢

Расскажите о своем проекте или находке с сообществом Data Science. Подготовьте доклад и выступите на локальном митапе – ближайшие можно найти среди каналов через поиск в Slack ODS. Заведите блог, в котором вы будете делиться находками, собственными идеями и репозиториями. Опубликуйте статью на Proglib. Мы помогаем нашим читателям распространить интересные идеи и полезные знания.

И последнее, но не менее важное – успевайте насладиться тем, как ваши навыки помогают делать мир лучше!

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *