data science медицина обучение
Data Science: лучшие учебные курсы и программы сертификации
Можно получить два-три десятка Data Science-сертификатов, но по-настоящему стоящих программ сертификации из сферы науки о данных, по моему мнению, не так уж и много. Я хочу рассказать о нескольких таких программах, поддерживаемых авторитетными организациями. Эти программы я оцениваю по разным признакам. В частности — по объёму рассматриваемых в их рамках тем, по их «весу» в глазах потенциального работодателя, по репутации организации, реализующей программу. В последние несколько лет я являюсь и специалистом по анализу данных, и дата-сайентистом. Всё это время у меня формировалось понимание того, что сильнее всего влияет на успех человека в сфере Data Science (DS).
Здесь я рассмотрю ведущие программы Data Science-сертификации, входящие в список, собранный ресурсом Indeed. Из этого списка я выбрал четыре, которые кажутся мне наиболее достойными. Им и посвящён этот материал.
Google Certified Professional Data Engineer
Возможно, эта программа сертификации, которую я рассматриваю первой, кого-то удивит, так как она относится к сфере, отличной от Data Science. Но, несмотря на это, я уверен в том, что навыки и обязанности дата-инженера похожи на те, что характерны для дата-сайентистов. Ещё я думаю, что прохождение подобной сертификации может стать конкурентным преимуществом на рынке труда, так как дата-сайентист, получивший подобный сертификат, сможет эффективно работать не только в сфере науки о данных, но и в сфере инжиниринга данных.
Вот некоторые темы, знание которых проверяется на экзамене:
Общие сведения об экзамене:
Google Data Machine Learning Engineer
Это — ещё одна программа сертификации, которую тоже нельзя назвать программой, нацеленной исключительно на Data Science. Она, скорее, направлена на достаточно узкую тему, находящуюся в пределах науки о данных. Речь идёт о машинном обучении. Многие дата-сайентисты могут настолько привыкнуть к работе в Jupyter Notebook (ведь именно этому учат на большинстве DS-курсов), что необходимость вывода моделей в продакшн, необходимость их развёртывания на веб-сайте или в мобильной среде может вызвать у них серьёзные сложности. Поэтому тем, кто работает в сфере Data Science, весьма полезно будет ознакомиться и с вопросами практического применения моделей, что расширит их кругозор и сделает их работу эффективнее.
Вот темы, которые поднимаются на экзамене:
Общие сведения об экзамене:
IBM Data Science Professional Certificate
Это — уже не просто программа сертификации. Тут речь идёт о наборе учебных курсов, на которых можно изучить то, что проверяется во время прохождения испытаний. Эта программа сертификации, в отличие от предыдущих, ориентирована исключительно на саму науку о данных. А это, безусловно, именно та тема, которая нам особенно интересна. Ещё одной ценной особенностью этой программы является тот факт, что она подготовлена IBM, а пройти её можно на платформе Coursera. Обе эти компании известны и имеют хорошую репутацию.
Вот — 10 курсов, которые входят в состав учебной программы:
Общие сведения о программе учебных курсов:
Microsoft Certified Azure Data Scientist Associate
Как видите, в этом обзоре представлены программы сертификации от ведущих игроков IT-рынка. В их число входит и Microsoft. Если поучиться, поработать, пройти тестирование в любой из подобных компаний — это может пойти на пользу карьере дата-сайентиста. Представленная здесь программа напоминает смесь тех программ, о которых мы говорили выше. Это, с одной стороны, сертификация, но с другой — перед сертификацией тут же можно и подучиться, либо самостоятельно и бесплатно, либо — с инструктором и за деньги.
Вот темы, которые поднимаются на экзамене:
Итоги
В итоге скажу, что если вы сможете пройти все вышеописанные программы сертификации — полагаю, что вы будете более чем готовы к работе дата-сайентиста. Эти сертификации направлены на проверку знаний по популярным платформам и инструментам, а также — на проверку навыков, связанных с практическим использованием моделей. В частности, речь идёт о работе с бизнес-задачами, об анализе данных, о моделировании, о создании и развёртывании моделей. Конечно, если вы попробуете найти работу в компании, проводящей сертификацию, наличие сертификата повысит ваши шансы на успех. Подбирая себе программу сертификации учитывайте то, что те, о которых шла тут речь, я, руководствуясь собственным видением ситуации, выбрал из списка программ с ресурса Indeed. Есть ещё множество подобных программ. Вам, вполне возможно, подойдёт что-то совсем другое.
Как вы посоветовали бы учиться и сертифицироваться тому, кто хочет работать в сфере Data Science?
Самообучение в Data science, с нуля до Senior за два года
Хочу поделиться методами освоения Data science с нуля человеком из другой ИТ специальности. Цель: дать понять, подходит ли Вам эта специальность в принципе, и рассказать про эффективные подходы к самообучению, которые мне помогли (отдельно планирую потом детальные статьи по отдельным темам).
Отличные материалы уже существуют по большинству конкретных тем, я сам по ним учился.
Думаю, многим будут полезны «мета» материалы о том, как выбирать курсы и статьи, по которым учиться. Например, я пересмотрел десятки статей и книг, пробовал много разных он-лайн курсов, но полезной оказалась лишь малая часть всего доступного. Надеюсь, что смогу серьезно сэкономить вам время и помочь достигнуть большего, показав более эффективный путь самообучения.
И важно сказать сразу: я верю, что любой человек с аналитическими способностями и структурным мышлением может стать специалистом по машинному обучению/data science. Еще 4 года назад я сомневался, потеряв веру в свои математические способности из-за преподавателей университета. Теперь верю: основы машинного обучения и минимально необходимую математику сможет выучить любой сильно замотивированный человек.
Когда я понял, что скоро мне стукнет 30 лет, решил уйти в другую сферу и переехать из РФ. В своей сфере (1С) я был карьерно успешен, но стало ясно, что дальнейший рост очень затруднителен и требует выполнять работу, которая мне неинтересна и почти противна.
Через полгода перебора вариантов решил, что Data science мне интереснее всего.
Ещё через год имел достаточную квалификацию и прошёл собеседование на работу в Чехии (оговорка: у меня еще до этого было неплохое знание английского).
Ещё через год стал Senior Data scientist в Vodafone (мой LinkedIn).
Мне помогло то, что до этого я сформировал привычки к самообразованию, а экономность не позволила мне пойти по самому простому пути: найти онлайн курс с именитыми преподами, заплатить им много денег и довериться, что они всему научат лучше всего. В итоге я перебирал много бесплатно доступных книг и курсов (книги часто были найдены на b-ok.org). Из всех курсов и книг отбирал самые лучшие, забрасывая то, что казалось слишком теоретизированными или плохо структурированным.
На основе этих десятков книг и курсов я и сформировал то мнение, которым хочу поделить. Вероятно, существует еще более эффективный и быстрый способ научится этому всему. То, как учился я, было всего-лишь быстрее большинства платных программ, которые я видел, и заодно бесплатным (на многие лучшие англоязычные курсы всегда можно записаться бесплатно; покупал я только книги русских авторов и пару книг, которые иначе не смог найти).
Сначала надо понять, что такое Data science/машинное обучение и подойдет ли оно вам
Потому что если это просто модное слово и вы хотите получать много денег или работать в Гугл, то легче заработать на позиции маркетолога или веб-аналитика, и это тоже достаточно аналитичная работа.
Если вы человек творческий, возможно, разработка интерфейсов (фронтенд, мобильные приложения) вам подойдёт больше.
Если вы от природы аналитик и любите разбираться в данных, но программирование вас не заинтересует, а на изучение всей математики вам не хватает времени, стоит выбрать тот же самый учебный путь! Просто сделать акцент на мнее математических задачах, и не лезть в программироване сложных систем. Аналитики, знающие основы data science, тоже нужны в компаниях.
Важно, чтобы работа зажигала. Без искреннего интереса «грызть» Data science будет тяжело, потому что надо разобраться в куче нюансов, особенно если у вас нет за плечами хороших знаний в статистике, линейной алгебре и мат.анализе.
Как понять, будет ли вам интересно заниматься именно data science?
Мне кажется, что идеально эту роль выполняет книга Datasmart (выше писал сайт, на котором я нашёл её бесплатно). На русский она тоже переведена: «Много цифр. Анализ больших данных при помощи Excel, Джон Форман». Хотя, если вы хотите работать в data science, знание английского необходимо (технический английский выучить намного легче разговорного, и это будет очень полезно для любой работы в ИТ).
Эта книга показывет многие из технических методов Data science на уровне интуиции и даёт сразу достаточно детальное представление о решаемых задачах и где в бизнесе можно применить данные модели.
Если эта книга не вызовет интерес разобраться во всех указанных алгоритмах детальнее, вероятно, работа в data science не для вас.
Если книга интересн вызовет, но вам также хочется больше программировать, скорее всего, вам интересно будет стать machine learning engineer. Разница между data scientist и machine learning engineer в том, что первый должен общаться с людьми и понимать, какую задачу имеет смысл решать, а второй должен уметь состыковать программы с «искусственным интеллектом» с другими ИТ системами, мобильными телефонами или требованиями обрабатывать огромные объемы данных.
Что учить
Если вы решили, что готовы «грызть гранит науки», то в образовании специалиста data science есть два кита:
Непосредственные методы Data science, которые стоят на трёх математических черепахах: теории вероятностей и статистике, линейной алгебре и основах мат.анализа (только основах, там требуется минимум сверх школьного курса «алегбра и начало анализа»). Кстати, вся эта математика далеко не так сложна. Проблема в том, что её плохо и неинтересно объясняют во многих вузах. Позже поделюсь советами, как её можно легче освоить.
Программирование на Python (+SQL и подобные), которое позволит применить все изученные методы с помощью логичных и простых в своей сути библиотек готовых функций.
Даже примерный учебный план для изучения методов Data science требует отдельного поста. Ниже напишу чуть подробнее про Python и SQL
Английский необходим!
Принципы эффективного обучения
Программирование: что и как учить?
Что такое SQL и зачем его учить?
SQL является стандартом для получения данных в нужном виде из разных баз данных. Это тоже своеобразный язык программирования, который дополнительно к своему основному языку используют многие программисты. Большинство самых разных баз данных использует один и тот же язык с относительно небольшими вариациями.
Как учить SQL:
Наберите в Гугле «sql tutorial» и начните учиться по первой же ссылке. Если она вдруг окажется платной, выберете другую. По SQL полно качественных бесплатных курсов.
На русском языке тоже полно курсов. Выбирайте бесплатные.
На изучение достаточно всего лишь от 10 часов (общее понимание), до 20 часов (уверенное владение большей частью всего необходимого).
Почему именно Python?
У всех других языков программирования какие-либо специализированные библиотеки для машинного обучения есть только в зачаточном состоянии.
Как учить Python
Прочитать основы и пройти все упражнения с этого сайта можно за 5-40 часов, в зависимости от вашего предыдущего опыта.
После этого варианты (все эти книги есть и на русском):
Learning Python, by Mark Lutz (5 издание). Существует и на русском.
Есть много книг, которые сразу обучают использованию языка в практических задачах, но не дают полного представления о детальных возможностях языка.
Эта книга, наоборот, разбирает Python досконально. Поэтому по началу её чтение будет идти медленнее, чем аналоги. Но зато, прочтя её, вы будете способны разобраться во всём.
Я прочёл её почти целиком в поездах в метро за месяц. А потом сразу был готов писать целые программы, потому что самые основы были заложены в pythontutor.ru, а эта книга детально разжевывает всё.
В качестве практики берите, что угодно, когда дочитаете эту книгу до 32 главы, и решайте реальные примеры (кстати, главы 21-31 не надо стараться с первого раза запоминать детально. Просто пробежите глазами, чтобы вы понимали что вообще Python умеет).
Не надо эту книгу (и никакую другую) стараться вызубрить и запомнить все детали сразу. Просто позже держите её под рукой и обращайтесь к ней при необходимости.
Прочитав эту книгу, и придя на первую работу с кучей опытных коллег, я обнаружил, что некоторые вещи знаю лучше них.
Python Crash Course, by Eric Matthes
Automate the Boring Stuff with Python
Книга хороша примерами того, что можно делать с помощью Python. Рекомендую просмотреть их все, т.к. они уже похожи на реальные задачи, с которыми приходится сталкиваться на практике, в том числе специалисту по анализу данных.
Какие трудозатраты?
Путь с нуля до уровня владения Python, на котором я что-то уже мог, занял порядка 100ч. Через 200ч я уже чувствовал себя уверенно и мог работать над проектом вместе с коллегами.
Следующие статьи по данной теме
Для желающих могу выступить в роли ментора
Data science медицина обучение
для тех, кто ищет курсы:
Войти в аккаунт
Чтобы воспользоваться всеми функциями сайта, вам необходимо зарегистрироваться/войти в свой аккаунт на сайте. Выберите вашу соцсеть для входа:
Если вы организация, проводящая курсы, то регистрация происходит по этой ссылке.
Вы научитесь решать задачи в области медицины: обрабатывать данные по сердечно-сосудистым заболеваниям, онкологии, сигналам ЭЭГ, рентгеновским изображениям. Все это с помощью нейросетей и машинного обучения.
Особенность данного курса от GeekBrains:
— Медицинская специализация
Специализация позволяет глубже погрузиться в медицинские задачи: вы познакомитесь с рынком труда, поработаете с медицинскими данными и проанализируете исследования лекарств. Начать работать можно до прохождения специализации.
— Вебинары с экспертами
Вы пообщаетесь с экспертами из Mail. ru Group, NVIDIA, X5 Retail Group и других компаний. Они следят за трендами в Data Science и ежегодно обновляют программу обучения.
Data Science в медицине: кто, как и зачем обрабатывает данные
Пандемия существенно повлияла на рынок Data Science в мире: возросли не только объемы обрабатываемой ежедневно информации, но и потребность в прогностических моделях и специалистах. Хотя на эту тему уже достаточно много сказано и написано, сама суть профессии все еще вызывает вопросы. Поэтому мы в «Хайтеке» вместе с GeekBrains решили рассказать о том, какие задачи решают дата-сайентисты в медицине, что изменил коронавирус и как зайти в эту профессию.
Читайте «Хайтек» в
Несмотря на то, что с методологической точки зрения ИТ и медицина достаточно далеки друг от друга, именно биология и медицинские исследования двигали анализ данных и применение различных аналитических моделей вперед. Сегодня даже в медицинских институтах, на курсах медицинской статистики, изучаются основы Data Science. И хотя эти методы в медвузах называются иначе, врачам достаточно трудно их применять — сказывается отсутствие опыта в программировании. Умение программировать — первое, что требуется от специалиста в данной области. Необходимо разбираться в современных алгоритмах анализа данных — в нейронных сетях. Причем не просто теоретически понимать, как работает алгоритм, — для этого нужно неплохо владеть высшей математикой и уметь эти алгоритмы использовать на реальных медицинских данных. Это, в свою очередь, требует от специалиста знаний специальных инструментов Data Science — библиотек Python и методов предобработки данных.
Как коронавирус стал катализатором для Data Science в медицине
На сегодняшний день есть два ключевых направления прикладного применения Data Science в медицине — здравоохранение и фармацевтика. В первое направление входят задачи диагностики, оптимизация работы клиник и врачей, подбор лекарств и лечения на основе диагноза. Решения, которые применяются в каждой из этих глобальных задач, базируются на основе алгоритмах анализа данных и машинного обучения. В разработке лекарств активно используются накопленные медицинские данные. Речь идет как о применении в поиске действующих веществ, так и о тестировании препаратов на животных и людях.
Особую роль в развитии технологий Data Science сыграла пандемия коронавируса. Резко возросла потребность в предсказательных моделях, которые могли бы дать более точные данные о будущем распространении коронавируса: предсказать количество госпитализаций, влияние тех или иных ограничительных мер и вакцинации на COVID-19. И если в классической эпидемиологии подобные предсказания основываются на относительно простых эпидемиологических моделях, то в реальности эти модели показали себя крайне плохо, тогда как современные методы Data Science способны их заменить и повысить точность прогнозов.
Основные направления применения Data Science в медицине во время пандемии остались прежними, но объем данных и ожидаемое время на решение задачи существенно изменились. Например, задача диагностики заболевания по КТ легких уже давно изучена, на рынке присутствует достаточное количество рабочих решений. Но благодаря глобальности пандемии, постоянному обмену данными и их доступности задача автоматической диагностики COVID-19 по КТ была решена в кратчайшие сроки. То же относится и к предсказанию тяжести исхода заболевания, это могло бы помочь для прогнозирования количества свободных мест в больницах. Для решения этой задачи в нескольких странах параллельно собирается и анализируется гигантский объем данных. Но специфика медицины такова, что внедрение новых решений на практически невозможно. Как и в случае с вакцинами, требуется тщательная проверка любой модели прежде, чем от нее будут зависеть врачебные решения.
Какие базовые знания необходимы для работы в Data Science:
Как Data Science помогает в борьбе с раком, болезнью Альцгеймера и в поиске новых лекарств
Остановимся на различных направлениях применения Data Science в медицине. Одно из самых перспективных — диагностика онкологических заболеваний. Сегодня дата-сайентисты используют целый спектр алгоритмов для разработки решений в этой области: выбор за конкретным методом зависит от поставленной задачи, данных, которые имеются, и их объема. К примеру, можно делать диагностику по изображениям опухоли — в этом случае специалисты Data Science скорее всего будут использовать нейронные сети. Для диагностики по результатам анализов будет выбран один из методов машинного обучения, лучше других подходящий для конкретной задачи. Также существуют специфические алгоритмы, используемые, например, для анализа данных ДНК, полученных от единичных клеток. Такие данные чаще всего анализируются с помощью алгоритмов на графах. Но это скорее исключение из правил.
Кроме того, есть несколько методов, применяемых для улучшения изображений и повышения точности результата. Платформы больших данных (такие, как Hadoop) применяют, например, MapReduce для поиска параметров, которые можно использовать в различных задачах. Для тех, кто собирается разработать свой продукт в этой сфере, или просто энтузиастов есть несколько открытых наборов данных визуализации мозга: BrainWeb, IXI Dataset, fastMRI и OASIS.
Еще один кейс — это моделирование органов человека, одна из сложнейших технических задач. Причем при разработке того или иного решения специалист должен точно понимать, для чего и на каком уровне сложности моделируется орган. Например, можно сделать модель определенной опухоли на уровне экспрессии генов и сигнальных путей. Сегодня решением таких задач занимается компания Insilico Medicine. Этот подход используется для поиска мишени терапии, в том числе методами Data Science. Подобные модели в основном применяются для научных исследований, до практического применения им пока что еще далеко.
Анализ последовательности генов — целое направление медицины, развитие которого просто невозможно без Data Science. Если в Data Science крайне важен навык программирования на Python, то при работе с генами также необходимы знание языка программирования R и специфические инструменты биоинформатики — программы для работы с последовательностями ДНК и белков. Большинство таких программ работают на операционной системе Unix и не очень «дружелюбны» к пользователям. Чтобы их освоить, нужно как минимум понимать основы молекулярной биологии и генетики. К сожалению, даже в медицинских вузах с этим сегодня большие проблемы, и большинство врачей на самом деле плохо представляют, как устроены последовательности генов. В России этим направлением занимаются две компании — «Атлас» и «Генотек». Популярным в настоящее время является и анализ на мутации отдельных генов. Большинство крупных компаний, которые занимаются медицинскими анализами, предоставляют такие услуги. Пациенты, например, могут выяснить, нет ли у них предрасположенности к раку груди в тех же генах, что у Анджелины Джоли. Эта сфера характеризуется дефицитом кадров, так как существует всего несколько мест, где можно получить соответствующее образование. К тому же многие либо остаются работать в науке, либо уезжают за границу. Русскоязычных онлайн-ресурсов, где можно научиться подобному анализу, достаточно мало. Обычно они рассчитаны на врачей или биологов и обучают только программированию и основам работы с данными. Для того чтобы получить более практико-ориентированное образование с выходом в эту область, можно окончить курс на Факультете Data Science в медицине в GeekBrains.
Сегодня на рынке существует несколько инструментов для анализа данных в этой области: MapReduce, SQL, Galaxy, Bioconductor. MapReduce обрабатывает генетические данные и сокращает время, необходимое для обработки генетических последовательностей.
SQL — это язык реляционных баз данных, который мы используем для выполнения запросов и извлечения данных из геномных баз данных. Galaxy — приложение для биомедицинских исследований с открытым исходным кодом, основанное на графическом интерфейсе. Оно позволяет выполнять различные операции с геномами.
И, наконец, Bioconductor — это программное обеспечение с открытым исходным кодом, разработанное для анализа геномных данных.
Важное коммерческое и одновременно исследовательское направление — создание лекарственных препаратов нового поколения. Специалисты фармы используют машинное обучение для поиска мишени терапии и биомаркеров. Ни первое, ни второе, конечно, ещё не сами лекарства. Мишени — это молекулы в организме, с которыми лекарство взаимодействует, а биомаркеры — молекулы, сообщающие врачу о том, кому следует применять лекарство. Поэтому практически все компании, которые разрабатывают лекарства от болезней с неизвестными мишенями и биомаркерами — Novartis, Merck, Roche и российский BIOCAD — используют машинное обучение. Это, в первую очередь, онкологические и аутоиммунные заболевания, болезнь Альцгеймера. Сюда же можно отнести поиск новых антибиотиков.
Почему врачи не способствуют внедрению Data Science
Последние годы показали, что Data Science является двигателем индустрии прогностических и аналитических моделей в медицине, например, в применении нейронных сетей для определения пространственной структуры белков. Но пандемия вскрыла во многих странах глобальную проблему, связанную с оптимизацией ресурсов клиник и недостатком персонала. За последний год появилось множество компаний, предлагающих решать эти проблемы с помощью Data Science. Использование данных стало большим прорывом и для частных клиник, поскольку делает медицинские услуги дешевле. На фоне пандемии также вырос спрос на услуги телемедицины, в которых широко применяются алгоритмы машинного обучения. Сервисы телемедицины востребованы для предварительной постановки диагноза, работы с анализами и создания чат-ботов.
С точки зрения технологических ограничений применение компьютерного зрения и машинного обучения практически не имеет препятствий. Более глубокое внедрение алгоритмов и сервисов упирается в желание клиник и врачей применять методы Data Science. Также остро ощущается нехватка данных для обучения, причем это вопрос не только к коммерческим медицинским учреждениям, но и к государству: правительствам следует демократизировать доступ к данным бюджетных больниц, чтобы компании-разработчики могли создавать современные продукты.
Обучение даже одной программы требует много качественных данных. Для того чтобы научиться различать опухоль в кадре, программе необходимы тысячи вручную проанализированных снимков пациентов, причём к анализу следует привлекать опытных врачей.
Врач должен сначала найти опухоль, а потом показать, где она находится. Как вы понимаете, у опытных врачей есть много других дел. Но пандемия, как ни странно, помогла некоторым областям. Так, например, DiagnoCat, российский стартап, применяющий компьютерное зрение для анализа снимков в стоматологии, во время локдауна смог привлечь незанятых врачей для анализа снимков. Что касается нежелания клиник и врачей, то врачи попросту не доверяют подобным технологиям. Хороший врач наверняка найдет такой случай, когда программа поставит неверный диагноз, неопытный врач испугается, что программа сделает все лучше его. В итоге всегда можно оправдаться заботой о пациенте и юридическими аспектами.
Синергия Data Science и медицинских технологий уже позволила совершить скачок в разработке решений для диагностики онкологических, аутоиммунных и нейродегенеративных заболеваний. Сервисы, работающие на основе анализа данных и машинного обучения, способны прогнозировать распространение вирусов и искать лекарства новых поколений. Несмотря на то, что классическое медицинское образование отстает от вызовов, которые стоят сегодня перед индустрией, стать современным специалистом, работающим на стыке двух научных направлений — Data Science и медицины — реально. И один из способов — онлайн-курс на факультете «Data Science в медицине» в GeekBrains.