Путеводитель по ИТ: кто такой Data Scientist и почему он нужен в вашей компании

03.03.2023 533
IBS Training Center Telegram
Подписывайтесь на наш канал в Telegram:
больше материалов экспертов, анонсы бесплатных вебинаров и задачки для IT-специалистов
Подписаться

Что такое Big Data?

Понятие “Big Data” было введено в 2008 году профессором Школы информации Беркли и директором Коалиции сетевой информации (CNI) Клиффордом Линчем. Именно в это время социальные сети начали обретать популярность, а количество контента в Интернете возросло во много раз.

Big Data — это оцифрованная:

  • структурированная информация с фиксированной формой, например, таблица с бюджетом мероприятия;

  • полуструктурированная, имеющая форму, но не хранящаяся в виде таблицы;

  • неструктурированная информация — “сырые” данные, расположенные в произвольной форме, например, результаты поиска Яндекс.

Но вернемся в прошлое. В начале 90-х компании тратили множество средств, чтобы хранить у себя эти данные, но не знали, как их использовать. Именно в этот момент стало ясно, что взаимодействовать с Big Data с помощью традиционных подходов невозможно. Популярность начало приобретать машинное обучение (МО). МО позволило анализировать, масштабировать и хранить данные, при этом не перегружая память серверов. Для работы с этим инструментом понадобился специально обученный человек — Data Scientist.

undraw_Developer_activity_re_39tg.png

Кто такой Data Scientist?

Data Scientist (дата-сайентист, датасаентист) — это технический специалист, главная задача которого отвечать на вопросы бизнеса при помощи анализа данных, математической статистики и логики. Другими словами, Data Scientist изучает, собирает и извлекает из огромного количества данных полезную информацию (инсайты), которую бизнес может использовать для достижения поставленных целей. 

Важно отметить, что деятельность датасаентиста зависит от деятельности компании, в которой он работает. Чаще всего, в обязанности Data Scientist входит:

  • общение с клиентом и выявление его потребностей;

  • сбор информации для анализа и ее обработка в формат, удобный для работы;

  • поиск и изучение взаимосвязей и закономерностей;

  • создание, обучение и тестирование моделей, прогнозирующих поведение пользователей/клиентов и т. д.;

  • анализ полученных данных с помощью инструментов МО;

  • внедрение МО в производство;

  • поддержка внедренного МО и его адаптация под текущие потребности клиента.

В чем разница между аналитиком Big Data и Data Scientist?

Аналитик Big Data — специалист по статистике и анализу информации, однако он не владеет навыками машинного обучения и самостоятельно обрабатывает большие массивы данных. В обязанности датасаентиста также входит анализ информации, но его деятельность сконцентрирована вокруг разработки кода, позволяющего автоматизировать процесс работы с Big Data. В этом и кроется ключевое различие между аналитиком Big Data и Data Scientist. Если первый специалист отвечает за информационную и бизнес-составляющую проекта, то второй — за техническую часть (работу с языками программирования, вычислениями, машинным обучением и т. д.).

undraw_Elements_re_25t9.png

Что должен знать Data Scientist?

Data Scientist — это Эйнштейн мира IT. Он, как настоящий ученый, изучает информацию в разных контекстах, выявляет зависимость между данными и проверяет, как то или иное решение повлияет на бизнес. Поэтому важнейшие качества датасаентиста — аналитический склад ума и логическое мышление. Именно способность видеть логические связи помогает датасаентисту просчитать все возможные исходы, а его клиентам быть всегда на шаг впереди конкурентов.

К общим требованиям к датасаентисту относятся:

  • знание алгебры, математического анализа и математической логики. Data Scientist — одна из IT-специальностей, требующая хорошего математического бэкграунда;

  • умение собирать, обрабатывать и анализировать данные, проверять гипотезы и выстраивать взаимосвязь между полученными результатами;

  • умение работать со статистикой;

  • умение работать с МО и вычислительной техникой — основными инструментами, благодаря которым датасаентист построит модели;

  • опыт разработки ПО, а именно нейросетей, способных собрать и структурировать Big Data;

  • опыт работы с базами данных;

  • навыки визуализации информации.

Также датасаентисту пригодится:

  • знание основ Python — универсального языка программирования, с помощью которого строятся модели, проверяются гипотезы и выстраиваются связи между данными;

  • опыт работы с SQL пригодится в любой области для создания и изменения базы данных, а также поиска и сортировки информации;

  • умение работать с NoSQL и фреймворками Hadoop, Apache Spark и т. д.;

  • умение работать с BI-системами (системами интерактивной аналитики, например MS PowerBI или Tablea) для выстраивания отчетов и представления результатов работы в понятном для клиента формате;

  • построение A/B-тестов и интерпретация их результатов;

  • умение работать с Git и командной строкой Linux.

undraw_Programming_re_kg9v.png

Где работает и сколько зарабатывает Data Scientist?

Профессия существует более 25 лет, но в России и мире сохраняется нехватка датасаентистов. Это связано с высоким порогом входа в профессию и высокой ответственностью, ведь ошибки Data Scientist могут сильно повлиять на бюджет компании. Несмотря на это, Data Scientist был и остается незаменимым специалистом в самых разных отраслях: торговле, финансах и страховании, сельском хозяйстве, IT и телекоммуникациях, медицине, в гуманитарных науках (в частности, социологии) и других сферах.

Зарплата начинающего датасайентиста стартует от 70 тыс. руб., а опытный специалист получает в 3-4 раза больше.

Как стать Data Scientist?

Если вы разработчик, знаете один-два языка программирования и знакомы с принципами машинного обучения, то за пару месяцев можно стать полноценным Data Scientist. Если вы не знакомы с разработкой или пришли не из IT, то пройти карьерный путь датасаентиста будет сложнее. Но вы имеете и имущество — глубокое понимание того, как работает ваша сфера, а следовательно, как и почему принимаются те или иные бизнес-решения.

Хотите начать карьеру Data Scientist? Освойте современные методы управления данными, Tableau, Cassandra, Apache Hadoop, Apache Spark, изучите машинное обучение и другие полезные инструменты на наших курсах. Регистрируйтесь и получите скидку 10%!

Расскажи друзьям:

Как не пропустить самое интересное?
Подписывайтесь на наш ежемесячный дайджест!
Спасибо.
Вы подписаны на ежемесячный дайджест.
Пользователь только что записался на курс ""
Спасибо!
Форма отправлена успешно.