Что такое Big Data?
Понятие “Big Data” было введено в 2008 году профессором Школы информации Беркли и директором Коалиции сетевой информации (CNI) Клиффордом Линчем. Именно в это время социальные сети начали обретать популярность, а количество контента в Интернете возросло во много раз.
Big Data — это оцифрованная:
-
структурированная информация с фиксированной формой, например, таблица с бюджетом мероприятия;
-
полуструктурированная, имеющая форму, но не хранящаяся в виде таблицы;
-
неструктурированная информация — “сырые” данные, расположенные в произвольной форме, например, результаты поиска Яндекс.
Но вернемся в прошлое. В начале 90-х компании тратили множество средств, чтобы хранить у себя эти данные, но не знали, как их использовать. Именно в этот момент стало ясно, что взаимодействовать с Big Data с помощью традиционных подходов невозможно. Популярность начало приобретать машинное обучение (МО). МО позволило анализировать, масштабировать и хранить данные, при этом не перегружая память серверов. Для работы с этим инструментом понадобился специально обученный человек — Data Scientist.
Кто такой Data Scientist?
Data Scientist (дата-сайентист, датасаентист) — это технический специалист, главная задача которого отвечать на вопросы бизнеса при помощи анализа данных, математической статистики и логики. Другими словами, Data Scientist изучает, собирает и извлекает из огромного количества данных полезную информацию (инсайты), которую бизнес может использовать для достижения поставленных целей.
Важно отметить, что деятельность датасаентиста зависит от деятельности компании, в которой он работает. Чаще всего, в обязанности Data Scientist входит:
-
общение с клиентом и выявление его потребностей;
-
сбор информации для анализа и ее обработка в формат, удобный для работы;
-
поиск и изучение взаимосвязей и закономерностей;
-
создание, обучение и тестирование моделей, прогнозирующих поведение пользователей/клиентов и т. д.;
-
анализ полученных данных с помощью инструментов МО;
-
внедрение МО в производство;
-
поддержка внедренного МО и его адаптация под текущие потребности клиента.
В чем разница между аналитиком Big Data и Data Scientist?
Аналитик Big Data — специалист по статистике и анализу информации, однако он не владеет навыками машинного обучения и самостоятельно обрабатывает большие массивы данных. В обязанности датасаентиста также входит анализ информации, но его деятельность сконцентрирована вокруг разработки кода, позволяющего автоматизировать процесс работы с Big Data. В этом и кроется ключевое различие между аналитиком Big Data и Data Scientist. Если первый специалист отвечает за информационную и бизнес-составляющую проекта, то второй — за техническую часть (работу с языками программирования, вычислениями, машинным обучением и т. д.).
Что должен знать Data Scientist?
Data Scientist — это Эйнштейн мира IT. Он, как настоящий ученый, изучает информацию в разных контекстах, выявляет зависимость между данными и проверяет, как то или иное решение повлияет на бизнес. Поэтому важнейшие качества датасаентиста — аналитический склад ума и логическое мышление. Именно способность видеть логические связи помогает датасаентисту просчитать все возможные исходы, а его клиентам быть всегда на шаг впереди конкурентов.
К общим требованиям к датасаентисту относятся:
-
знание алгебры, математического анализа и математической логики. Data Scientist — одна из IT-специальностей, требующая хорошего математического бэкграунда;
-
умение собирать, обрабатывать и анализировать данные, проверять гипотезы и выстраивать взаимосвязь между полученными результатами;
-
умение работать со статистикой;
-
умение работать с МО и вычислительной техникой — основными инструментами, благодаря которым датасаентист построит модели;
-
опыт разработки ПО, а именно нейросетей, способных собрать и структурировать Big Data;
-
опыт работы с базами данных;
-
навыки визуализации информации.
Также датасаентисту пригодится:
-
знание основ Python — универсального языка программирования, с помощью которого строятся модели, проверяются гипотезы и выстраиваются связи между данными;
-
опыт работы с SQL пригодится в любой области для создания и изменения базы данных, а также поиска и сортировки информации;
-
умение работать с NoSQL и фреймворками Hadoop, Apache Spark и т. д.;
-
умение работать с BI-системами (системами интерактивной аналитики, например MS PowerBI или Tablea) для выстраивания отчетов и представления результатов работы в понятном для клиента формате;
-
построение A/B-тестов и интерпретация их результатов;
Где работает и сколько зарабатывает Data Scientist?
Профессия существует более 25 лет, но в России и мире сохраняется нехватка датасаентистов. Это связано с высоким порогом входа в профессию и высокой ответственностью, ведь ошибки Data Scientist могут сильно повлиять на бюджет компании. Несмотря на это, Data Scientist был и остается незаменимым специалистом в самых разных отраслях: торговле, финансах и страховании, сельском хозяйстве, IT и телекоммуникациях, медицине, в гуманитарных науках (в частности, социологии) и других сферах.
Зарплата начинающего датасайентиста стартует от 70 тыс. руб., а опытный специалист получает в 3-4 раза больше.
Как стать Data Scientist?
Если вы разработчик, знаете один-два языка программирования и знакомы с принципами машинного обучения, то за пару месяцев можно стать полноценным Data Scientist. Если вы не знакомы с разработкой или пришли не из IT, то пройти карьерный путь датасаентиста будет сложнее. Но вы имеете и имущество — глубокое понимание того, как работает ваша сфера, а следовательно, как и почему принимаются те или иные бизнес-решения.
Хотите начать карьеру Data Scientist? Освойте современные методы управления данными, Tableau, Cassandra, Apache Hadoop, Apache Spark, изучите машинное обучение и другие полезные инструменты на наших курсах. Регистрируйтесь и получите скидку 10%!