
Что такое Big Data?
Понятие “Big Data” было введено в 2008 году профессором Школы информации Беркли и директором Коалиции сетевой информации (CNI) Клиффордом Линчем. Именно в это время социальные сети начали обретать популярность, а количество контента в Интернете возросло во много раз.
Big Data — это огромная по объему:
-
структурированная информация с фиксированной формой, например, таблица с бюджетом мероприятия;
-
полуструктурированная, имеющая форму, но не хранящаяся в виде таблицы;
-
неструктурированная информация — “сырые” данные, расположенные в произвольной форме, например, результаты поиска Яндекс.
Хранить и обрабатывать Big Data с помощью традиционных подходов невозможно, для этого используют машинное обучение (МО), оптимизирующее данные во всех сферах нашей жизни. МО позволяет анализировать, масштабировать и хранить информацию, при этом не перегружая оперативную память устройства. Для работы с МО нужен специально обученный человек — аналитик Big Data.
Кто такой аналитик Big Data?
Аналитик Big Data (аналитик данных или Data Scientist) — это специалист, который может работать в любой сфере (от текстильной промышленности до производства космического оборудования) и с любыми доменными областями. Его главная задача — отвечать на вопросы бизнеса, основываясь на данных. Другими словами, Data Scientist изучает, собирает и извлекает из огромного количества данных полезную информацию (инсайты), которую бизнес может использовать для достижения поставленных целей. Также в его обязанности входит:
-
сбор данных и их дальнейшая визуализация;
-
поиск и анализ закономерностей;
-
использование этих закономерностей для улучшения бизнес-процессов и снижения рисков;
-
подготовка отчетов.
Что должен знать аналитик данных?
Датасайентисту пригодится:
-
знание Python — универсального языка программирования, с помощью которого строяться модели, проверяются гипотезы и выстраиваются связи между данными. Если вы захотите развиваться в области разработки, то знание Python поможет в легком старте;
-
опыт работы с SQL пригодится в любой области для создания и изменения базы данных, а также поиска и сортировки информации;
-
умение работать с NoSQL и фреймворками Hadoop, Spark и т. д.;
-
понимание ключевых концепций машинного обучения для нахождения закономерностей на основе подготовленных баз данных, оценки качества уже существующих моделей МО и работы с нейросетями;
-
умение работать с BI-системами (системами интерактивной аналитики, например MS PowerBI или Tablea) для выстраивания отчетов и представления результатов работы в понятном для клиента формате;
-
построение A/B-тестов и интерпретация их результатов;
-
алгебра, математический анализ и математическая логика. Data Scientist — одна из специальностей, требующая хорошего математического бэкграунда. Именно математика поможет вам быстрее освоить МО и не запутаться в бесконечном массиве информации;
-
умение работать с Git и командной строки Linux сделают ваше взаимодействие с командой комфортнее.
Сколько зарабатывает аналитик Big Data?
Профессия Data Scientist существует больше 25 лет, но в мире сохраняется нехватка специалистов этой области. Зарплата начинающего дата-аналитика стартует от 70 тыс. руб., а опытный специалист получает в 3-4 раза больше. Но чтобы стать Big Data Senior нужно много учиться.
Хотите начать карьеру в Big Data? Освойте современные методы управления данными, Tableau, Cassandra, Apache Hadoop, Apache Spark и другие полезные инструменты на наших курсах. Регистрируйтесь и получите скидку 10%!