logo
Ещё

Data Engineer – обзор профессии

Big Data или Большие Данные давно перестали быть чем-то виртуальным и активно применяются в повседневной деятельности крупных компаний, органов власти, социальных сетей и любых видах деятельности, где используются большим массивы разнообразной информации. Одним из специалистов, занимающихся сбором и обработкой данных, выступает Data Engineer. Или дата-инженер в русскоязычном варианте. Рассмотрим специфику профессии, должностные обязанности специалиста, карьерные перспективы и способы получения специальности.

Должностные обязанности Data Engineer

Дата-инженер – это специалист в области Big Data, занимающийся сбором, хранением и обработкой информации, в том числе - с целью передачи для последующего анализа. Другими словами, Data Engineer организует, осуществляет и контролирует так называемые ETL-процессы. Аббревиатура образована из трех англоязычных терминов, касающихся информации и должностных обязанностей специалиста:

  • E – Extract – извлечение или сбор;
  • T – Transform – трансформация или обработка;
  • L – Load – загрузка.
Немаловажным нюансом выступает тот факт, что под информацией понимается не обычный набор данных в формате электронной таблицы, а их огромные массивы.

Именно они являются объектом Big Data, а в результате обработки и последующего анализа применяются для машинного обучения, прогнозирования, построения различных рекомендательных системы и других подобных целей.

Если рассматривать профессиональную деятельности дата-инженера более детально, она включает выполнение следующих функций:

  • разработка и настройка ETL-процессов;
  • создание схемы загрузки информации в базу данных;
  • автоматизация процессов сбора информации с перемещением в единую информационную систему;
  • импорт файлов из разных источников информации в корпоративное хранилище;
  • проверка собранных данных с последующей очисткой от недостоверной, ошибочной и повторяющейся информации;
  • разработка структуры, архитектуры и других параметров хранилища собранных сведений;
  • трансформация и передача данных для последующего анализа в заданном формате.

В качестве примера приведем должностные обязанности актуальной вакансии Middle/Senior Data Engineer в Sber AI Lab с сайта по трудоустройству hh.ru:

  • подготовка датасетов из больших массивов сырых данных и их анализ;
  • инженерная часть разработки новых наукоемких технологий;
  • взаимодействие с прикладными командами по их внедрению;
  • создание MVP;
  • организация инфраструктуры хранения и упорядочивания данных и связанной с ними информации.

К специалистам предъявляются серьезные требования, на примере той же вакансии:

  • Хорошее знание Python, опыт разработки от 1 года.
  • Высокая техническая грамотность (алгоритмический базис, основы архитектуры компьютеров).
  • Глубокое понимание основ machine learning или deep learning.
  • Опыт разработки сложных моделей ML/DL.
  • Знание C++ или Java будут плюсом.
  • Уверенное знание базовых вещей в теории вероятностей, математическом анализе, линейной алгебре.
  • Умение анализировать научную литературу, разбираться в незнакомой теме.
  • Желание заниматься инженерной и инфраструктурной стороной проблемы.
  • Scripting (bash/powershell) – поднимать и настраивать сервера в облачных средах часто приходится самостоятельно.
  • Опыт разработки под Linux среды (Ubuntu, RedHat) обязателен.
  • Знание систем контроля версий, опыт коллективный разработки. У нас Git (BitBucket внутри сети банка и GitHub в остальных случаях).

Используемые инструменты

Дата-инженерам доступен обширный набор инструментов, выбор которых определяется персональными предпочтениями и уровнем квалификации специалиста. Начинающий Data Engineer обязан уметь работать с языком программирования SQL и иметь минимальные навыки в разработке исходного кода.

По мере повышения уровня профессиональной подготовки к набору его умений добавляется создание ПО на Python, навыки практического использования Spark, еще лучше – в связке с другим эффективным и многофункциональным инструментом Scala.

Квалифицированный дата-инженер обычно применяет экосистему Hadoop и различные сервисы/ПО для потоковой обработки данных, а также создания алгоритмов их структурирования.

Сфера деятельности Big Data стремительно совершенствуется и развивается, а потому количество доступных профессионалам инструментов постоянно пополняется за счет новых разработок.

Отличия от Data Scientist

Большие Данные – сравнительной новое направление IT-индустрии. Поэтому еще нет четкого разграничения между должностными обязанностями разных специалистов. Более того, в различных компаниях или учреждениях они могут выполнять практически одинаковые функции, будучи представителями разных профессий.

Особенно часто происходит пересечение Data Engineer и Data Scientist. Несмотря на схожую сферу деятельности, они занимаются решением разных задач и используют для этого отличающийся инструментарий.

Дата-инженер выполняет начальные этапы работы с Большими данными – сбор, первичную обработку и загрузку в информационную систему. Дата-сайентист подключается на следующих стадиях и осуществляет следующие функции:

  • анализ собранных и структурированных данных;
  • интерпретация полученных результатов;
  • построение моделей для машинного обучения;
  • прогнозирование дальнейшего развития событий;
  • разработка нескольких возможных сценариев;
  • составление и предоставление отчетов руководству в различных наглядных форматах – от экспертного заключения до презентации, графика или диаграммы.

Обзор рынка труда – востребованность и зарплаты

IT-специалисты заслуженно входят в число наиболее востребованных как на отечественном, так и мировом рынке труда. Сказанное в полной мере справедливо в отношении Data Engineer. Начинающий дата-инженер – без опыта работы и сразу после учебных курсов/вуза – может рассчитывать на зарплату в размере 60-70 тысяч рублей. Нередко его принимают на испытательный срок.

Но при должном отношении к исполнению должностных обязанностей доходы специалиста увеличиваются в два-два с половиной раза уже течение 1-2 лет. Опытный профессионал с 3-5-летним стажем получает не меньше 180-250 тысяч рублей. Лучшие и наиболее добросовестные способны зарабатывать и 300, и 350 тысяч рублей. Фактически верхнего потолка уровня получаемых доходов, с учетом возможных премий по результатам работы, у грамотных и опытных Data Engineer попросту не существует.

Где учиться на дата-инженера?

Стать Data Engineer с нуля, не имея базовых знаний в программировании или других направлениях IT-сферы, достаточно проблематично. Еще одним важным нюансом становится быстрое изменение актуальной информации, навыков и знаний, необходимых для успешного ведения профессиональной деятельности. Именно поэтому обучение в вузе в течение 4-5 лет редко оказывается эффективным, так как за это время большая часть полученных сведении окажется не актуальной.

Намного больший КПД показывает учеба на образовательных онлайн-курсах, которые делятся на два вида – бесплатные и платные.

  • Бесплатные. Вариант возможен для новичков, которые хотят понять, что за профессия Дата инженер, какие у нее перспективы, что должен знать и уметь специалист. Получить профессиональные знания и начать зарабатывать таким образом сложно. К квалифицированным дата-инженерам предъявляются высокие требования, он должен владеть на ряду с базовыми знаниями и профессиональными инструментами.
  • Платные. Вариант имеет большую популярность, так как совмещает как разумную стоимость, так и высокую эффективность учебного процесса. Обучение на онлайн-курсах производится без отрыва от основной работы в удобное время, с распределенной нагрузкой. Курсы дают много практики, работать учат на реальных проектах. После окончания можно сразу устроиться на работу.

Дополнительным преимуществом платных курсов становится выдача удостоверения о получении специальности. Тем более – от известного образовательного центра.

Наличие документа становится важным конкурентным преимуществом специалиста в глазах работодателя.

Мы отобрали несколько популярных и престижных курсов, благодаря которым можно освоить профессию с нуля и начать зарабатывать.

Курс «SQL с 0 для анализа данных» от ProductStar

Школа

ProductStar

Стоимость

45 540 руб

Цена в рассрочку

2 108 руб/мес

Длительность курса

1.5 месяц

Программа трудоустройства

Отсутствует

Формат

Запись лекций

Курс «Аналитик данных: расширенный курс» от Нетология

Школа

Нетология

Стоимость

153 000 руб

Цена в рассрочку

4 472 руб/мес

Длительность курса

11 месяцев

Программа трудоустройства

Есть

Формат

Запись лекций, Онлайн занятия с преподавателем

Курс «Аналитик данных» от Eduson Academy

Школа

Eduson Academy

Стоимость

85 291 руб

Цена в рассрочку

3 553 руб/мес

Длительность курса

6 месяцев

Программа трудоустройства

Отсутствует

Формат

Запись лекций

Какими навыками и знаниями необходимо обладать?

Минимальный перечень навыков и знаний, необходимый для работы Data Engineer, был описан выше. Здесь же имеет смысл несколько расширить его за счет инструментов, которые подойдут и более квалифицированным специалистам, включая:

  • алгоритмы структурирования данных;
  • язык обработки запросов SQL, желательно – на профессиональном уровне;
  • несколько языков программирования (помимо обязательных Python и Java в связке со Scala);
  • инструменты для работы с Big Data (Hadoop, Kafka, Spark и другие);
  • одна или несколько облачных платформ, например, Amazon Web Services или MS Azure;
  • принципы построения распределенных систем;
  • разработка и управление конвейерами данных.

Возможный карьерный путь

В настоящее время дата-инженеры востребованы в самых разных сферах деятельности. Наиболее часто местом трудоустройства специалиста становятся:

  • органы государственной власти федерального или регионального уровня;
  • банки, страховые и иные финансовые организации или платежные онлайн-системы;
  • телекоммуникационные компании;
  • предприятия ритейла, онлайн-торговли и маркетплейсы;
  • специализированные компании IT-сферы, занимающиеся разработкой масштабных программных продуктов или предоставлением консалтинговых услуг;
  • крупные финансово-промышленные и промышленные холдинги.

Что почитать или посмотреть по теме?

  1. Грофф Джеймс Р., Вайнберг Пол Н. «SQL. Полное руководство».
  2. Лэм Чак «Hadoop в действии».
  3. Карау Холден, Конвински Энди «Изучаем Spark. Молниеносный анализ данных».
  4. Tom White «Hadoop «The Definitive Guide».
  5. Брендан Бернс «Распределенные системы. Паттерны проектирования».

FAQ

Кто такой Data Engineer?

Дата-инженер – специалист по работе с большими данными, которые занимается сбором, первичной обработкой и загрузкой информации в корпоративное хранилище данных.

В чем состоят его профессиональные обязанности?

Data Engineer выполняет обширный набор функций:

  • организация и автоматизация сбора данных;
  • проверка их на достоверность, повторы и ошибки;
  • трансформация для загрузки в информационную систему;
  • перемещение информации в хранилище данных;
  • передача сведений для дальнейшего анализа в заданном формате.

Как получить профессию дата-инженера?

Наиболее часто для этого проходят учебный курс. Обычно – на платной основе, так как бесплатное обучение редко оказывается эффективным.

Сколько получает специалист?

Начинающий Data Engineer вряд ли может рассчитывать на ЗП выше 60-70 тыс. рублей. После полутора-трех лет работы его доход возрастает в два-два с половиной раза. Опытные профессионалы получают до 250-350 тыс. рублей.

В каких сфера деятельности наиболее востребованы дата-инженеры?

В самых разных – от государственного управления до банков, страховых компаний и онлайн-торговли.

Насколько перспективна профессия Data Engineer?

Big Data – одно из самых перспективных направлений IT-сферы. Поэтому и дата-инженеры будут очень востребованы на рынке труда. Изменения подобных трендов в ближайшие 10-15 лет ждать не стоит.

Подведем итоги

  1. Data Engineer – специалист в области Big Data, задачей которого выступает сбор, первичная обработка и загрузка данных в хранилище.
  2. Дата-инженер выполняет обширный набор должностных обязанностей.
  3. Стать специалистом с нуля достаточно сложно. Поэтому на курсы обучения дата-инженеров обычно идут, имея базовые навыки в программировании и работе с базами данных.
  4. Обычный срок обучения составляет около года. При наличии серьезных начальных знаний – от полугода до 9-10 месяцев.
  5. Data Engineer – востребованная специальность. Квалифицированный специалист получает в районе 150 тыс. рублей. Настоящий профессионал – еще больше – вплоть до 250-350 тыс. руб.
  6. Big Data входит в число самых перспективных направлений IT-сферы. Поэтому спрос на дата-инженеров со стороны работодателей будет только возрастать. По крайней мере – в течение нескольких последующих лет.
Часто ищут