logo
Ещё

Data Engineer – обзор профессии

Big Data или Большие Данные давно перестали быть чем-то виртуальным и активно применяются в повседневной деятельности крупных компаний, органов власти, социальных сетей и любых видах деятельности, где используются большим массивы разнообразной информации. Одним из специалистов, занимающихся сбором и обработкой данных, выступает Data Engineer. Или дата-инженер в русскоязычном варианте. Рассмотрим специфику профессии, должностные обязанности специалиста, карьерные перспективы и способы получения специальности.

Должностные обязанности Data Engineer

Дата-инженер – это специалист в области Big Data, занимающийся сбором, хранением и обработкой информации, в том числе - с целью передачи для последующего анализа. Другими словами, Data Engineer организует, осуществляет и контролирует так называемые ETL-процессы. Аббревиатура образована из трех англоязычных терминов, касающихся информации и должностных обязанностей специалиста:

  • E – Extract – извлечение или сбор;
  • T – Transform – трансформация или обработка;
  • L – Load – загрузка.
Немаловажным нюансом выступает тот факт, что под информацией понимается не обычный набор данных в формате электронной таблицы, а их огромные массивы.

Именно они являются объектом Big Data, а в результате обработки и последующего анализа применяются для машинного обучения, прогнозирования, построения различных рекомендательных системы и других подобных целей.

Если рассматривать профессиональную деятельности дата-инженера более детально, она включает выполнение следующих функций:

  • разработка и настройка ETL-процессов;
  • создание схемы загрузки информации в базу данных;
  • автоматизация процессов сбора информации с перемещением в единую информационную систему;
  • импорт файлов из разных источников информации в корпоративное хранилище;
  • проверка собранных данных с последующей очисткой от недостоверной, ошибочной и повторяющейся информации;
  • разработка структуры, архитектуры и других параметров хранилища собранных сведений;
  • трансформация и передача данных для последующего анализа в заданном формате.

В качестве примера приведем должностные обязанности актуальной вакансии Middle/Senior Data Engineer в Sber AI Lab с сайта по трудоустройству hh.ru:

  • подготовка датасетов из больших массивов сырых данных и их анализ;
  • инженерная часть разработки новых наукоемких технологий;
  • взаимодействие с прикладными командами по их внедрению;
  • создание MVP;
  • организация инфраструктуры хранения и упорядочивания данных и связанной с ними информации.

К специалистам предъявляются серьезные требования, на примере той же вакансии:

  • Хорошее знание Python, опыт разработки от 1 года.
  • Высокая техническая грамотность (алгоритмический базис, основы архитектуры компьютеров).
  • Глубокое понимание основ machine learning или deep learning.
  • Опыт разработки сложных моделей ML/DL.
  • Знание C++ или Java будут плюсом.
  • Уверенное знание базовых вещей в теории вероятностей, математическом анализе, линейной алгебре.
  • Умение анализировать научную литературу, разбираться в незнакомой теме.
  • Желание заниматься инженерной и инфраструктурной стороной проблемы.
  • Scripting (bash/powershell) – поднимать и настраивать сервера в облачных средах часто приходится самостоятельно.
  • Опыт разработки под Linux среды (Ubuntu, RedHat) обязателен.
  • Знание систем контроля версий, опыт коллективный разработки. У нас Git (BitBucket внутри сети банка и GitHub в остальных случаях).

Используемые инструменты

Дата-инженерам доступен обширный набор инструментов, выбор которых определяется персональными предпочтениями и уровнем квалификации специалиста. Начинающий Data Engineer обязан уметь работать с языком программирования SQL и иметь минимальные навыки в разработке исходного кода.

По мере повышения уровня профессиональной подготовки к набору его умений добавляется создание ПО на Python, навыки практического использования Spark, еще лучше – в связке с другим эффективным и многофункциональным инструментом Scala.

Квалифицированный дата-инженер обычно применяет экосистему Hadoop и различные сервисы/ПО для потоковой обработки данных, а также создания алгоритмов их структурирования.

Сфера деятельности Big Data стремительно совершенствуется и развивается, а потому количество доступных профессионалам инструментов постоянно пополняется за счет новых разработок.

Отличия от Data Scientist

Большие Данные – сравнительной новое направление IT-индустрии. Поэтому еще нет четкого разграничения между должностными обязанностями разных специалистов. Более того, в различных компаниях или учреждениях они могут выполнять практически одинаковые функции, будучи представителями разных профессий.

Особенно часто происходит пересечение Data Engineer и Data Scientist. Несмотря на схожую сферу деятельности, они занимаются решением разных задач и используют для этого отличающийся инструментарий.

Дата-инженер выполняет начальные этапы работы с Большими данными – сбор, первичную обработку и загрузку в информационную систему. Дата-сайентист подключается на следующих стадиях и осуществляет следующие функции:

  • анализ собранных и структурированных данных;
  • интерпретация полученных результатов;
  • построение моделей для машинного обучения;
  • прогнозирование дальнейшего развития событий;
  • разработка нескольких возможных сценариев;
  • составление и предоставление отчетов руководству в различных наглядных форматах – от экспертного заключения до презентации, графика или диаграммы.

Обзор рынка труда – востребованность и зарплаты

IT-специалисты заслуженно входят в число наиболее востребованных как на отечественном, так и мировом рынке труда. Сказанное в полной мере справедливо в отношении Data Engineer. Начинающий дата-инженер – без опыта работы и сразу после учебных курсов/вуза – может рассчитывать на зарплату в размере 60-70 тысяч рублей. Нередко его принимают на испытательный срок.

Но при должном отношении к исполнению должностных обязанностей доходы специалиста увеличиваются в два-два с половиной раза уже течение 1-2 лет. Опытный профессионал с 3-5-летним стажем получает не меньше 180-250 тысяч рублей. Лучшие и наиболее добросовестные способны зарабатывать и 300, и 350 тысяч рублей. Фактически верхнего потолка уровня получаемых доходов, с учетом возможных премий по результатам работы, у грамотных и опытных Data Engineer попросту не существует.

Где учиться на дата-инженера?

Стать Data Engineer с нуля, не имея базовых знаний в программировании или других направлениях IT-сферы, достаточно проблематично. Еще одним важным нюансом становится быстрое изменение актуальной информации, навыков и знаний, необходимых для успешного ведения профессиональной деятельности. Именно поэтому обучение в вузе в течение 4-5 лет редко оказывается эффективным, так как за это время большая часть полученных сведении окажется не актуальной.

Намного больший КПД показывает учеба на образовательных онлайн-курсах, которые делятся на два вида – бесплатные и платные.

  • Бесплатные. Вариант возможен для новичков, которые хотят понять, что за профессия Дата инженер, какие у нее перспективы, что должен знать и уметь специалист. Получить профессиональные знания и начать зарабатывать таким образом сложно. К квалифицированным дата-инженерам предъявляются высокие требования, он должен владеть на ряду с базовыми знаниями и профессиональными инструментами.
  • Платные. Вариант имеет большую популярность, так как совмещает как разумную стоимость, так и высокую эффективность учебного процесса. Обучение на онлайн-курсах производится без отрыва от основной работы в удобное время, с распределенной нагрузкой. Курсы дают много практики, работать учат на реальных проектах. После окончания можно сразу устроиться на работу.

Дополнительным преимуществом платных курсов становится выдача удостоверения о получении специальности. Тем более – от известного образовательного центра.

Наличие документа становится важным конкурентным преимуществом специалиста в глазах работодателя.

Мы отобрали несколько популярных и престижных курсов, благодаря которым можно освоить профессию с нуля и начать зарабатывать.

Нетология. Курс «Дата-инженер».

Описание

Курс поможет с нуля до middle овладеть всеми важными для профессии навыками, автоматизировать работу с данными и разрабатывать архитектуру данных. Вы сможете претендовать на позицию инженера данных уже через 12 месяцев обучения.

Срок обучения

15 месяцев

Стоимость

120000 рублей

Чему учат

  • Определение потребностей и требований бизнес-пользователей.
  • Управление потоками данных.
  • Организация работы с большими данными.
  • Создание витрин данных.
  • Построение конвейеров обработки данных.
  • Работа с data lakes в облаках.
  • Настройка окружения и проведение обучения ML-моделей.

Преимущественные особенности

  • В течение всего периода обучения можно бесплатно использовать мощности платформы Yandex Cloud.
  • Больше практики, чем теории.
  • Есть рассрочка оплаты.

Skillbox. Курс «Профессия Data Scientist».

Описание

На курсе научитесь выдвигать и проверять гипотезы, помогать бизнесу принимать решения на основе данных. Создавать модели машинного обучения, тренировать нейросети для работы с текстом, видео или изображениями, строить поисковые и рекомендательные системы.

Срок обучения

18 месяцев

Стоимость

5431 рублей в месяц

Чему учат

Предлагают три варианта обучения:

  • Специалист по Machine Learning. Научитесь анализировать большие объемы информации, создавать модели для прогнозирования в бизнесе, медицине, промышленности.
  • Дата-инженер. Научитесь разворачивать программную инфраструктуру для организации сбора, обработки и хранения данных.
  • Аналитик данных. Научитесь помогать бизнесу принимать верные решения на основе данных. Собирать и анализировать информацию, находить аномалии в метриках.

Преимущественные особенности

  • Видео останутся доступны после окончания курса.
  • Можно попробовать бесплатно.
  • Гарантируют трудоустройство.

Geekbrains. Курс «Инженер-аналитик»

Описание

На программе научитесь собирать и обрабатывать данные, визуализировать и интерпретировать их. Получите знания по основам создания и развития процессов, функциональных и бизнес-моделей деятельности. Научитесь формировать метрики и показатели и работать с ними. Сможете превращать информацию в понятные отчеты и графики, делать выводы на ее основе, помогая специалистам и системам принимать решения на основе данных.

Срок обучения

12 месяцев

Стоимость

От 3167 рублей в месяц, при рассрочке 36 месяцев

Чему учат

Предлагают 5 вариантов специализаций:

  • Программист. Получите знания в программировании, погрузитесь в выбранную технологию, изучите конкретные стеки и разберетесь на практике, как они работают.
  • Тестировщик. Поймете тонкости тестирования в выбранной технологии, изучите необходимый инструментарий и разберетесь на практике как с ним работать.
  • Аналитик. Научитесь применять разные способы и методы аналитики в рамках выбранной технологии, поймете, какие инструменты в какой момент лучше использовать.
  • Проджект-менеджер. Научитесь управлять проектами в выбранном направлении, поймете, какие методы использовать, чтобы проекты выполнялись в срок, качественно и без нагрузки на команду.
  • Продакт-менеджер. Поймете весь цикл разработки продукта и научитесь запускать свои собственные в выбранной технологии.


Преимущественные особенности

  • Преподаватели практикующие специалисты.
  • Много практики.
  • Изучите не только базу, но и продвинутые инструменты.

Какими навыками и знаниями необходимо обладать?

Минимальный перечень навыков и знаний, необходимый для работы Data Engineer, был описан выше. Здесь же имеет смысл несколько расширить его за счет инструментов, которые подойдут и более квалифицированным специалистам, включая:

  • алгоритмы структурирования данных;
  • язык обработки запросов SQL, желательно – на профессиональном уровне;
  • несколько языков программирования (помимо обязательных Python и Java в связке со Scala);
  • инструменты для работы с Big Data (Hadoop, Kafka, Spark и другие);
  • одна или несколько облачных платформ, например, Amazon Web Services или MS Azure;
  • принципы построения распределенных систем;
  • разработка и управление конвейерами данных.

Возможный карьерный путь

В настоящее время дата-инженеры востребованы в самых разных сферах деятельности. Наиболее часто местом трудоустройства специалиста становятся:

  • органы государственной власти федерального или регионального уровня;
  • банки, страховые и иные финансовые организации или платежные онлайн-системы;
  • телекоммуникационные компании;
  • предприятия ритейла, онлайн-торговли и маркетплейсы;
  • специализированные компании IT-сферы, занимающиеся разработкой масштабных программных продуктов или предоставлением консалтинговых услуг;
  • крупные финансово-промышленные и промышленные холдинги.

Что почитать или посмотреть по теме?

  1. Грофф Джеймс Р., Вайнберг Пол Н. «SQL. Полное руководство».
  2. Лэм Чак «Hadoop в действии».
  3. Карау Холден, Конвински Энди «Изучаем Spark. Молниеносный анализ данных».
  4. Tom White «Hadoop «The Definitive Guide».
  5. Брендан Бернс «Распределенные системы. Паттерны проектирования».
  6. Видео ролик на YouTube «Кто такой Data Engineer?»
  7. Видео ролик на YouTube «30 глупых вопросов Data Engineer».
  8. Видео ролик на YouTube «Основные отличия Data Engineer, Data Scientist и Data Analyst».

FAQ

Кто такой Data Engineer?

Дата-инженер – специалист по работе с большими данными, которые занимается сбором, первичной обработкой и загрузкой информации в корпоративное хранилище данных.

В чем состоят его профессиональные обязанности?

Data Engineer выполняет обширный набор функций:

  • организация и автоматизация сбора данных;
  • проверка их на достоверность, повторы и ошибки;
  • трансформация для загрузки в информационную систему;
  • перемещение информации в хранилище данных;
  • передача сведений для дальнейшего анализа в заданном формате.

Как получить профессию дата-инженера?

Наиболее часто для этого проходят учебный курс. Обычно – на платной основе, так как бесплатное обучение редко оказывается эффективным.

Сколько получает специалист?

Начинающий Data Engineer вряд ли может рассчитывать на ЗП выше 60-70 тыс. рублей. После полутора-трех лет работы его доход возрастает в два-два с половиной раза. Опытные профессионалы получают до 250-350 тыс. рублей.

В каких сфера деятельности наиболее востребованы дата-инженеры?

В самых разных – от государственного управления до банков, страховых компаний и онлайн-торговли.

Насколько перспективна профессия Data Engineer?

Big Data – одно из самых перспективных направлений IT-сферы. Поэтому и дата-инженеры будут очень востребованы на рынке труда. Изменения подобных трендов в ближайшие 10-15 лет ждать не стоит.

Подведем итоги

  1. Data Engineer – специалист в области Big Data, задачей которого выступает сбор, первичная обработка и загрузка данных в хранилище.
  2. Дата-инженер выполняет обширный набор должностных обязанностей.
  3. Стать специалистом с нуля достаточно сложно. Поэтому на курсы обучения дата-инженеров обычно идут, имея базовые навыки в программировании и работе с базами данных.
  4. Обычный срок обучения составляет около года. При наличии серьезных начальных знаний – от полугода до 9-10 месяцев.
  5. Data Engineer – востребованная специальность. Квалифицированный специалист получает в районе 150 тыс. рублей. Настоящий профессионал – еще больше – вплоть до 250-350 тыс. руб.
  6. Big Data входит в число самых перспективных направлений IT-сферы. Поэтому спрос на дата-инженеров со стороны работодателей будет только возрастать. По крайней мере – в течение нескольких последующих лет.
Часто ищут