Big Data или Большие Данные давно перестали быть чем-то виртуальным и активно применяются в повседневной деятельности крупных компаний, органов власти, социальных сетей и любых видах деятельности, где используются большим массивы разнообразной информации. Одним из специалистов, занимающихся сбором и обработкой данных, выступает Data Engineer. Или дата-инженер в русскоязычном варианте. Рассмотрим специфику профессии, должностные обязанности специалиста, карьерные перспективы и способы получения специальности.
Должностные обязанности Data Engineer
Отличия от Data Scientist
Обзор рынка труда – востребованность и зарплаты
Где учиться на дата-инженера?
Какими навыками и знаниями необходимо обладать?
Что почитать или посмотреть по теме?

Должностные обязанности Data Engineer
Дата-инженер – это специалист в области Big Data, занимающийся сбором, хранением и обработкой информации, в том числе - с целью передачи для последующего анализа. Другими словами, Data Engineer организует, осуществляет и контролирует так называемые ETL-процессы. Аббревиатура образована из трех англоязычных терминов, касающихся информации и должностных обязанностей специалиста:
- E – Extract – извлечение или сбор;
- T – Transform – трансформация или обработка;
- L – Load – загрузка.
Немаловажным нюансом выступает тот факт, что под информацией понимается не обычный набор данных в формате электронной таблицы, а их огромные массивы.
Именно они являются объектом Big Data, а в результате обработки и последующего анализа применяются для машинного обучения, прогнозирования, построения различных рекомендательных системы и других подобных целей.
Если рассматривать профессиональную деятельности дата-инженера более детально, она включает выполнение следующих функций:
- разработка и настройка ETL-процессов;
- создание схемы загрузки информации в базу данных;
- автоматизация процессов сбора информации с перемещением в единую информационную систему;
- импорт файлов из разных источников информации в корпоративное хранилище;
- проверка собранных данных с последующей очисткой от недостоверной, ошибочной и повторяющейся информации;
- разработка структуры, архитектуры и других параметров хранилища собранных сведений;
- трансформация и передача данных для последующего анализа в заданном формате.
В качестве примера приведем должностные обязанности актуальной вакансии Middle/Senior Data Engineer в Sber AI Lab с сайта по трудоустройству hh.ru:
- подготовка датасетов из больших массивов сырых данных и их анализ;
- инженерная часть разработки новых наукоемких технологий;
- взаимодействие с прикладными командами по их внедрению;
- создание MVP;
- организация инфраструктуры хранения и упорядочивания данных и связанной с ними информации.
К специалистам предъявляются серьезные требования, на примере той же вакансии:
- Хорошее знание Python, опыт разработки от 1 года.
- Высокая техническая грамотность (алгоритмический базис, основы архитектуры компьютеров).
- Глубокое понимание основ machine learning или deep learning.
- Опыт разработки сложных моделей ML/DL.
- Знание C++ или Java будут плюсом.
- Уверенное знание базовых вещей в теории вероятностей, математическом анализе, линейной алгебре.
- Умение анализировать научную литературу, разбираться в незнакомой теме.
- Желание заниматься инженерной и инфраструктурной стороной проблемы.
- Scripting (bash/powershell) – поднимать и настраивать сервера в облачных средах часто приходится самостоятельно.
- Опыт разработки под Linux среды (Ubuntu, RedHat) обязателен.
- Знание систем контроля версий, опыт коллективный разработки. У нас Git (BitBucket внутри сети банка и GitHub в остальных случаях).
Используемые инструменты
Дата-инженерам доступен обширный набор инструментов, выбор которых определяется персональными предпочтениями и уровнем квалификации специалиста. Начинающий Data Engineer обязан уметь работать с языком программирования SQL и иметь минимальные навыки в разработке исходного кода.
По мере повышения уровня профессиональной подготовки к набору его умений добавляется создание ПО на Python, навыки практического использования Spark, еще лучше – в связке с другим эффективным и многофункциональным инструментом Scala.
Квалифицированный дата-инженер обычно применяет экосистему Hadoop и различные сервисы/ПО для потоковой обработки данных, а также создания алгоритмов их структурирования.
Сфера деятельности Big Data стремительно совершенствуется и развивается, а потому количество доступных профессионалам инструментов постоянно пополняется за счет новых разработок.
Отличия от Data Scientist
Большие Данные – сравнительной новое направление IT-индустрии. Поэтому еще нет четкого разграничения между должностными обязанностями разных специалистов. Более того, в различных компаниях или учреждениях они могут выполнять практически одинаковые функции, будучи представителями разных профессий.
Особенно часто происходит пересечение Data Engineer и Data Scientist. Несмотря на схожую сферу деятельности, они занимаются решением разных задач и используют для этого отличающийся инструментарий.
Дата-инженер выполняет начальные этапы работы с Большими данными – сбор, первичную обработку и загрузку в информационную систему. Дата-сайентист подключается на следующих стадиях и осуществляет следующие функции:
- анализ собранных и структурированных данных;
- интерпретация полученных результатов;
- построение моделей для машинного обучения;
- прогнозирование дальнейшего развития событий;
- разработка нескольких возможных сценариев;
- составление и предоставление отчетов руководству в различных наглядных форматах – от экспертного заключения до презентации, графика или диаграммы.
Обзор рынка труда – востребованность и зарплаты
IT-специалисты заслуженно входят в число наиболее востребованных как на отечественном, так и мировом рынке труда. Сказанное в полной мере справедливо в отношении Data Engineer. Начинающий дата-инженер – без опыта работы и сразу после учебных курсов/вуза – может рассчитывать на зарплату в размере 60-70 тысяч рублей. Нередко его принимают на испытательный срок.
Но при должном отношении к исполнению должностных обязанностей доходы специалиста увеличиваются в два-два с половиной раза уже течение 1-2 лет. Опытный профессионал с 3-5-летним стажем получает не меньше 180-250 тысяч рублей. Лучшие и наиболее добросовестные способны зарабатывать и 300, и 350 тысяч рублей. Фактически верхнего потолка уровня получаемых доходов, с учетом возможных премий по результатам работы, у грамотных и опытных Data Engineer попросту не существует.

Где учиться на дата-инженера?
Стать Data Engineer с нуля, не имея базовых знаний в программировании или других направлениях IT-сферы, достаточно проблематично. Еще одним важным нюансом становится быстрое изменение актуальной информации, навыков и знаний, необходимых для успешного ведения профессиональной деятельности. Именно поэтому обучение в вузе в течение 4-5 лет редко оказывается эффективным, так как за это время большая часть полученных сведении окажется не актуальной.
Намного больший КПД показывает учеба на образовательных онлайн-курсах, которые делятся на два вида – бесплатные и платные.
- Бесплатные. Вариант возможен для новичков, которые хотят понять, что за профессия Дата инженер, какие у нее перспективы, что должен знать и уметь специалист. Получить профессиональные знания и начать зарабатывать таким образом сложно. К квалифицированным дата-инженерам предъявляются высокие требования, он должен владеть на ряду с базовыми знаниями и профессиональными инструментами.
- Платные. Вариант имеет большую популярность, так как совмещает как разумную стоимость, так и высокую эффективность учебного процесса. Обучение на онлайн-курсах производится без отрыва от основной работы в удобное время, с распределенной нагрузкой. Курсы дают много практики, работать учат на реальных проектах. После окончания можно сразу устроиться на работу.
Дополнительным преимуществом платных курсов становится выдача удостоверения о получении специальности. Тем более – от известного образовательного центра.
Наличие документа становится важным конкурентным преимуществом специалиста в глазах работодателя.
Мы отобрали несколько популярных и престижных курсов, благодаря которым можно освоить профессию с нуля и начать зарабатывать.
Описание | Курс поможет с нуля до middle овладеть всеми важными для профессии навыками, автоматизировать работу с данными и разрабатывать архитектуру данных. Вы сможете претендовать на позицию инженера данных уже через 12 месяцев обучения. |
Срок обучения | 15 месяцев |
Стоимость | 120000 рублей |
Чему учат | - Определение потребностей и требований бизнес-пользователей.
- Управление потоками данных.
- Организация работы с большими данными.
- Создание витрин данных.
- Построение конвейеров обработки данных.
- Работа с data lakes в облаках.
- Настройка окружения и проведение обучения ML-моделей.
|
Преимущественные особенности | - В течение всего периода обучения можно бесплатно использовать мощности платформы Yandex Cloud.
- Больше практики, чем теории.
- Есть рассрочка оплаты.
|
Описание | На курсе научитесь выдвигать и проверять гипотезы, помогать бизнесу принимать решения на основе данных. Создавать модели машинного обучения, тренировать нейросети для работы с текстом, видео или изображениями, строить поисковые и рекомендательные системы. |
Срок обучения | 18 месяцев |
Стоимость | 5431 рублей в месяц |
Чему учат | Предлагают три варианта обучения: - Специалист по Machine Learning. Научитесь анализировать большие объемы информации, создавать модели для прогнозирования в бизнесе, медицине, промышленности.
- Дата-инженер. Научитесь разворачивать программную инфраструктуру для организации сбора, обработки и хранения данных.
- Аналитик данных. Научитесь помогать бизнесу принимать верные решения на основе данных. Собирать и анализировать информацию, находить аномалии в метриках.
|
Преимущественные особенности | - Видео останутся доступны после окончания курса.
- Можно попробовать бесплатно.
- Гарантируют трудоустройство.
|
Описание | На программе научитесь собирать и обрабатывать данные, визуализировать и интерпретировать их. Получите знания по основам создания и развития процессов, функциональных и бизнес-моделей деятельности. Научитесь формировать метрики и показатели и работать с ними. Сможете превращать информацию в понятные отчеты и графики, делать выводы на ее основе, помогая специалистам и системам принимать решения на основе данных. |
Срок обучения | 12 месяцев |
Стоимость | От 3167 рублей в месяц, при рассрочке 36 месяцев |
Чему учат | Предлагают 5 вариантов специализаций: - Программист. Получите знания в программировании, погрузитесь в выбранную технологию, изучите конкретные стеки и разберетесь на практике, как они работают.
- Тестировщик. Поймете тонкости тестирования в выбранной технологии, изучите необходимый инструментарий и разберетесь на практике как с ним работать.
- Аналитик. Научитесь применять разные способы и методы аналитики в рамках выбранной технологии, поймете, какие инструменты в какой момент лучше использовать.
- Проджект-менеджер. Научитесь управлять проектами в выбранном направлении, поймете, какие методы использовать, чтобы проекты выполнялись в срок, качественно и без нагрузки на команду.
- Продакт-менеджер. Поймете весь цикл разработки продукта и научитесь запускать свои собственные в выбранной технологии.
|
Преимущественные особенности | - Преподаватели практикующие специалисты.
- Много практики.
- Изучите не только базу, но и продвинутые инструменты.
|
Какими навыками и знаниями необходимо обладать?
Минимальный перечень навыков и знаний, необходимый для работы Data Engineer, был описан выше. Здесь же имеет смысл несколько расширить его за счет инструментов, которые подойдут и более квалифицированным специалистам, включая:
- алгоритмы структурирования данных;
- язык обработки запросов SQL, желательно – на профессиональном уровне;
- несколько языков программирования (помимо обязательных Python и Java в связке со Scala);
- инструменты для работы с Big Data (Hadoop, Kafka, Spark и другие);
- одна или несколько облачных платформ, например, Amazon Web Services или MS Azure;
- принципы построения распределенных систем;
- разработка и управление конвейерами данных.
Возможный карьерный путь
В настоящее время дата-инженеры востребованы в самых разных сферах деятельности. Наиболее часто местом трудоустройства специалиста становятся:
- органы государственной власти федерального или регионального уровня;
- банки, страховые и иные финансовые организации или платежные онлайн-системы;
- телекоммуникационные компании;
- предприятия ритейла, онлайн-торговли и маркетплейсы;
- специализированные компании IT-сферы, занимающиеся разработкой масштабных программных продуктов или предоставлением консалтинговых услуг;
- крупные финансово-промышленные и промышленные холдинги.
Что почитать или посмотреть по теме?
- Грофф Джеймс Р., Вайнберг Пол Н. «SQL. Полное руководство».
- Лэм Чак «Hadoop в действии».
- Карау Холден, Конвински Энди «Изучаем Spark. Молниеносный анализ данных».
- Tom White «Hadoop «The Definitive Guide».
- Брендан Бернс «Распределенные системы. Паттерны проектирования».
- Видео ролик на YouTube «Кто такой Data Engineer?»
- Видео ролик на YouTube «30 глупых вопросов Data Engineer».
- Видео ролик на YouTube «Основные отличия Data Engineer, Data Scientist и Data Analyst».
FAQ
Кто такой Data Engineer?
Дата-инженер – специалист по работе с большими данными, которые занимается сбором, первичной обработкой и загрузкой информации в корпоративное хранилище данных.
В чем состоят его профессиональные обязанности?
Data Engineer выполняет обширный набор функций:
- организация и автоматизация сбора данных;
- проверка их на достоверность, повторы и ошибки;
- трансформация для загрузки в информационную систему;
- перемещение информации в хранилище данных;
- передача сведений для дальнейшего анализа в заданном формате.
Как получить профессию дата-инженера?
Наиболее часто для этого проходят учебный курс. Обычно – на платной основе, так как бесплатное обучение редко оказывается эффективным.
Сколько получает специалист?
Начинающий Data Engineer вряд ли может рассчитывать на ЗП выше 60-70 тыс. рублей. После полутора-трех лет работы его доход возрастает в два-два с половиной раза. Опытные профессионалы получают до 250-350 тыс. рублей.
В каких сфера деятельности наиболее востребованы дата-инженеры?
В самых разных – от государственного управления до банков, страховых компаний и онлайн-торговли.
Насколько перспективна профессия Data Engineer?
Big Data – одно из самых перспективных направлений IT-сферы. Поэтому и дата-инженеры будут очень востребованы на рынке труда. Изменения подобных трендов в ближайшие 10-15 лет ждать не стоит.
Подведем итоги
- Data Engineer – специалист в области Big Data, задачей которого выступает сбор, первичная обработка и загрузка данных в хранилище.
- Дата-инженер выполняет обширный набор должностных обязанностей.
- Стать специалистом с нуля достаточно сложно. Поэтому на курсы обучения дата-инженеров обычно идут, имея базовые навыки в программировании и работе с базами данных.
- Обычный срок обучения составляет около года. При наличии серьезных начальных знаний – от полугода до 9-10 месяцев.
- Data Engineer – востребованная специальность. Квалифицированный специалист получает в районе 150 тыс. рублей. Настоящий профессионал – еще больше – вплоть до 250-350 тыс. руб.
- Big Data входит в число самых перспективных направлений IT-сферы. Поэтому спрос на дата-инженеров со стороны работодателей будет только возрастать. По крайней мере – в течение нескольких последующих лет.