Стремительное развитие информационных технологий привело к резкому увеличению количества разнообразных данных. Постепенно они стали настолько объемными и структурированными, что возник новые термин – Big Data или, в русскоязычном варианте, большие данные. Понятие постепенно стало настолько актуальным, что было перенесено в языки различных государства попросту без перевода. Россия не стала исключением. Сегодня Big Data – это одно из ключевых направлений IT-индустрии, заслуживающее более детального описания.
Дословный перевод Big Data приводится выше. Но он не позволяет получить объективного представления о феномене больших данных, имеющем социально-экономический характер. Намного правильнее понимать под Биг Датой технологию обработки и анализа огромных массивов информационных данных, которая из чисто научной дисциплины очень быстро стала прикладной.
Существует несколько альтернативных определений, но для лучшего понимания термина целесообразно начать с истории его возникновения.
Установить дату первого использования понятия Big Data, вернее – момент превращения обычного словосочетания в профессиональный термин в IT-сфере, попросту невозможно. Активное его применение началось в 2011 году. Еще через год существующие базы данных приобрели огромные масштабы, что потребовало создания отдельного направления информационных и компьютерных технологий.
В 2014 году в вузах появились первые образовательные программы подготовки специалистов в сфере Big Data. Постепенно их количество выросло, а результатами разработок выпускников и освоивших профессию самостоятельно стали пользоваться и крупные корпорации, и государственные органы.
Сегодня термин Bigdata в различных вариантах написания используется практически повсеместно, причем нередко с совершенно разным значением. Можно выделить несколько наиболее частых определения Big Data, к числу которых относятся такие:
С некоторой долей условности можно обобщить все перечисленные ранее определения и дать более общее, сформировавшееся исторически. В соответствии с ним, Big Data – это комплекс научно обоснованных подходов, методов и средств анализа больших массивов данных, как структурированных, так и неструктурированных, результаты которого используются в практической деятельности человека. Характерной особенностью Биг Даты выступает постоянное увеличение объемов обрабатываемой информации, поступающей из самых разных источников.
Анализ информации в рамках Big Data заметно отличается от обычных СУБД, электронных таблиц и других подобных технологий. Можно выделить три принципиально важных принципа обработки больших данных, включая:
Существуют и другие принципы работы с огромными массивами информации, различающиеся в зависимости от конкретного подхода к анализу данных. Но три перечисленных в списке являются обязательными и применяются практически всегда.
Выделяют несколько наиболее распространенных базовых технологий обработки больших данных. В их числе: NoSQL, MapReduce, Hadoop и R. Их дополняют аппаратно-программные комплексы, использующие готовые технологические решения, требующие исключительно небольших настроек или незначительного конфигурирования системы.
И технологии, и аппаратно-программные комплексы быстро совершенствуются и пополняются новыми разработками. Такая тенденция кажется вполне логичной, если учесть активное и постоянное развитие Big Data.
Отдельного упоминания заслуживают четыре разных аналитических методики, которые применяются сегодня особенно часто. В их числе следующие разновидности аналитики:
Диагностические и описательные типы аналитики могут объединяться. В таблице приведены этапы повышения зрелости аналитики.
Хранятся данные в специальных дата-центрах, которые оборудованы самыми мощными серверами.
Где собирают данные:
К данным обеспечен мгновенный допуск с помощью современных вычислительных систем.
Области применения Big Data разнообразны. Технология применяется там, где можно собрать и обработать нужные массивы информации.
Сферы применения:
Технологии Big Data активно применяются крупными корпорациями. Для подтверждения этого утверждения достаточно привести два примера из отечественной практики.
Компания «Билайн» активно собирает открытые данные о своих многочисленных абонентов. На основе их анализа разрабатываются различные аналитические продукты. Также средства и методы Биг Даты применяются для сегментирования собранных базы данных и надежной защиты конфиденциальной информации о клиентах. Например, от воздействия вирусов или действий мошенников.
Еще один пример касается деятельности СберБанка. Еще в 2014 году на основании технологий обработки больших данных была разработана АС САФИ, позволяющая анализировать фото клиентов банка для идентификации. Результат ее внедрения оказался крайне эффективным – количество случаев мошенничества сократилось на порядок, то есть в 10 раз.
Изначально были выделены три главных характеристики, определяющих свойства больших данных. В их числе:
В настоящее время часто применяются еще три характеристики больших данных, включая:
В настоящее время технологии анализа больших данных, в том числе – с применением искусственного интеллекта, применяются в самых разных видах человеческой деятельности. К их числу относятся:
Необходимость Big Data в бизнесе связана повышением прозрачности технологических процессов, изучением и прогнозированием спроса на различные товары. С помощью инструментов больших данных повышается прозрачность промышленных процессов, появляется возможность внедрять «предиктивное производство», позволяющее более точно прогнозировать спрос на продукцию. Технологию применяют более 75% компаний розничной торговли.
Вот несколько примеров:
Технология Big Data позволяет оперативно произвести анализ платежеспособности заемщика при рассмотрении заявки на кредит. Технологии применяют Сбербанк, Альфа-Банк, УБРиР и т. д.
Правительство принимает глобальные решения на основе анализа больших данных в таких важных областях, как здравоохранение, экономическое регулирование, обеспечение безопасности, борьба с преступностью, реагирование на ЧС.
Примеры:
Получение и анализ обширных объемов информации с различных устройств, например фитнес-браслетов или других исследовательских приборов, становится основанием для назначения точного лечения.
И сетевая, и онлайн-торговля требуют активного изучения потенциальных покупателей, что является обязательным условием персонализации ассортимента и оперативной доставки нужных клиентам товаров, возможности предоставления скидок и индивидуальных предложений.
Приведенный перечень далеко не исчерпывающий.
На практике в той или иной форме анализ больших данных используется практически повсеместно – начиная с социологических маркетинговых опросов и заканчивая функционированием социальных сетей.
Список специальностей в сфере Big Data еще формируется. Дело в том, что различия между ними в значительной степени являются условными. К тому же очень часто работа с большими данными дополняет другие IT-профессии. По состоянию на сегодняшний день можно выделить несколько наиболее востребованных специальностей Big Data:
Конкретные должностные обязанности каждого зависят от специфики предприятия, где он трудится, а также поставленных руководителем задач.
В общем случае деятельность всех непосредственно касается с анализом данных, а затем прогнозированием и построением моделей на основании полученных результатов.
Получение специальности аналитика или другого специалиста по работе с большими данными обычно происходит на образовательных курсах. Они бывают как платными, так и бесплатными – со всеми вытекающими из этого плюсами и минусами. В подавляющем большинстве случаев перед обучением на Big Data слушатель уже имеет определенные знания и навыки в IT-отрасли. Хотя возможность стать аналитиком данных с нуля также существует, но потребует больше времени.
Мы отобрали несколько курсов, обучающих профессии аналитика данных, после окончания которых вы научитесь решать бизнес-задачи, работать с различными инструментами анализа, выдвигать гипотезы.
Описание |
Курс поможет с нуля овладеть всеми важными для аналитика данных навыками, научит мыслить абстрактно, видеть за метриками и показателями смысл, находить взаимосвязи и строить гипотезы. |
Срок обучения |
6 месяцев |
Стоимость |
109500 рублей |
Чему учат |
|
Преимущественные особенности |
|
Описание |
Вы изучите инструменты и навыки уровня junior, пройдя через все этапы работы над аналитическим проектом: от постановки задачи до сбора и очистки данных, интерпретации, визуализации и подготовки рекомендаций. |
Срок обучения |
6 месяцев |
Стоимость |
2466–9616 рублей в месяц при рассрочке на 36 месяцев, в зависимости от выбранного тарифа |
Чему учат |
|
Преимущественные особенности |
|
Описание |
Вы научитесь формулировать, проверять гипотезы и делать выводы из исследований, освоите основы математической статистики. Изучите специальные программы для работы с данными: Excel, Power BI. Получите знания основ экономики и маркетинга — чтобы понимать, как одни бизнес-процессы могут влиять на другие. |
Срок обучения |
5 месяцев |
Стоимость |
5200–9337 рублей в месяц при рассрочке на 36 месяцев, в зависимости от выбранного тарифа |
Чему учат |
|
Преимущественные особенности |
|
Актуальность Big Data стремительно растет и нет никаких предпосылок к изменению этого тренда. Напротив, можно выделить сразу две причины, из-за которых большие данные, как и специалисты по работе с ними, будут в самом ближайшем времени еще более востребованы.
Первая – быстрое накопление самых разнообразных баз данных, происходящее с человечеством. Вторая – постоянное появление все более мощных суперкомпьютеров и компьютерных сетей, способных обрабатывать огромные массивы информации.
Сказанное выше подтверждают и зарплаты аналитиков Big Data. Даже начинающий специалист без опыта – сразу после курсов – способен найти должность с окладом 60-80 тыс. рублей. При серьезном отношении к работе его доход увеличиться вдвое уже в течение полутора-трех лет.
Опытный и квалифицированный профессионал в этой сфере получает в районе 250-350 тысяч рублей. Потолок доходов лучших и самых талантливых попросту не ограничен.
Величина зарплаты зависит от региона работы специалиста. Максимальные зарплаты традиционно в Москве. Здесь в среднем аналитики данных зарабатывают 250 тыс. руб. в месяц. На втором месте – Владивосток, где средний заработок составляет 200 тыс. руб. На третьем Санкт-Петербург, где аналитики зарабатывают в среднем 130 тыс. руб.
В таблице приведены данные по средним зарплатам аналитиков данных в крупнейших городах России.
Единого общепринятого определения данному понятию не существует. Наиболее правильным и полным считается такое: комплекс методов, средств и научно обоснованных подходов к анализу больших массивов данных с целью использования в практической деятельности.
Первое упоминание термина установить не удастся. Как самостоятельное понятие Big Data, оторванное от непосредственного начального значения, сформировалось в районе 2011-2012 годов.
Результаты анализа Big Data используются практически повсеместно – от работы государственных органов до функционирования социальных сетей. Другими словами, везде, где присутствуют источники информации в достаточном для применения специальных методик обработки объеме.
Специалисты называются по-разному: аналитики данных, дата-инженеры, ML-специалисты и т.д. Дело в том, что четкого разграничения между ними, как и установленных правилами или нормативами должностных обязанностей, пока не существует. Профессии в этой области продолжают формироваться.
Big Data заслуженно считается одним из самых быстро развивающихся направлений IT-сферы. По крайней мере, по двум причинам: из-за быстрого накопления огромных массивов информации и вследствие появления все более мощных суперкомпьютеров и компьютерных сетей, способных обрабатывать любые объемы данных.
Проще и быстрее всего – в ходе посещения онлайн-курсов, бесплатных или платных. Такие программы обучения присутствуют практически во всех ведущих учебных центрах страны.