logo
Ещё

Big Data – большой обзор

Стремительное развитие информационных технологий привело к резкому увеличению количества разнообразных данных. Постепенно они стали настолько объемными и структурированными, что возник новые термин – Big Data или, в русскоязычном варианте, большие данные. Понятие постепенно стало настолько актуальным, что было перенесено в языки различных государства попросту без перевода. Россия не стала исключением. Сегодня Big Data – это одно из ключевых направлений IT-индустрии, заслуживающее более детального описания.


Big Data – что это такое?

Дословный перевод Big Data приводится выше. Но он не позволяет получить объективного представления о феномене больших данных, имеющем социально-экономический характер. Намного правильнее понимать под Биг Датой технологию обработки и анализа огромных массивов информационных данных, которая из чисто научной дисциплины очень быстро стала прикладной.

Существует несколько альтернативных определений, но для лучшего понимания термина целесообразно начать с истории его возникновения.

История вопроса

Установить дату первого использования понятия Big Data, вернее – момент превращения обычного словосочетания в профессиональный термин в IT-сфере, попросту невозможно. Активное его применение началось в 2011 году. Еще через год существующие базы данных приобрели огромные масштабы, что потребовало создания отдельного направления информационных и компьютерных технологий.

В 2014 году в вузах появились первые образовательные программы подготовки специалистов в сфере Big Data. Постепенно их количество выросло, а результатами разработок выпускников и освоивших профессию самостоятельно стали пользоваться и крупные корпорации, и государственные органы.

Сегодня термин Bigdata в различных вариантах написания используется практически повсеместно, причем нередко с совершенно разным значением. Можно выделить несколько наиболее частых определения Big Data, к числу которых относятся такие:

  • база данных определенного объема (у разных специалистов – разного, например, 500 ГБ, 1 ТБ и т.д.);
  • общий массив накопленной человечеством информации;
  • данные, анализ которых требует использования суперкомпьютеров;
  • технология или программный продукт, предназначенный для обработки и анализа больших массивов информации, и т.д.

С некоторой долей условности можно обобщить все перечисленные ранее определения и дать более общее, сформировавшееся исторически. В соответствии с ним, Big Data – это комплекс научно обоснованных подходов, методов и средств анализа больших массивов данных, как структурированных, так и неструктурированных, результаты которого используются в практической деятельности человека. Характерной особенностью Биг Даты выступает постоянное увеличение объемов обрабатываемой информации, поступающей из самых разных источников.


Принципы работы с большими данными

Анализ информации в рамках Big Data заметно отличается от обычных СУБД, электронных таблиц и других подобных технологий. Можно выделить три принципиально важных принципа обработки больших данных, включая:

  1. Масштабируемость в горизонтальном направлении. Необходима для адаптации компьютерной системы к росту объемов анализируемой информации. Например, при увеличении базы данных вдвое, должна существовать возможность добавить аналогичные компьютерные мощности и продолжать работу.
  2. Отказоустойчивость. Биг Дата предусматривает использование суперкомпьютеров из множества элементом или компьютерных сетей с большим числом компьютеров. Избежать выхода из строя отдельных частей настолько сложной системы невозможно, а потому она должна сохранять работоспособность в случае отказа или сбоев в нескольких элементах.
  3. Локальность данных. Сегодня наиболее часто используются так называемые распределенные системы, когда информация разделяется на части. Их функционирование может быть эффективным, только если каждая часть системы, например, сервер, работает со своими данными без необходимости обмениваться с другими. Это возможно только при реализации принципа локальности данных.
Существуют и другие принципы работы с огромными массивами информации, различающиеся в зависимости от конкретного подхода к анализу данных. Но три перечисленных в списке являются обязательными и применяются практически всегда.

Как работают технологии?

Выделяют несколько наиболее распространенных базовых технологий обработки больших данных. В их числе: NoSQL, MapReduce, Hadoop и R. Их дополняют аппаратно-программные комплексы, использующие готовые технологические решения, требующие исключительно небольших настроек или незначительного конфигурирования системы.

И технологии, и аппаратно-программные комплексы быстро совершенствуются и пополняются новыми разработками. Такая тенденция кажется вполне логичной, если учесть активное и постоянное развитие Big Data.

Отдельного упоминания заслуживают четыре разных аналитических методики, которые применяются сегодня особенно часто. В их числе следующие разновидности аналитики:

  1. Описательная. Наиболее распространенная и отвечающая на вопрос: что произошло? Цель – установление причин тех или иных событий. Применяется для создания более эффективных моделей. При анализе используют базовые математические функции. Применяется для подведения итогов проекта.
  2. Прогнозная (предикативная). Название четко демонстрирует ее назначение – прогнозирование дальнейших событий. Отвечает на вопрос: что может случиться? Здесь используются математическая статистика, моделирование, машинное обучение и интеллектуальный анализ данных. Применяется при выдвижении обоснованного предположения о возможных результатах. 
  3. Прескриптивная. Аналитика еще более высокого уровня, отвечающая на вопрос: что делать? Предназначена для выявления проблемных мест в бизнесе или органах власти и определения сценариев развития событий, сводящих к минимуму или полностью устраняющих риски. Применяется, когда срочно нужно принять важные решения.
  4. Диагностическая. Определяет причины произошедших событий, отвечает на вопрос: почему это произошло? Структурирует и рассчитывает вес каждого из обнаруженных факторов.

Диагностические и описательные типы аналитики могут объединяться. В таблице приведены этапы повышения зрелости аналитики.


Как собирают и хранят Big Data

Хранятся данные в специальных дата-центрах, которые оборудованы самыми мощными серверами.

Где собирают данные:

  • Данные компаний бизнеса: операции по счетам, заказы товаров и услуг, поездки на такси и каршеринге, профили клиентов.
  • Статистика городов и государств: данные о перемещениях, рождаемости и смертности.
  • Медицинские данные: анализы, заболевания, диагностические снимки.
  • СМИ.
  • Социальные сети.
  • Интернет вещей.
  • Показания приборов: метеорологические станции, данные со спутников.

К данным обеспечен мгновенный допуск с помощью современных вычислительных систем.

Примеры решаемых задач

Области применения Big Data разнообразны. Технология применяется там, где можно собрать и обработать нужные массивы информации.

Сферы применения:

  • Геоаналитика. 
  • Развитие сети.
  • Колл-центры.
  • Управление качеством.
  • Управление оттоком.
  • Целевой маркетинг.
  • Антиспам. 


Технологии Big Data активно применяются крупными корпорациями. Для подтверждения этого утверждения достаточно привести два примера из отечественной практики.

Компания «Билайн» активно собирает открытые данные о своих многочисленных абонентов. На основе их анализа разрабатываются различные аналитические продукты. Также средства и методы Биг Даты применяются для сегментирования собранных базы данных и надежной защиты конфиденциальной информации о клиентах. Например, от воздействия вирусов или действий мошенников.

Еще один пример касается деятельности СберБанка. Еще в 2014 году на основании технологий обработки больших данных была разработана АС САФИ, позволяющая анализировать фото клиентов банка для идентификации. Результат ее внедрения оказался крайне эффективным – количество случаев мошенничества сократилось на порядок, то есть в 10 раз.

Характеристики Биг Дата

Изначально были выделены три главных характеристики, определяющих свойства больших данных. В их числе:

  1. Объем или Volume. Стартовым значением стало 150 ГБ в сутки.
  2. Скорость накопления или Velocity. Показывает уровень обновления и пополнения массива информации.
  3. Разнообразие или Variety. Демонстрирует присутствие в базе разных типов данных, например, структурированных, частично структурированных или неструктурированных.

В настоящее время часто применяются еще три характеристики больших данных, включая:

  1. Достоверность или Veracity. Распространяется как на информацию, так и на результаты ее обработки.
  2. Изменчивость или Variability. Показывает стабильность потока данных, пики и спады их поступления, а также другие изменения, происходящие с информацией.
  3. Ценность/значимость или Value. Разные данные заметно различаются между собой, например, по сложности анализа.

Как и где применяется?

В настоящее время технологии анализа больших данных, в том числе – с применением искусственного интеллекта, применяются в самых разных видах человеческой деятельности. К их числу относятся:

Бизнес

Необходимость Big Data в бизнесе связана повышением прозрачности технологических процессов, изучением и прогнозированием спроса на различные товары. С помощью инструментов больших данных повышается прозрачность промышленных процессов, появляется возможность внедрять «предиктивное производство», позволяющее более точно прогнозировать спрос на продукцию. Технологию применяют более 75% компаний розничной торговли. 

Вот несколько примеров:

  • Внедрение Big Data в корпорации М-Видео позволило улучшить логистику, сократить время на подготовку отчетности за большие промежутки времени.
  • В супермаркетах «Лента» с помощью больших данных анализируют информацию о покупках и предлагают персонализированные скидки на товары. 

Банки

Технология Big Data позволяет оперативно произвести анализ платежеспособности заемщика при рассмотрении заявки на кредит. Технологии применяют Сбербанк, Альфа-Банк, УБРиР и т. д.

Государственное управление

Правительство принимает глобальные решения на основе анализа больших данных в таких важных областях, как здравоохранение, экономическое регулирование, обеспечение безопасности, борьба с преступностью, реагирование на ЧС.

Примеры:

  • ФБР и ЦРУ пользуются сервисом PRISM для сбора персональных данных из соцсетей и продуктов Microsoft, Google и Apple. 
  • В России информацию о пользователях и телефонных звонках собирает система СОРМ.

Медицина

Получение и анализ обширных объемов информации с различных устройств, например фитнес-браслетов или других исследовательских приборов, становится основанием для назначения точного лечения.

Ритейл

И сетевая, и онлайн-торговля требуют активного изучения потенциальных покупателей, что является обязательным условием персонализации ассортимента и оперативной доставки нужных клиентам товаров, возможности предоставления скидок и индивидуальных предложений.


Приведенный перечень далеко не исчерпывающий.

На практике в той или иной форме анализ больших данных используется практически повсеместно – начиная с социологических маркетинговых опросов и заканчивая функционированием социальных сетей.

Кто работает с большими данными?

Список специальностей в сфере Big Data еще формируется. Дело в том, что различия между ними в значительной степени являются условными. К тому же очень часто работа с большими данными дополняет другие IT-профессии. По состоянию на сегодняшний день можно выделить несколько наиболее востребованных специальностей Big Data:

  • дата-инженер.
  • дата-сайентист;
  • аналитик данных;
  • ML-специалист и т.д.
Конкретные должностные обязанности каждого зависят от специфики предприятия, где он трудится, а также поставленных руководителем задач.

В общем случае деятельность всех непосредственно касается с анализом данных, а затем прогнозированием и построением моделей на основании полученных результатов.

Как начать работать с Биг Дата?

Получение специальности аналитика или другого специалиста по работе с большими данными обычно происходит на образовательных курсах. Они бывают как платными, так и бесплатными – со всеми вытекающими из этого плюсами и минусами. В подавляющем большинстве случаев перед обучением на Big Data слушатель уже имеет определенные знания и навыки в IT-отрасли. Хотя возможность стать аналитиком данных с нуля также существует, но потребует больше времени.

Мы отобрали несколько курсов, обучающих профессии аналитика данных, после окончания которых вы научитесь решать бизнес-задачи, работать с различными инструментами анализа, выдвигать гипотезы.

Нетология. Курс «Аналитик данных»

Описание

Курс поможет с нуля овладеть всеми важными для аналитика данных навыками, научит мыслить абстрактно, видеть за метриками и показателями смысл, находить взаимосвязи и строить гипотезы.

Срок обучения

6 месяцев

Стоимость

109500 рублей

Чему учат

  • Изучение полного цикла работы с данными.
  • Работа с большими данными.
  • Проверка гипотез.
  • Анализ данных.
  • Организация работы.

Преимущественные особенности

  • 5 проектов для портфолио.
  • Больше практики, чем теории.
  • Есть рассрочка оплаты.

SkillFactory. Курс «Data Science»

Описание

Вы изучите инструменты и навыки уровня junior, пройдя через все этапы работы над аналитическим проектом: от постановки задачи до сбора и очистки данных, интерпретации, визуализации и подготовки рекомендаций.

Срок обучения

6 месяцев

Стоимость

2466–9616 рублей в месяц при рассрочке на 36 месяцев, в зависимости от выбранного тарифа

Чему учат

  • Основы аналитики.
  • Google-таблицы и основы статистики.
  • Погружение в сферу E-commerce.
  • Базы данных и SQL.
  • Power BI.
  • Погружение в сферу GameDev.
  • Python для анализа данных.
  • Погружение в сферу On-Demand.

Преимущественные особенности

  • Плавный старт: от Google-таблиц до Python и Power B.
  • 14 проектов с персональной обратной связью.
  • 100% инструментов, необходимых junior-аналитику.
  • Личный координатор для решения любых вопросов.
  • Небольшие учебные группы — до 20 студентов.

SKYPRO. Курс «Аналитик данных»

Описание

Вы научитесь формулировать, проверять гипотезы и делать выводы из исследований, освоите основы математической статистики. Изучите специальные программы для работы с данными: Excel, Power BI. Получите знания основ экономики и маркетинга — чтобы понимать, как одни бизнес-процессы могут влиять на другие.

Срок обучения

5 месяцев

Стоимость

5200–9337 рублей в месяц при рассрочке на 36 месяцев, в зависимости от выбранного тарифа

Чему учат

  • Анализ данных в Excel.
  • Основы бизнеса.
  • JOIN в SQL. 
  • Основы Python.
  • Теория вероятностей.
  • Обучение в центре карьеры.

Преимущественные особенности

  • Гарантия трудоустройства по профессии.
  • Помощь с адаптацией на новом рабочем месте.
  • Работают со всеми категориями клиентов: без высшего образования, ограничений по возрасту и специализации.

 

Обзор и перспективы рынка труда

Актуальность Big Data стремительно растет и нет никаких предпосылок к изменению этого тренда. Напротив, можно выделить сразу две причины, из-за которых большие данные, как и специалисты по работе с ними, будут в самом ближайшем времени еще более востребованы.

Первая – быстрое накопление самых разнообразных баз данных, происходящее с человечеством. Вторая – постоянное появление все более мощных суперкомпьютеров и компьютерных сетей, способных обрабатывать огромные массивы информации.

Сказанное выше подтверждают и зарплаты аналитиков Big Data. Даже начинающий специалист без опыта – сразу после курсов – способен найти должность с окладом 60-80 тыс. рублей. При серьезном отношении к работе его доход увеличиться вдвое уже в течение полутора-трех лет.

Опытный и квалифицированный профессионал в этой сфере получает в районе 250-350 тысяч рублей. Потолок доходов лучших и самых талантливых попросту не ограничен.

Величина зарплаты зависит от региона работы специалиста. Максимальные зарплаты традиционно в Москве. Здесь в среднем аналитики данных зарабатывают 250 тыс. руб. в месяц. На втором месте – Владивосток, где средний заработок составляет 200 тыс. руб. На третьем Санкт-Петербург, где аналитики зарабатывают в среднем 130 тыс. руб.

В таблице приведены данные по средним зарплатам аналитиков данных в крупнейших городах России.


Что почитать или посмотреть по теме?

  1. Билл Фрэнкс «Революция в аналитике».
  2. Билл Френкс «Укрощение больших данных».
  3. Кэти О'Нил «Убийственные большие данные».
  4. Кеннет Су, Анналин Ын «Теоретический минимум по Big Data».
  5. Кеннет Кукьер, Виктор Майер-Шенбергер «Большие данные».
  6. Видео ролик на YouTube «Как это устроено. Big Data. Большие данные».
  7. Видео ролик на YouTube «Что такое Big Data».
  8. Видео ролик на YouTube «Зачем за нами следят в соцсетях, и кто продает наши данные. Большое интервью про Big Data».
  9. Блог «Школы больших Данных».
  10. Блог Data Mania.
  11. Блог Think Big Analytics.

FAQ

Что означает термин Big Data?

Единого общепринятого определения данному понятию не существует. Наиболее правильным и полным считается такое: комплекс методов, средств и научно обоснованных подходов к анализу больших массивов данных с целью использования в практической деятельности.

Когда он появился?

Первое упоминание термина установить не удастся. Как самостоятельное понятие Big Data, оторванное от непосредственного начального значения, сформировалось в районе 2011-2012 годов.

Где сегодня применяются технологии обработки больших данных?

Результаты анализа Big Data используются практически повсеместно – от работы государственных органов до функционирования социальных сетей. Другими словами, везде, где присутствуют источники информации в достаточном для применения специальных методик обработки объеме.

Кто занимается анализом Big Data?

Специалисты называются по-разному: аналитики данных, дата-инженеры, ML-специалисты и т.д. Дело в том, что четкого разграничения между ними, как и установленных правилами или нормативами должностных обязанностей, пока не существует. Профессии в этой области продолжают формироваться.

Насколько перспективным направлением IT-отрасли являются большие данные?

Big Data заслуженно считается одним из самых быстро развивающихся направлений IT-сферы. По крайней мере, по двум причинам: из-за быстрого накопления огромных массивов информации и вследствие появления все более мощных суперкомпьютеров и компьютерных сетей, способных обрабатывать любые объемы данных.

Как стать специалистом по обработке больших данных?

Проще и быстрее всего – в ходе посещения онлайн-курсов, бесплатных или платных. Такие программы обучения присутствуют практически во всех ведущих учебных центрах страны.

Подведем итоги

  1. Big Data – одно из самых перспективных направлений IT-отрасли, которое очень быстро развивается.
  2. Оно возникло и сформировалось сравнительно недавно – в 2011-2012 годах. Еще через 2-3 года в вузах появились первые программы подготовки специалистов в области анализа больших данных.
  3. Биг Дата представляет собой набор технологий, средств и знаний по обработке огромных массивов данных с целью практического применения полученных результатов в разных сферах деятельности.
  4. Сегодня Big Data используется повсеместно – от функционирования социальных сетей и онлайн-магазинов до работы государственных органов власти.
  5. Чтобы стать аналитиком данных, требуется закончить курсы. Желательно – платные. Еще лучше – в серьезном учебном центре. Альтернативный вариант, требующий больше времени и средств – обучение в вузе.
Часто ищут