Что такое big data

14.03.2023

Что такое Big Data?

По статистике поиска в Google, термин «Big Data» стал часто появляться в запросах с 2011 года. При этом введен он был тремя годами ранее Клиффордом Линчем. С 2014 года к Биг Дата стал появляться интерес в IT-сфере, постепенно к сбору и обработке больших объемов информации подключались мировые цифровые гиганты — Microsoft, IBM, Apple и другие. 

Сегодня Big Data— один из главных ресурсов для бизнеса, потому что подразумевает не только ценные файлы больших объемов, но и методы их обработки. Это инструмент для маркетологов, аналитиков, разработчиков, HR-менеджеров, управленцев. Биг Дата служат для статистики, анализа, прогнозирования, выстраивания стратегий. Огромные информационные пласты научились обрабатывать даже в Голливуде, где технологии из сферы Big Data используют для написания сценариев, проведения кастингов, работы с целевой аудиторией. 

Характеристики больших данных

Простыми словами, Биг Дата — это методы и инструменты работы с огромными разнообразными данными, направленные на получение подходящих для человеческого восприятия результатов. То есть это не большие данные сами по себе, а подход к их обработке. Тем не менее не все данные попадают в категорию Big Data. Как правило, они имеют определенные характеристики:

  • суммарный объем не менее 100 Гб;
  • невозможно качественно обработать в Excel;
  • невозможно обработать на одном компьютере.

Специалисты компании Meta Group оформили разрозненные критерии Big Data в структуру 3V:

  • Volume — объем информации для обработки от 150 Гб;
  • Velocity — непрерывное накопление и обновление;
  • Variety — разнообразие данных, их структурированная и неструктурированная формы, смешанные варианты.

В процессе работы с Big Data разработчикам стало понятно, что они должны соответствовать еще трем критериям:

  • Veracity — достоверность;
  • Variability — нестабильность, изменчивость, наличие пиков и спадов;
  • Value — степень значимости, от общедоступной информации до различных типов тайны.

В вопросе Big Data важную роль играет контекст. Для маленькой компании с небольшой вычислительной сетью объемы в несколько сотен гигабайт уже окажутся большими, а для крупных корпораций критичными могут быть отметки в несколько эксабайтов. 

Переходите на российские BI‑решения!
Попробуйте платформу для быстрой и простой разработки бизнес-аналитики Insight!
Переходите на российские BI-решения!

Как работает Big Data: как собирают и хранят большие данные

Чем больше информации о субъекте, объекте, событии, явлении, тем проще получить достоверное понимание процессов и спрогнозировать их течение. Анализ множества точек позволяет установить новые взаимосвязи между ними, которые ранее были неочевидны. Поэтому в Big Data нужна простая цепочка «источники данныхданные — оборудование и ПО для хранения — оборудование и ПО для обработки». У каждой компании свои источники Биг Дата, часто это:

  • «интернет вещей», «умные» устройства;
  • СМИ, соцсети, блоги;
  • информация, связанная с бизнес-процессами: транзакции, клиентские базы, истории заказов;
  • показатели датчиков и приборов;
  • официальные государственные статистические сведения;
  • медицинские сведения пациентов.

Более частные примеры получения Big Data — логи поведения пользователей, GPS-сигналы от транспорта, оцифрованные книги, пресса, показания метеорологических зондов и другие.

Объемы и непрерывное обновление требуют мощного оборудования для хранения и обработки. Функцию хранилищ выполняют огромные дата-центры, среди которых — традиционные физические и удаленные облачные. Компании формируют собственные «озера данных», используют для их обработки различные фреймворки и утилиты, например Hadoop, Airflow, Drill и другие. 

Как анализируют большие данные

Любая система, предназначенная для обработки Биг Дата, должна соответствовать трем принципам работы с ними:

  1. Горизонтальное масштабирование. Структура должна иметь перспективу расширения, пропорциональную росту объема информации. 
  2. Отказоустойчивость. Сеть выстраивается с учетом возможного отказа работы части оборудования и перераспределения нагрузки.
  3. Локальность. В приоритете такие системы, в которых хранение и обработка происходят на одном сервере.

Кроме того, Big Data должны быть обезличены и агрегированы. Они могут поступать в разрозненном виде, поэтому их необходимо привести к единой форме, структурировать. Далее в зависимости от ожидаемого результата используют методы анализа:

  • Descriptive analytics — описательный метод, который позволяет выяснить причины успешных и негативных событий, скорректировать модели действий. 
  • Predictive analytics — метод прогнозирования событий на основе текущей ситуации. Например, оценка кредитного потенциала заемщика.
  • Prescriptive analytics — способ выявления проблемных точек, прогнозирование различных сценариев с учетом возможных проблем. Это как выявить нарушения в работе внутреннего органа и дать человеку рекомендации по изменению образа жизни.
  • Diagnostic analytics — диагностика текущего состояния с целью выявить проблемы, скрытые связи, аномалии и случайности.

Технологий работы с Биг Дата значительно больше. Например, существует краудсорсинг, когда информация обрабатывается вручную большой группой специалистов. С развитием машинного обучения и искусственного интеллекта многие процессы в Big Data стали проще. Обученная нейросеть, получив объем информации, выявит закономерности и даст конечный результат — распределит по группам, выделит нужные объекты, «увидит» нарушения в процессах. Это позволяет быстрее и с меньшими ресурсами обрабатывать большие информационные пласты на основе определенных признаков. 

Существуют инструменты для формирования имитаций и визуализаций Big Data. В виртуальном пространстве можно смоделировать ситуацию с продажами в магазине при различных подходах. В отличие от предиктивной аналитики, моделирование использует гипотетическую информацию. Визуализации, в свою очередь, позволяют представить результаты анализа наглядно в виде диаграмм, графиков, 3D-моделей, прорисовать ситуацию на карте. Информация в таком виде удобнее для человеческого восприятия, позволяет мыслить объемно. 

Глубинный анализ Big Data проводят с помощью технологии data mining, при которой данные подвергаются всестороннему моделированию, классификации, прогнозированию. Среди основных инструментов метода:

  • генетические алгоритмы;
  • линейная регрессия;
  • дерево решений;
  • байесовские сети;
  • кластерный анализ;
  • эволюционное программирование.

Главная задача дата-майнинга — выявить скрытые закономерности в больших массивах информации, которые приведут к получению новых данных. Результаты станут основой для развития бизнеса. 

Обработка Биг Дата предполагает колоссальные вычислительные мощности. Такими ресурсами обладают суперкомпьютеры, которые в несколько раз превосходят по возможностям обычные машины.

В чем различия Big Data и Data Science

Data Science — это в прямом смысле наука о данных, междисциплинарная сфера, которая включает все этапы работы с информацией. Если действия в рамках Биг Дата направлены на сбор и обработку больших данных, то дата-сайентисты глубже понимают, что нужно сделать с информацией, чтобы она стала ценной для развития компании. Большие данные — инструмент в руках сайентистов. Наличие такого специалиста — конкурентное преимущество, способ ускорить развитие.

Где применяется аналитика больших данных

Растет количество гаджетов, «умных» вещей, пропускные способности беспроводных сетей. Вслед за ними растут объемы собираемых данных и способы их применения. С Биг Дата уже трансформировались многие сферы жизни:

  • Контент, развлечения. Такие стриминговые ресурсы, как Netflix, используют Big Data для сегментирования аудитории, анализа потребляемого контента, подбора рекомендаций для пользователей. Создатели фильмов анализируют кассовые успехи конкурентов, музыкальные площадки отслеживают, как меняются предпочтения слушателей с возрастом.
  • Спорт. Спортивные состязания постепенно становятся еще и состязанием технологий. Некоторые футбольные команды используют датчики, которые передают данные о положении игроков на поле, их пульсе. Это позволяет корректировать стратегию игры, выявлять лучших игроков. Во многих видах спорта используют технологии анализа видеозаписей игр.
  • Сельское хозяйство. Аграрии используют «умные» комбайны, метеорологические станции в полях, дроны-геологи и другие устройства, которые становятся источниками Big Data. Их обработка позволяет прогнозировать погоду, урожайность, оценивать состояние всходов, земель и другие показатели. 
  • Сфера ретейла. С помощью Биг Дата торговые площадки анализируют покупательский спрос, персонализируют ассортимент, перестраивают работу службы доставки. 
  • Реклама. Маркетологи стремятся больше узнать о целевой аудитории, чтобы реклама перестала быть навязчивой и соответствовала потребностям людей. Собранная информация позволяет вводить элементы геймификации, программы лояльности и другие бонусные предложения для клиентов.
  • Государственное управление. Статистика, социологические исследования, оценка эффективности государственных программ также проводятся с применением методов Big Data.
  • Промышленность. Здесь особенно актуальны предиктивные методы, которые помогают спрогнозировать спрос на продукцию. Контроль за процессами, исправностью оборудования становится своевременным и эффективным, если он основан на Big Data.
  • Медицина. Анализ больших объемов медицинских сведений позволяет оценивать состояние здоровья общества, разрабатывать новые подходы к оздоровлению, новые лекарства.
  • Банковский сектор. Службы безопасности анализируют операции клиентов и на основе установленных связей могут вычислить мошеннические действия или выделить добропорядочных пользователей. 
  • Недвижимость. Девелоперы теперь могут лучше понимать владельцев недвижимости, знать их предпочтения, подбирать наиболее подходящие варианты.

Big Data в бизнесе

Глобальная цифровизация бизнеса изменила подход ко многим вопросам. Данные позволяют видоизменять не только внешние, но и внутренние процессы. Важный ресурс компании — сотрудники, и инструменты Биг Дата помогли перенастроить сферу HR. 

WFMрешение для оптимизации работы персонала

Графики, нагрузка, учет рабочего времени, мотивация — острые вопросы взаимодействия с сотрудниками. Здесь важны точность расчетов, обратная связь, контроль соблюдения параметров. Платформа WFM от Goodt содержит несколько решений, которые позволяют на основе имеющихся данных оптимизировать работу персонала:

  • Goodt Time предназначен для расчета количества сменных сотрудников, планирования графиков смен. С этой системой компании прогнозируют нагрузку, формируют корректные табели с сохранением гибкости графиков и с учетом трудового законодательства. 
  • Goodt Clock позволяет учитывать и контролировать рабочее время. Биометрический киоск проводит авторизацию сотрудников, опросы, демонстрирует рейтинги, аналитические и мотивирующие материалы.
  • Goodt Portal — работа с контрагентами, формирование команды и биржа смен.
  • Comissions — система управления мотивацией сменного персонала.

Система управления персоналом VK People Hub Talent

Полноценная HR-платформа от Goodt для организации взаимодействия руководства и сотрудников, формирования внутренней корпоративной структуры с доступом к профессиональным сервисам. В систему включены должностные инструкции, функции формирования команд, согласования проектов. Здесь можно ставить задачи, контролировать их выполнение, анализировать изменения на основе больших объемов корпоративной информации. Руководители могут вести оценку работы, рассчитывать финансовую мотивацию. Кроме того, в платформу включены инструменты для обучения, развития талантов, адаптации, выявления лидеров. В едином пространстве концентрируются данные об HR-структуре компании. На их основе проводится глубокая аналитика в форме 300 готовых отчетов и метрик. 

Big Data в России и мире

Сегодня, по независимым оценкам, от 30 до 40% компаний в России все еще не применяют технологии Big Data*. Хотя эксперты полагают, что их повсеместное внедрение позволит увеличить ВВП страны. В целом, российское направление работы с Биг Дата достаточно сформировано — выработаны технологии внедрения, обозначены трудности и способы их преодоления. Поэтому стоит ожидать, что Big Data будет прогрессировать. 

Мировой рынок продолжает расти и в среднем за год прибавляет около 13% оборота. При этом по-прежнему остается над чем работать — до 80% компаний не обрабатывают все собранные файлы Big Data. Большая часть из них даже не подвергается структурированию**. 

Каждый человек ежедневно соприкасается с большими данными и производит их. Даже в мессенджерах ежедневно отправляются сотни миллиардов сообщений. Практически каждый день люди ищут что-то в поисковых системах, открывают соцсети, просматривают разный контент, подбирают товары. Бизнес давно оценил эффективность Биг Дата и внедряет методы их обработки для роста и внутреннего взаимодействия. 

* https://mcs.mail.ru/promopage/bigdata-issledovanie/

** https://vc.ru/future/562963-pyat-vpechatlyayushchih-cifr-o-bolshih-dannyh-za-2022-god
Хотите узнать больше
о продуктах Goodt?
Хотите узнать больше
о продуктах Goodt?
Goodt. Современные HR Tech и BI-решения.
Подписаться на рассылку
Подписываясь на рассылку, вы даете согласие на обработку персональных данных. Рассылка осуществляется один раз в квартал.
Спасибо за подписку!
© Goodt 2016 – 2024.