Вредоносное ПО (malware) - это назойливые или опасные программы,...
![Лучшие утилиты для удаления вирусов и вредоносных программ](https://i2.wp.com/webhelper.info/images/danger.jpg)
Moscow_Exchange 6 мая 2015 в 20:38
«Big Data» - тема, которая активно обсуждается технологическими компаниями. Некоторые из них успели разочароваться в больших данных, другие - напротив, максимально используют их для бизнеса… Свежий аналитический обзор отечественного и мирового рынка «Big Data», подготовленный Московской Биржей совместно с аналитиками «IPOboard », показывает, какие тренды наиболее актуальны сейчас на рынке. Надеемся, информация будет интересной и полезной.
Термин «Большие Данные» вызывает множество споров, многие полагают, что он означает лишь объем накопленной информации, но не стоит забывать и о технической стороне, данное направление включает в себя технологии хранения, вычисления, а также сервисные услуги.
Следует отметить, что к данной сфере относится обработка именно большого объема информации, который затруднительно обрабатывать традиционными способами*.
Ниже представлена сравнительная таблица традиционной и базы Больших Данных.
Сфера Больших Данных характеризуется следующими признаками:
Volume
– объем, накопленная база данных представляет собой большой объем информации, который трудоемко обрабатывать и хранить традиционными способами, для них требуются новый подход и усовершенствованные инструменты.
Velocity
– скорость, данный признак указывает как на увеличивающуюся скорость накопления данных (90% информации было собрано за последние 2 года), так и на скорость обработки данных, в последнее время стали более востребованы технологии обработки данных в реальном времени.
Variety
– многообразие, т.е. возможность одновременной обработки структурированной и неструктурированной разноформатной информации. Главное отличие структурированной информации – это то, что она может быть классифицирована. Примером такой информации может служить информация о клиентских транзакциях.
Неструктурированная информация включает в себя видео, аудио файлы, свободный текст, информацию, поступающую из социальных сетей. На сегодняшний день 80% информации входит в группу неструктурированной. Данная информация нуждается в комплексном анализе, чтобы сделать ее полезной для дальнейшей обработки.
Veracity
– достоверность данных, все большее значение пользователи стали придавать значимость достоверности имеющихся данных. Так, у интернет-компаний есть проблема по разделению действий, проводимых роботом и человеком на сайте компании, что приводит в конечном счете к затруднению анализа данных.
Value
– ценность накопленной информации. Большие Данные должны быть полезны компании и приносить определенную ценность для нее. К примеру, помогать в усовершенствовании бизнес-процессов, составлении отчетности или оптимизации расходов.
При соблюдении указанных выше 5 условий, накопленные объемы данных можно относить к числу больших.
Сферы применения Больших Данных
Сфера использования технологий Больших Данных обширна. Так, с помощью Больших Данных можно узнать о предпочтениях клиентов, об эффективности маркетинговых кампаний или провести анализ рисков. Ниже представлены результаты опроса IBM Institute, о направлениях использования Big Data в компаниях.
Как видно из диаграммы, большинство компаний используют Большие Данные в сфере клиентского сервиса, второе по популярности направление – операционная эффективность, в сфере управления рисками Большие Данные менее распространены на текущий момент.
Следует также отметить, что Big Data являются одной из самых быстрорастущих сфер информационных технологий, согласно статистике, общий объем получаемых и хранимых данных удваивается каждые 1,2 года.
За период с 2012 по 2014 год количество данных, ежемесячно передаваемых мобильными сетями, выросло на 81%. По оценкам Cisco, в 2014 году объем мобильного трафика составил 2,5 эксабайта (единица измерения количества информации, равная 10^18 стандартным байтам) в месяц, а уже в 2019 году он будет равен 24,3 эксабайтам.
Таким образом, Большие Данные – это уже устоявшаяся сфера технологий, даже несмотря на относительно молодой ее возраст, получившая распространение во многих сферах бизнеса и играющая немаловажную роль в развитии компаний.
К наиболее распространенным подходам обработки данных (ПО) относятся:
SQL
– язык структурированных запросов, позволяющий работать с базами данных. С помощью SQL можно создавать и модифицировать данные, а управлением массива данных занимается соответствующая система управления базами данных.
NoSQL
– термин расшифровывается как Not Only SQL (не только SQL). Включает в себя ряд подходов, направленных на реализацию базы данных, имеющих отличия от моделей, используемых в традиционных, реляционных СУБД. Их удобно использовать при постоянно меняющейся структуре данных. Например, для сбора и хранения информации в социальных сетях.
MapReduce
– модель распределения вычислений. Используется для параллельных вычислений над очень большими наборами данных (петабайты* и более). В программном интерфейсе не данные передаются на обработку программе, а программа – данным. Таким образом запрос представляет собой отдельную программу. Принцип работы заключается в последовательной обработке данных двумя методами Map и Reduce. Map выбирает предварительные данные, Reduce агрегирует их.
Hadoop
– используется для реализации поисковых и контекстных механизмов высоконагруженных сайтов – Facebook, eBay, Amazon и др. Отличительной особенностью является то, что система защищена от выхода из строя любого из узлов кластера, так как каждый блок имеет, как минимум, одну копию данных на другом узле.
SAP HANA
– высокопроизводительная NewSQL платформа для хранения и обработки данных. Обеспечивает высокую скорость обработки запросов. Еще одним отличительным признаком является то, что SAP HANA упрощает системный ландшафт, уменьшая затраты на поддержку аналитических систем.
К технологическому оборудованию относят:
Сервисные услуги.
Сервисные услуги включают в себя услуги по построению архитектуры системы базы данных, обустройству и оптимизации инфраструктуры и обеспечению безопасности хранения данных.
Программное обеспечение, оборудование, а также сервисные услуги вместе образуют комплексные платформы для хранения и анализа данных. Такие компании, как Microsoft, HP, EMC предлагают услуги по разработке, развертыванию решений Больших Данных и управления ими.
Розничная торговля
В базах данных розничных магазинов может быть накоплено множество информации о клиентах, системе управления запасами, поставками товарной продукции. Данная информация может быть полезна во всех сферах деятельности магазинов.
Так, с помощью накопленной информации можно управлять поставками товара, его хранением и продажей. На основании накопленной информации можно прогнозировать спрос и поставки товара. Также система обработки и анализа данных может решить и другие проблемы ритейлера, например, оптимизировать затраты или подготовить отчетность.
Финансовые услуги
Большие Данные дают возможность проанализировать кредитоспособность заемщика, также они полезны для кредитного скоринга* и андеррайтинга**. Внедрение технологий Больших Данных позволит сократить время рассмотрения кредитных заявок. С помощью Больших Данных можно проанализировать операции конкретного клиента и предложить подходящие именно ему банковские услуги.
Телеком
В телекоммуникационной отрасли широкое распространение Большие Данных получили у сотовых операторов.
Операторы сотовой связи наравне с финансовыми организациями имеют одни из самых объемных баз данных, что позволяет им проводить наиболее глубокий анализ накопленной информации.
Главной целью анализа данных является удержание существующих клиентов и привлечение новых. Для этого компании проводят сегментацию клиентов, анализируют их трафики, определяют социальную принадлежность абонента.
Помимо использования Big Data в маркетинговых целях, технологии применяются для предотвращения мошеннических финансовых операций.
Горнодобывающая и нефтяная промышленности
Большие Данные используются как при добыче полезных ископаемых, так и при их переработке и сбыте. Предприятия могут на основании поступившей информации делать выводы об эффективности разработки месторождения, отслеживать график капитального ремонта и состояния оборудования, прогнозировать спрос на продукцию и цены.
По данным опроса Tech Pro Research, наибольшее распространение Большие Данные получили в телекоммуникационной отрасли, а также в инжиниринге, ИТ, в финансовых и государственных предприятиях. По результатам данного опроса, менее популярны Большие Данные в образовании и здравоохранении. Результаты опроса представлены ниже:
Сферы применения обработанной информации разнообразны и варьируются в зависимости от отрасли и задач, которые необходимо выполнить.
Далее будут представлены примеры применения технологий Больших Данных на практике.
HSBC использует технологии Больших Данных для противодействия мошеннических операций с пластиковыми картами. С помощью Big Data компания увеличила эффективность службы безопасности в 3 раза, распознавание мошеннических инцидентов – в 10 раз. Экономический эффект от внедрения данных технологий превысил 10 млн долл. США.
Антифрод* VISA позволяет в автоматическом режиме вычислить операции мошеннического характера, система на данный момент помогает предотвратить мошеннические платежи на сумму 2 млрд долл. США ежегодно.
Суперкомпьютер Watson компании IBM анализирует в реальном времени поток данных по денежным транзакциям. По данным IBM, Watson на 15% увеличил количество выявленных мошеннических операций, на 50% сократил ложные срабатывания системы и на 60% увеличил сумму денежных средств, защищенных от транзакций такого характера.
Procter & Gamble
с помощью Больших Данных проектируют новые продукты и составляют глобальные маркетинговые кампании. P&G создал специализированные офисы Business Spheres, где можно просматривать информацию в реальном времени.
Таким образом, у менеджмента компании появилась возможность мгновенно проверять гипотезы и проводить эксперименты. P&G считают, что Большие Данные помогают в прогнозировании деятельности компании.
Ритейлер офисных принадлежностей OfficeMax с помощью технологий Больших Данных анализируют поведение клиентов. Анализ Big Data позволил увеличить B2B выручку на 13%, уменьшить затраты на 400 000 долларов США в год.
По мнению Caterpillar , ее дистрибьюторы ежегодно упускают от 9 до 18 млрд долл. США прибыли только из-за того, что не внедряют технологии обработки Больших Данных. Big Data позволили бы клиентам более эффективно управлять парком машин, за счет анализа информации, поступающей с датчиков, установленных на машинах.
На сегодняшний день уже есть возможность анализировать состояние ключевых узлов, их степени износа, управлять затратами на топливо и техническое обслуживание.
Luxottica group является производителем спортивных очков, таким марок, как Ray-Ban, Persol и Oakley. Технологии Больших Данных компания применяет для анализа поведения потенциальных клиентов и «умного» смс-маркетинга. В результате Big Data Luxottica group выделила более 100 миллионов наиболее ценных клиентов и повысила эффективность маркетинговой кампании на 10%.
С помощью Yandex Data Factory разработчики игры World of Tanks анализируют поведение игроков. Технологии Больших Данных позволили проанализировать поведение 100 тысяч игроков World of Tanks с использованием более 100 параметров (информация о покупках, играх, опыт и др.). В результате анализа был получен прогноз оттока пользователей. Данная информация позволяет уменьшить уход пользователей и работать с участниками игры адресно. Разработанная модель оказалась на 20-30% эффективнее стандартных инструментов анализа игровой индустрии.
Министерство труда Германии использует Большие Данные в работе, связанной с анализом поступающих заявок на выдачу пособий по безработице. Так, проанализировав информацию, стало понятно, что 20% пособий выплачивалось незаслуженно. С помощью Big Data министерство труда сократило расходы на 10 млрд евро.
Детская больница Торонто внедрила проект Project Artemis. Это информационная система, которая собирает и анализирует данные по младенцам в реальном времени. Система ежесекундно отслеживает 1260 показателей состояния каждого ребенка. Project Artemis позволяет прогнозировать нестабильное состояние ребенка и начать профилактику заболеваний у детей.
Большую часть выручки рынка Big Data, по мнению Wikibon, в 2014 году составили сервисные услуги, их доля была равно 40% в общем объеме выручки (см. диаграмму ниже):
Если рассматривать Big Data за 2014 год по подтипам, то рынок будет выглядеть следующим образом:
Согласно данным Wikibon, приложения и аналитика составляет 36% выручки Big Data в 2014 году принесли приложения и аналитика Больших Данных, 17% - вычислительное оборудование и 15% - технологии хранения данных. Меньше всего выручки было сгенерировано NoSQL технологиями, инфраструктурным оборудованием и обеспечением сетью компаний (корпоративные сети).
Наибольшей популярностью пользуются такие технологии Big Data, как in-memory платформы компаний SAP, HANA, Oracle и др. Результаты опроса T-Systems показали, что их выбрали 30% опрошенных компаний. Вторыми по популярности стали NoSQL платформы (18% пользователей), также компании использовали аналитические платформы компаний Splunk и Dell, их выбрало 15% компаний. Наименее полезными для решения проблем Больших Данных, по результатам опроса оказались продукты Hadoop/MapReduce.
По данным опроса Accenture, в более чем 50% компаниях, использующих технологии Больших Данных, затраты на Big Data составляют от 21% до 30%.
Согласно следующими анализу Accenture, 76% компаний, считают, что данные расходы увеличатся в 2015 году, а 24% компаний не изменят своего бюджета на технологии Больших Данных. Это говорит о том, что в данных компаниях Big Data стали уже устоявшимся направлением ИТ, ставшим неотъемлемой частью развития компании.
Результаты опроса Economist Intelligence Unit survey подтверждают положительный эффект от внедрения Big Data. 46% компаний заявляют, что с помощью технологий Больших Данных они улучшили клиентский сервис более, чем на 10%, 33% компаний оптимизировали запасы и улучшили продуктивность основных активов, 32% компаний улучшили процессы планирования.
Также, согласно опросу CIO, компании из стран Азиатско-Тихоокеанского региона быстрыми темпами осваивают новые решения в области анализа Больших Данных, безопасного хранения и облачных технологий. Латинская Америка находится на втором месте по количеству инвестиций в развитие технологий Больших Данных, опережая страны Европы и США.
Далее будет представлено описание и прогнозы развития рынка Больших Данных нескольких стран.
Китай
Объем информации Китая составляет 909 эксабайт, что равно 10% общего объема информации в мире, к 2020 году объем информации достигнет 8060 эксабайт, увеличится и доля информации в общемировой статистике, через 5 лет она будет равна 18%. Потенциальный рост Big Data Китая имеет одну из самых быстрорастущих динамик.
Бразилия
Бразилия по итогам 2014 года накопила информации на 212 эксабайт, что составляет 3% от общемирового объема. К 2020 году объем информации вырастет до 1600 эксабайт, что составит 4% информации всего мира.
Индия
По данным EMC, объем накопленных данных Индии по итогам 2014 года составляет 326 эксабайт, что составляет 5% от общего объема информации. К 2020 году объем информации вырастет до 2800 эксабайт, что составит 6% информации всего мира.
Япония
Объем накопленных данных Японии по итогам 2014 года составляет 495 эксабайт, что составляет 8% от общего объема информации. К 2020 году объем информации вырастет до 2200 эксабайт, но уменьшится доля рынка Японии и составит 5% об общего объема информации всего мира.
Таким образом, объем рынка Японии уменьшится на более, чем 30%.
Германия
По данным EMC, объем накопленных данных в Германии по итогам 2014 года составляет 230 эксабайт, что составляет 4% от общего объема информации в мире. К 2020 году объем информации вырастет до 1100 эксабайт и составит 2%.
На рынке Германии большую долю выручки, по прогнозам Experton Group, будет генерировать сегмент сервисных услуг, доля которых в 2015 году составит 54%, а в 2019 году увеличится до 59%, доли программного обеспечения и оборудования, наоборот, уменьшатся.
В целом, объем рынка вырастет с 1, 345 млрд евро в 2015 году до 3,198 млрд евро в 2019 году, средний темп роста составит 24%.
Таким образом, на основании аналитики CIO и EMC, можно сделать вывод о том, что развивающиеся страны мира в ближайшие годы станут рынками активного развития технологий Больших Данных.
По прогнозам IDC тенденции развития рынка выглядят следующим образом:
Согласно опросу Accenture, вопросы безопасности данных являются сейчас главным барьером на пути внедрения технологий Больших Данных, более 51% респондентов подтвердили, что беспокоятся за обеспечение защиты данных и их конфиденциальности. 47% компаний сообщили, о невозможности внедрения Big Data в связи с ограниченным бюджетом, 41% компаний в качестве проблемы указали нехватку квалифицированных кадров.
Wikibon прогнозирует, что объем рынка Big Data вырастет в 2015 году до 38,4 млрд долл. США и увеличится по сравнению с предыдущим годом на 36%. В ближайшие годы будет наблюдаться спад темпов роста до 10% в 2017 году. С учетом данных прогнозов, объем рынка в 2020 году будет равен 68,7 млрд долл. США.
Распределение общемирового рынка Больших Данных по бизнес-категориям будет выглядеть следующим образом:
Как видно из диаграммы, большую часть рынка будет занимать технологии из сферы улучшения клиентского сервиса. Точечный маркетинг будет на втором месте по приоритетности у компаний вплоть до 2019 года, в 2020 году, по прогнозу Heavy Reading, он уступит место решениям по улучшению операционной эффективности.
Самый высокий темп роста также будет у сегмента «улучшение клиентского сервиса», прирост - 49% ежегодно.
Прогноз рынка по подтипам Big Data будет выглядеть следующим образом:
Преобладающую долю рынка, как видно из диаграммы, занимают профессиональные услуги, самый высокий темп рост будет у приложений с аналитикой, их доля вырастет с нынешних 12% до 18% в 2020 году и объем данного сегмента будет равен 12,3 млрд долл. США, доля вычислительного оборудования, наоборот, упадет с 20% до 14% и составит порядка 9,3 млрд долл. США в 2020 году, рынок облачных технологий будет постепенно увеличиваться и в 2020 году достигнет 6,3 млрд долл. США, доля рынка решений для хранения данных, наоборот, уменьшится с 15% в 2014 году до 13% в 2020 году и в денежном выражении будет равна 8,9 млрд долл. США.
Согласно прогнозу Bain & Company’s Insights Analysis, распределение рынка Big Data по отраслям в 2020 году будет выглядеть следующим образом:
Энергетические компании будут инвестировать в данные технологии сравнительно небольшую сумму - 800 млн долл. США, но темп роста будет одним из самых высоких – 54% ежегодно.
Таким образом, большую долю рынка Big Data в 2020 году займут компании финансовой отрасли, а самым быстрорастущим сектором будет энергетика.
Следуя прогнозам аналитиков, общий объем рынка в ближайшие годы будет увеличиваться. Рост рынка будет обеспечен за счет внедрения технологий Больших Данных в развивающихся странах мира, как видно из представленного ниже графика.
Прогнозируемый объем рынка будет зависеть от того, как развивающиеся страны воспримут технологии Больших Данных, будет ли они также популярны как в развитых странах. В 2014 году развивающиеся страны мира занимали 40% от объема накопленной информации. По прогнозу EMC, нынешняя структура рынка, с преобладанием развитых стран, изменится уже в 2017 году. Согласно аналитике EMC, в 2020 году доля развивающихся стран будет более 60%.
По мнению Cisco и EMC, развивающиеся страны мира будут достаточно активно работать с Big Data, во многом это будет связано с доступностью технологий и накоплением достаточного объема информации до уровня Big Data. На карте мира, представленной на следующей странице, будет показан прогноз увеличения объема и темп роста Больших Данных по регионам.
В России большей популярностью технологии Больших Данных пользуются в банковской сфере и телекоме, но они также востребованы в сфере добывающей промышленности, энергетике, ритейле, в логистических компаниях и госсекторе.
Далее будут рассмотрены примеры применения Больших Данных в российских реалиях.
Телеком
Телеком-операторы имеют одни из самых объемных баз данных, что позволяет им проводить наиболее глубокий анализ накопленной информации.
Одной из сфер применения технологии Больших Данных является управление лояльностью абонентов.
Главной целью анализа данных является удержание существующих клиентов и привлечение новых. Для этого компании проводят сегментацию клиентов, анализируют их трафики, определяют социальную принадлежность абонента. Помимо использования информации в маркетинговых целях, в телекоме технологии применяются для предотвращения мошеннических финансовых операций.
Одним из ярких примеров данной отрасли является Вымпелком. Компания применяет Большие Данные для повышения качества обслуживания на уровне каждого абонента, составления отчетности, анализа данных для развития сети, борьбы со спамом и персонализации услуг.
Банки
Значительную долю пользователей Big Data занимают специалисты из финансовой отрасли. Одним из успешных опытов был проведен в Уральском банке реконструкции и развития, где информационную базу стали использовать для анализа клиентов, банк начал предлагать специализированные кредитные предложения, вклады и другие услуги. За год использования данных технологий розничный кредитный портфель компании вырос на 55%.
В Альфа-Банке анализируют информацию из социальных сетей, обрабатывают заявки на получение кредита, анализируют поведение пользователей сайта компании.
Сбербанк также приступил к обработке массива данных с целью сегментации клиентов, предотвращения мошеннических действий, перекрестных продаж и управления рисками. В дальнейшем планируется усовершенствовать сервис и анализировать действия клиентов в режиме реального времени.
Всероссийский банк развития регионов анализирует поведение владельцев пластиковых карт. Это позволяет выявить нетипичные для конкретного клиента операции, тем самым повышается вероятность выявления воровства денежных средств с пластиковых карточек.
Розничная торговля
В России технологии Больших Данных были внедрены компаниями как онлайн, так и офлайн торговли. На сегодняшний день, по данным CNews Analytics, Big Data используют 20% ритейлеров. 75% специалистов розничной торговли считают Большие Данные необходимыми для развития конкурентоспособной стратегии продвижения компании. По статистике Hadoop после внедрения технологии Больших Данных прибыль в торговых организациях вырастает на 7-10%.
Специалисты М.Видео говорят об улучшении логистического планирования после внедрения SAP HANA, также, в результате ее внедрения, подготовка годовой отчетности сократилась с 10 дней до 3, скорость ежедневной загрузки данных сократилась с 3 часов до 30 минут.
Wikimart используют данные технологии для формирования рекомендаций посетителям сайта.
Одним из первых офлайн-магазинов внедривших анализ Больших Данных в России, была «Лента». С помощью Big Data ритейл стал изучать информацию о покупателях из кассовых чеков. Ритейлер собирает информацию для составления поведенческих моделей, что дает возможность более обоснованно принимать решения на уровне операционной и коммерческой деятельности.
Нефтегазовая отрасль
В данной отрасли сфера применения Больших Данных достаточно широка. Технологии Больших Данных могут быть применены при добычи полезных ископаемых из недр. С их помощью можно анализировать сам процесс добычи и наиболее эффективные способы его извлечения, отслеживать процесс бурения, анализ качества сырья, а также обработку и сбыт конечной продукции. В России данными технологиями стали уже пользоваться Транснефть и Роснефть.
Государственные органы
В таких странах, как Германия, Австралия, Испания, Япония, Бразилия и Пакистан технологии Больших Данных используются для решения вопросов национального масштаба. Данные технологии помогают органам государственной власти более эффективно предоставлять услуги населению, оказывать адресную социальную поддержку.
В России данные технологии стали осваивать такие государственные органы, как Пенсионный Фонд, Федеральная Налоговая Служба и Фонда обязательного медицинского страхования. Потенциал реализации проектов с использованием Big Data большой, данные технологии могли бы помочь в улучшении качества сервисов, и, как следствие, уровня жизни населения.
Логистика и транспорт
Big Data также могут быть использованы транспортными компаниями. С помощью технологий Больших Данных можно отслеживать парк автомобилей, учитывать расходы на топливо, проводить мониторинг заявок клиентов.
РЖД внедрили технологии Big Data совместно с компанией SAP. Данные технологии помогли сократить срок подготовки отчетности в 43,5 раза (с 14,5 часов до 20 минут), повысить точность распределения затрат в 40 раз. Также Big Data были внедрены в процессы планирования и тарифного регулирования. Всего компаний используется более 300 систем на базе решений SAP, задействовано 4 дата-центра, а количество пользователей составило 220 000.
Основными барьерами для развития Big Data на российском рынке являются:
Тем не менее российский рынок, следуя мировым тенденциям, будет увеличиваться. По состоянию на 2014 год объем рынка компания IDC оценивает в 340 млн долл. США.
Темп роста рынка за предыдущие годы составлял 50% в год, если он останется на прежнем уровне, то уже в 2018 году объем рынка достигнет 1,7 млрд долл. США. Доля российского рынка в мировом составит около 3%, увеличившись с нынешних 1,2%.
К наиболее восприимчивым отраслям к использованию Big Data в России относятся:
Спасибо, что уделили время прочтению этой объемной работы, подписывайтесь на наш блог - обещаем много новых интересных публикаций!
Big Data – это не только сами данные, но и технологии их обработки и использования, методы поиска необходимой информации в больших массивах. Проблема больших данных по-прежнему остается открытой и жизненно важной для любых систем, десятилетиями накапливающих самую разнообразную информацию.
С данным термином связывают выражение «Volume, Velocity, Variety» – принципы, на которых строится работа с большими данными. Это непосредственно объем информации , быстродействие ее обработки и разнообразие сведений , хранящихся в массиве. В последнее время к трем базовым принципам стали добавлять еще один – Value , что обозначает ценность информации . То есть, она должна быть полезной и нужной в теоретическом или практическом плане, что оправдывало бы затраты на ее хранение и обработку.
В качестве примера типичного источника больших данных можно привести социальные сети – каждый профиль или публичная страница представляет собой одну маленькую каплю в никак не структурированном океане информации. Причем независимо от количества хранящихся в том или ином профиле сведений взаимодействие с каждым из пользователей должно быть максимально быстрым.
Большие данные непрерывно накапливаются практически в любой сфере человеческой жизни. Сюда входит любая отрасль, связанная либо с человеческими взаимодействиями, либо с вычислениями. Это и социальные медиа, и медицина, и банковская сфера, а также системы устройств, получающие многочисленные результаты ежедневных вычислений. Например, астрономические наблюдения, метеорологические сведения и информация с устройств зондирования Земли.
Информация со всевозможных систем слежения в режиме реального времени также поступает на сервера той или иной компании. Телевидение и радиовещание, базы звонков операторов сотовой связи – взаимодействие каждого конкретного человека с ними минимально, но в совокупности вся эта информация становится большими данными.
Технологии больших данных стали неотъемлемыми от научно-исследовательской деятельности и коммерции. Более того, они начинают захватывать и сферу государственного управления – и везде требуется внедрение все более эффективных систем хранения и манипулирования информацией.
Впервые термин «большие данные» появился в прессе в 2008 году, когда редактор журнала Nature Клиффорд Линч выпустил статью на тему развития будущего науки с помощью технологий работы с большим количеством данных. До 2009 года данный термин рассматривался только с точки зрения научного анализа, но после выхода еще нескольких статей пресса стала широко использовать понятие Big Data – и продолжает использовать его в настоящее время.
В 2010 году стали появляться первые попытки решить нарастающую проблему больших данных. Были выпущены программные продукты, действие которых было направлено на то, чтобы минимизировать риски при использовании огромных информационных массивов.
К 2011 году большими данными заинтересовались такие крупные компании, как Microsoft, Oracle, EMC и IBM – они стали первыми использовать наработки Big data в своих стратегиях развития, причем довольно успешно.
ВУЗы начали проводить изучение больших данных в качестве отдельного предмета уже в 2013 году – теперь проблемами в этой сфере занимаются не только науки о данных, но и инженерия вкупе с вычислительными предметами.
К основным методам анализа и обработки данных можно отнести следующие:
Данные методы достаточно многочисленны, но их объединяет одно: используемый математический инструментарий в совокупности с достижениями из сферы информационных технологий.
Данная методика позволяет получать данные одновременно из нескольких источников, причем количество последних практически не ограничено.
Из всего объема данных выбирается контрольная совокупность элементов, которую поочередно сравнивают с другими подобными совокупностями, где был изменен один из элементов. Проведение подобных тестов помогает определить, колебания какого из параметров оказывают наибольшее влияние на контрольную совокупность. Благодаря объемам Big Data можно проводить огромное число итераций, с каждой из них приближаясь к максимально достоверному результату.
Специалисты в данной области стараются заранее предугадать и распланировать то, как будет вести себя подконтрольный объект, чтобы принять наиболее выгодное в этой ситуации решение.
Основывается на эмпирическом анализе информации и последующем построении алгоритмов самообучения систем.
Наиболее распространенный метод для исследования социальных сетей – после получения статистических данных анализируются созданные в сетке узлы, то есть взаимодействия между отдельными пользователями и их сообществами.
В 2017 году, когда большие данные перестали быть чем-то новым и неизведанным, их важность не только не уменьшилась, а еще более возросла. Теперь эксперты делают ставки на то, что анализ больших объемов данных станет доступным не только для организаций-гигантов, но и для представителей малого и среднего бизнеса. Такой подход планируется реализовать с помощью следующих составляющих:
Хранение и обработка данных становятся более быстрыми и экономичными – по сравнению с расходами на содержание собственного дата-центра и возможное расширение персонала аренда облака представляется гораздо более дешевой альтернативой.
Так называемые «темные данные» – вся неоцифрованная информация о компании, которая не играет ключевой роли при непосредственном ее использовании, но может послужить причиной для перехода на новый формат хранения сведений.
Технология обучения машинного интеллекта, подражающая структуре и работе человеческого мозга, как нельзя лучше подходит для обработки большого объема постоянно меняющейся информации. В этом случае машина сделает все то же самое, что должен был бы сделать человек, но при этом вероятность ошибки значительно снижается.
Эта технология позволяет ускорить и упростить многочисленные интернет-транзакции, в том числе международные. Еще один плюс Блокчейна в том, что благодаря ему снижаются затраты на проведение транзакций.
В 2017 году планируется внедрить «платформы самообслуживания» – это бесплатные площадки, где представители малого и среднего бизнеса смогут самостоятельно оценить хранящиеся у них данные и систематизировать их.
Все маркетинговые стратегии так или иначе основаны на манипулировании информацией и анализе уже имеющихся данных. Именно поэтому использование больших данных может предугадать и дать возможность скорректировать дальнейшее развитие компании.
К примеру, RTB-аукцион, созданный на основе больших данных, позволяет использовать рекламу более эффективно – определенный товар будет показываться только той группе пользователей, которая заинтересована в его приобретении.
Например, один из самых популярных сервисов для прогнозирования вероятной популярности того или иного продукта – Google.trends. Он широко используется маркетологами и аналитиками, позволяя им получить статистику использования данного продукта в прошлом и прогноз на будущий сезон. Это позволяет руководителям компаний более эффективно провести распределение рекламного бюджета, определить, в какую область лучше всего вложить деньги.
Активное внедрение технологий Big Data на рынок и в современную жизнь началось как раз после того, как ими стали пользоваться всемирно известные компании, имеющие клиентов практически в каждой точке земного шара.
Это такие социальные гиганты, как Facebook и Google, IBM., а также финансовые структуры вроде Master Card, VISA и Bank of America.
К примеру, IBM применяет методы больших данных к проводимым денежным транзакциям. С их помощью было выявлено на 15% больше мошеннических транзакций, что позволило увеличить сумму защищенных средств на 60%. Также были решены проблемы с ложными срабатываниями системы – их число сократилось более, чем наполовину.
Компания VISA аналогично использовала Big Data, отслеживая мошеннические попытки произвести ту или иную операцию. Благодаря этому ежегодно они спасают от утечки более 2 млрд долларов США.
Министерство труда Германии сумело сократить расходы на 10 млрд евро, внедрив систему больших данных в работу по выдаче пособий по безработице. При этом было выявлено, что пятая часть граждан данные пособия получает безосновательно.
Big Data не обошли стороной и игровую индустрию. Так, разработчики World of Tanks провели исследование информации обо всех игроках и сравнили имеющиеся показатели их активности. Это помогло спрогнозировать возможный будущий отток игроков – опираясь на сделанные предположения, представители организации смогли более эффективно взаимодействовать с пользователями.
К числу известных организаций, использующих большие данные, можно также отнести HSBC, Nasdaq, Coca-Cola, Starbucks и AT&T.
Самой большой проблемой больших данных являются затраты на их обработку. Сюда можно включить как дорогостоящее оборудование, так и расходы на заработную плату квалифицированным специалистам, способным обслуживать огромные массивы информации. Очевидно, что оборудование придется регулярно обновлять, чтобы оно не теряло минимальной работоспособности при увеличении объема данных.
Вторая проблема опять же связана с большим количеством информации, которую необходимо обрабатывать. Если, например, исследование дает не 2-3, а многочисленное количество результатов, очень сложно остаться объективным и выделить из общего потока данных только те, которые окажут реальное влияние на состояние какого-либо явления.
Проблема конфиденциальности Big Data. В связи с тем, что большинство сервисов по обслуживанию клиентов переходят на онлайн-использование данных, очень легко стать очередной мишенью для киберпреступников. Даже простое хранение личной информации без совершения каких-либо интернет-транзакций может быть чревато нежелательными для клиентов облачных хранилищ последствиями.
Проблема потери информации. Меры предосторожности требуют не ограничиваться простым однократным резервированием данных, а делать хотя бы 2-3 резервных копии хранилища. Однако с увеличением объема растут сложности с резервированием – и IT-специалисты пытаются найти оптимальное решение данной проблемы.
По данным на 2014 год 40% объема рынка больших данных составляют сервисные услуги. Немного уступает (38%) данному показателю выручка от использования Big Data в компьютерном оборудовании. Оставшиеся 22% приходятся на долю программного обеспечения.
Наиболее полезные в мировом сегменте продукты для решения проблем Big Data, согласно статистическим данным, – аналитические платформы In-memory и NoSQL . 15 и 12 процентов рынка соответственно занимают аналитическое ПО Log-file и платформы Columnar. А вот Hadoop/MapReduce на практике справляются с проблемами больших данных не слишком эффективно.
Результаты внедрения технологий больших данных:
Подойдет для первоначального изучения технологий обработки больших данных – легко и понятно вводит в курс дела. Дает понять, как обилие информации повлияло на повседневную жизнь и все ее сферы: науку, бизнес, медицину и т. д. Содержит многочисленные иллюстрации, поэтому воспринимается без особых усилий.
Также полезная для новичков книга по Big Data, объясняющая работу с большими данными по принципу «от простого к сложному». Освещает многие немаловажные на начальном этапе моменты: подготовку к обработке, визуализацию, OLAP, а также некоторые методы анализа и классификации данных.
Практическое руководство по использованию больших данных и работе с ними с применением языка программирования Python. Подходит как студентам инженерных специальностей, так и специалистам, которые хотят углубить свои знания.
Hadoop – это проект, созданный специально для работы с распределенными программами, организующими выполнение действий на тысячах узлов одновременно. Знакомство с ним поможет более детально разобраться в практическом применении больших данных.
«Big Data» - тема, которая активно обсуждается технологическими компаниями. Некоторые из них успели разочароваться в больших данных, другие - напротив, максимально используют их для бизнеса… Свежий аналитический обзор отечественного и мирового рынка «Big Data», подготовленный Московской Биржей совместно с аналитиками «IPOboard », показывает, какие тренды наиболее актуальны сейчас на рынке. Надеемся, информация будет интересной и полезной.
Термин «Большие Данные» вызывает множество споров, многие полагают, что он означает лишь объем накопленной информации, но не стоит забывать и о технической стороне, данное направление включает в себя технологии хранения, вычисления, а также сервисные услуги.
Следует отметить, что к данной сфере относится обработка именно большого объема информации, который затруднительно обрабатывать традиционными способами*.
Ниже представлена сравнительная таблица традиционной и базы Больших Данных.
Сфера Больших Данных характеризуется следующими признаками:
Volume
– объем, накопленная база данных представляет собой большой объем информации, который трудоемко обрабатывать и хранить традиционными способами, для них требуются новый подход и усовершенствованные инструменты.
Velocity
– скорость, данный признак указывает как на увеличивающуюся скорость накопления данных (90% информации было собрано за последние 2 года), так и на скорость обработки данных, в последнее время стали более востребованы технологии обработки данных в реальном времени.
Variety
– многообразие, т.е. возможность одновременной обработки структурированной и неструктурированной разноформатной информации. Главное отличие структурированной информации – это то, что она может быть классифицирована. Примером такой информации может служить информация о клиентских транзакциях.
Неструктурированная информация включает в себя видео, аудио файлы, свободный текст, информацию, поступающую из социальных сетей. На сегодняшний день 80% информации входит в группу неструктурированной. Данная информация нуждается в комплексном анализе, чтобы сделать ее полезной для дальнейшей обработки.
Veracity
– достоверность данных, все большее значение пользователи стали придавать значимость достоверности имеющихся данных. Так, у интернет-компаний есть проблема по разделению действий, проводимых роботом и человеком на сайте компании, что приводит в конечном счете к затруднению анализа данных.
Value
– ценность накопленной информации. Большие Данные должны быть полезны компании и приносить определенную ценность для нее. К примеру, помогать в усовершенствовании бизнес-процессов, составлении отчетности или оптимизации расходов.
При соблюдении указанных выше 5 условий, накопленные объемы данных можно относить к числу больших.
Сферы применения Больших Данных
Сфера использования технологий Больших Данных обширна. Так, с помощью Больших Данных можно узнать о предпочтениях клиентов, об эффективности маркетинговых кампаний или провести анализ рисков. Ниже представлены результаты опроса IBM Institute, о направлениях использования Big Data в компаниях.
Как видно из диаграммы, большинство компаний используют Большие Данные в сфере клиентского сервиса, второе по популярности направление – операционная эффективность, в сфере управления рисками Большие Данные менее распространены на текущий момент.
Следует также отметить, что Big Data являются одной из самых быстрорастущих сфер информационных технологий, согласно статистике, общий объем получаемых и хранимых данных удваивается каждые 1,2 года.
За период с 2012 по 2014 год количество данных, ежемесячно передаваемых мобильными сетями, выросло на 81%. По оценкам Cisco, в 2014 году объем мобильного трафика составил 2,5 эксабайта (единица измерения количества информации, равная 10^18 стандартным байтам) в месяц, а уже в 2019 году он будет равен 24,3 эксабайтам.
Таким образом, Большие Данные – это уже устоявшаяся сфера технологий, даже несмотря на относительно молодой ее возраст, получившая распространение во многих сферах бизнеса и играющая немаловажную роль в развитии компаний.
К наиболее распространенным подходам обработки данных (ПО) относятся:
SQL
– язык структурированных запросов, позволяющий работать с базами данных. С помощью SQL можно создавать и модифицировать данные, а управлением массива данных занимается соответствующая система управления базами данных.
NoSQL
– термин расшифровывается как Not Only SQL (не только SQL). Включает в себя ряд подходов, направленных на реализацию базы данных, имеющих отличия от моделей, используемых в традиционных, реляционных СУБД. Их удобно использовать при постоянно меняющейся структуре данных. Например, для сбора и хранения информации в социальных сетях.
MapReduce
– модель распределения вычислений. Используется для параллельных вычислений над очень большими наборами данных (петабайты* и более). В программном интерфейсе не данные передаются на обработку программе, а программа – данным. Таким образом запрос представляет собой отдельную программу. Принцип работы заключается в последовательной обработке данных двумя методами Map и Reduce. Map выбирает предварительные данные, Reduce агрегирует их.
Hadoop
– используется для реализации поисковых и контекстных механизмов высоконагруженных сайтов – Facebook, eBay, Amazon и др. Отличительной особенностью является то, что система защищена от выхода из строя любого из узлов кластера, так как каждый блок имеет, как минимум, одну копию данных на другом узле.
SAP HANA
– высокопроизводительная NewSQL платформа для хранения и обработки данных. Обеспечивает высокую скорость обработки запросов. Еще одним отличительным признаком является то, что SAP HANA упрощает системный ландшафт, уменьшая затраты на поддержку аналитических систем.
К технологическому оборудованию относят:
Сервисные услуги.
Сервисные услуги включают в себя услуги по построению архитектуры системы базы данных, обустройству и оптимизации инфраструктуры и обеспечению безопасности хранения данных.
Программное обеспечение, оборудование, а также сервисные услуги вместе образуют комплексные платформы для хранения и анализа данных. Такие компании, как Microsoft, HP, EMC предлагают услуги по разработке, развертыванию решений Больших Данных и управления ими.
Розничная торговля
В базах данных розничных магазинов может быть накоплено множество информации о клиентах, системе управления запасами, поставками товарной продукции. Данная информация может быть полезна во всех сферах деятельности магазинов.
Так, с помощью накопленной информации можно управлять поставками товара, его хранением и продажей. На основании накопленной информации можно прогнозировать спрос и поставки товара. Также система обработки и анализа данных может решить и другие проблемы ритейлера, например, оптимизировать затраты или подготовить отчетность.
Финансовые услуги
Большие Данные дают возможность проанализировать кредитоспособность заемщика, также они полезны для кредитного скоринга* и андеррайтинга**. Внедрение технологий Больших Данных позволит сократить время рассмотрения кредитных заявок. С помощью Больших Данных можно проанализировать операции конкретного клиента и предложить подходящие именно ему банковские услуги.
Телеком
В телекоммуникационной отрасли широкое распространение Большие Данных получили у сотовых операторов.
Операторы сотовой связи наравне с финансовыми организациями имеют одни из самых объемных баз данных, что позволяет им проводить наиболее глубокий анализ накопленной информации.
Главной целью анализа данных является удержание существующих клиентов и привлечение новых. Для этого компании проводят сегментацию клиентов, анализируют их трафики, определяют социальную принадлежность абонента.
Помимо использования Big Data в маркетинговых целях, технологии применяются для предотвращения мошеннических финансовых операций.
Горнодобывающая и нефтяная промышленности
Большие Данные используются как при добыче полезных ископаемых, так и при их переработке и сбыте. Предприятия могут на основании поступившей информации делать выводы об эффективности разработки месторождения, отслеживать график капитального ремонта и состояния оборудования, прогнозировать спрос на продукцию и цены.
По данным опроса Tech Pro Research, наибольшее распространение Большие Данные получили в телекоммуникационной отрасли, а также в инжиниринге, ИТ, в финансовых и государственных предприятиях. По результатам данного опроса, менее популярны Большие Данные в образовании и здравоохранении. Результаты опроса представлены ниже:
Сферы применения обработанной информации разнообразны и варьируются в зависимости от отрасли и задач, которые необходимо выполнить.
Далее будут представлены примеры применения технологий Больших Данных на практике.
HSBC использует технологии Больших Данных для противодействия мошеннических операций с пластиковыми картами. С помощью Big Data компания увеличила эффективность службы безопасности в 3 раза, распознавание мошеннических инцидентов – в 10 раз. Экономический эффект от внедрения данных технологий превысил 10 млн долл. США.
Антифрод* VISA позволяет в автоматическом режиме вычислить операции мошеннического характера, система на данный момент помогает предотвратить мошеннические платежи на сумму 2 млрд долл. США ежегодно.
Суперкомпьютер Watson компании IBM анализирует в реальном времени поток данных по денежным транзакциям. По данным IBM, Watson на 15% увеличил количество выявленных мошеннических операций, на 50% сократил ложные срабатывания системы и на 60% увеличил сумму денежных средств, защищенных от транзакций такого характера.
Procter & Gamble
с помощью Больших Данных проектируют новые продукты и составляют глобальные маркетинговые кампании. P&G создал специализированные офисы Business Spheres, где можно просматривать информацию в реальном времени.
Таким образом, у менеджмента компании появилась возможность мгновенно проверять гипотезы и проводить эксперименты. P&G считают, что Большие Данные помогают в прогнозировании деятельности компании.
Ритейлер офисных принадлежностей OfficeMax с помощью технологий Больших Данных анализируют поведение клиентов. Анализ Big Data позволил увеличить B2B выручку на 13%, уменьшить затраты на 400 000 долларов США в год.
По мнению Caterpillar , ее дистрибьюторы ежегодно упускают от 9 до 18 млрд долл. США прибыли только из-за того, что не внедряют технологии обработки Больших Данных. Big Data позволили бы клиентам более эффективно управлять парком машин, за счет анализа информации, поступающей с датчиков, установленных на машинах.
На сегодняшний день уже есть возможность анализировать состояние ключевых узлов, их степени износа, управлять затратами на топливо и техническое обслуживание.
Luxottica group является производителем спортивных очков, таким марок, как Ray-Ban, Persol и Oakley. Технологии Больших Данных компания применяет для анализа поведения потенциальных клиентов и «умного» смс-маркетинга. В результате Big Data Luxottica group выделила более 100 миллионов наиболее ценных клиентов и повысила эффективность маркетинговой кампании на 10%.
С помощью Yandex Data Factory разработчики игры World of Tanks анализируют поведение игроков. Технологии Больших Данных позволили проанализировать поведение 100 тысяч игроков World of Tanks с использованием более 100 параметров (информация о покупках, играх, опыт и др.). В результате анализа был получен прогноз оттока пользователей. Данная информация позволяет уменьшить уход пользователей и работать с участниками игры адресно. Разработанная модель оказалась на 20-30% эффективнее стандартных инструментов анализа игровой индустрии.
Министерство труда Германии использует Большие Данные в работе, связанной с анализом поступающих заявок на выдачу пособий по безработице. Так, проанализировав информацию, стало понятно, что 20% пособий выплачивалось незаслуженно. С помощью Big Data министерство труда сократило расходы на 10 млрд евро.
Детская больница Торонто внедрила проект Project Artemis. Это информационная система, которая собирает и анализирует данные по младенцам в реальном времени. Система ежесекундно отслеживает 1260 показателей состояния каждого ребенка. Project Artemis позволяет прогнозировать нестабильное состояние ребенка и начать профилактику заболеваний у детей.
Большую часть выручки рынка Big Data, по мнению Wikibon, в 2014 году составили сервисные услуги, их доля была равно 40% в общем объеме выручки (см. диаграмму ниже):
Если рассматривать Big Data за 2014 год по подтипам, то рынок будет выглядеть следующим образом:
Согласно данным Wikibon, приложения и аналитика составляет 36% выручки Big Data в 2014 году принесли приложения и аналитика Больших Данных, 17% - вычислительное оборудование и 15% - технологии хранения данных. Меньше всего выручки было сгенерировано NoSQL технологиями, инфраструктурным оборудованием и обеспечением сетью компаний (корпоративные сети).
Наибольшей популярностью пользуются такие технологии Big Data, как in-memory платформы компаний SAP, HANA, Oracle и др. Результаты опроса T-Systems показали, что их выбрали 30% опрошенных компаний. Вторыми по популярности стали NoSQL платформы (18% пользователей), также компании использовали аналитические платформы компаний Splunk и Dell, их выбрало 15% компаний. Наименее полезными для решения проблем Больших Данных, по результатам опроса оказались продукты Hadoop/MapReduce.
По данным опроса Accenture, в более чем 50% компаниях, использующих технологии Больших Данных, затраты на Big Data составляют от 21% до 30%.
Согласно следующими анализу Accenture, 76% компаний, считают, что данные расходы увеличатся в 2015 году, а 24% компаний не изменят своего бюджета на технологии Больших Данных. Это говорит о том, что в данных компаниях Big Data стали уже устоявшимся направлением ИТ, ставшим неотъемлемой частью развития компании.
Результаты опроса Economist Intelligence Unit survey подтверждают положительный эффект от внедрения Big Data. 46% компаний заявляют, что с помощью технологий Больших Данных они улучшили клиентский сервис более, чем на 10%, 33% компаний оптимизировали запасы и улучшили продуктивность основных активов, 32% компаний улучшили процессы планирования.
Также, согласно опросу CIO, компании из стран Азиатско-Тихоокеанского региона быстрыми темпами осваивают новые решения в области анализа Больших Данных, безопасного хранения и облачных технологий. Латинская Америка находится на втором месте по количеству инвестиций в развитие технологий Больших Данных, опережая страны Европы и США.
Далее будет представлено описание и прогнозы развития рынка Больших Данных нескольких стран.
Китай
Объем информации Китая составляет 909 эксабайт, что равно 10% общего объема информации в мире, к 2020 году объем информации достигнет 8060 эксабайт, увеличится и доля информации в общемировой статистике, через 5 лет она будет равна 18%. Потенциальный рост Big Data Китая имеет одну из самых быстрорастущих динамик.
Бразилия
Бразилия по итогам 2014 года накопила информации на 212 эксабайт, что составляет 3% от общемирового объема. К 2020 году объем информации вырастет до 1600 эксабайт, что составит 4% информации всего мира.
Индия
По данным EMC, объем накопленных данных Индии по итогам 2014 года составляет 326 эксабайт, что составляет 5% от общего объема информации. К 2020 году объем информации вырастет до 2800 эксабайт, что составит 6% информации всего мира.
Япония
Объем накопленных данных Японии по итогам 2014 года составляет 495 эксабайт, что составляет 8% от общего объема информации. К 2020 году объем информации вырастет до 2200 эксабайт, но уменьшится доля рынка Японии и составит 5% об общего объема информации всего мира.
Таким образом, объем рынка Японии уменьшится на более, чем 30%.
Германия
По данным EMC, объем накопленных данных в Германии по итогам 2014 года составляет 230 эксабайт, что составляет 4% от общего объема информации в мире. К 2020 году объем информации вырастет до 1100 эксабайт и составит 2%.
На рынке Германии большую долю выручки, по прогнозам Experton Group, будет генерировать сегмент сервисных услуг, доля которых в 2015 году составит 54%, а в 2019 году увеличится до 59%, доли программного обеспечения и оборудования, наоборот, уменьшатся.
В целом, объем рынка вырастет с 1, 345 млрд евро в 2015 году до 3,198 млрд евро в 2019 году, средний темп роста составит 24%.
Таким образом, на основании аналитики CIO и EMC, можно сделать вывод о том, что развивающиеся страны мира в ближайшие годы станут рынками активного развития технологий Больших Данных.
По прогнозам IDC тенденции развития рынка выглядят следующим образом:
Согласно опросу Accenture, вопросы безопасности данных являются сейчас главным барьером на пути внедрения технологий Больших Данных, более 51% респондентов подтвердили, что беспокоятся за обеспечение защиты данных и их конфиденциальности. 47% компаний сообщили, о невозможности внедрения Big Data в связи с ограниченным бюджетом, 41% компаний в качестве проблемы указали нехватку квалифицированных кадров.
Wikibon прогнозирует, что объем рынка Big Data вырастет в 2015 году до 38,4 млрд долл. США и увеличится по сравнению с предыдущим годом на 36%. В ближайшие годы будет наблюдаться спад темпов роста до 10% в 2017 году. С учетом данных прогнозов, объем рынка в 2020 году будет равен 68,7 млрд долл. США.
Распределение общемирового рынка Больших Данных по бизнес-категориям будет выглядеть следующим образом:
Как видно из диаграммы, большую часть рынка будет занимать технологии из сферы улучшения клиентского сервиса. Точечный маркетинг будет на втором месте по приоритетности у компаний вплоть до 2019 года, в 2020 году, по прогнозу Heavy Reading, он уступит место решениям по улучшению операционной эффективности.
Самый высокий темп роста также будет у сегмента «улучшение клиентского сервиса», прирост - 49% ежегодно.
Прогноз рынка по подтипам Big Data будет выглядеть следующим образом:
Преобладающую долю рынка, как видно из диаграммы, занимают профессиональные услуги, самый высокий темп рост будет у приложений с аналитикой, их доля вырастет с нынешних 12% до 18% в 2020 году и объем данного сегмента будет равен 12,3 млрд долл. США, доля вычислительного оборудования, наоборот, упадет с 20% до 14% и составит порядка 9,3 млрд долл. США в 2020 году, рынок облачных технологий будет постепенно увеличиваться и в 2020 году достигнет 6,3 млрд долл. США, доля рынка решений для хранения данных, наоборот, уменьшится с 15% в 2014 году до 13% в 2020 году и в денежном выражении будет равна 8,9 млрд долл. США.
Согласно прогнозу Bain & Company’s Insights Analysis, распределение рынка Big Data по отраслям в 2020 году будет выглядеть следующим образом:
Энергетические компании будут инвестировать в данные технологии сравнительно небольшую сумму - 800 млн долл. США, но темп роста будет одним из самых высоких – 54% ежегодно.
Таким образом, большую долю рынка Big Data в 2020 году займут компании финансовой отрасли, а самым быстрорастущим сектором будет энергетика.
Следуя прогнозам аналитиков, общий объем рынка в ближайшие годы будет увеличиваться. Рост рынка будет обеспечен за счет внедрения технологий Больших Данных в развивающихся странах мира, как видно из представленного ниже графика.
Прогнозируемый объем рынка будет зависеть от того, как развивающиеся страны воспримут технологии Больших Данных, будет ли они также популярны как в развитых странах. В 2014 году развивающиеся страны мира занимали 40% от объема накопленной информации. По прогнозу EMC, нынешняя структура рынка, с преобладанием развитых стран, изменится уже в 2017 году. Согласно аналитике EMC, в 2020 году доля развивающихся стран будет более 60%.
По мнению Cisco и EMC, развивающиеся страны мира будут достаточно активно работать с Big Data, во многом это будет связано с доступностью технологий и накоплением достаточного объема информации до уровня Big Data. На карте мира, представленной на следующей странице, будет показан прогноз увеличения объема и темп роста Больших Данных по регионам.
В России большей популярностью технологии Больших Данных пользуются в банковской сфере и телекоме, но они также востребованы в сфере добывающей промышленности, энергетике, ритейле, в логистических компаниях и госсекторе.
Далее будут рассмотрены примеры применения Больших Данных в российских реалиях.
Телеком
Телеком-операторы имеют одни из самых объемных баз данных, что позволяет им проводить наиболее глубокий анализ накопленной информации.
Одной из сфер применения технологии Больших Данных является управление лояльностью абонентов.
Главной целью анализа данных является удержание существующих клиентов и привлечение новых. Для этого компании проводят сегментацию клиентов, анализируют их трафики, определяют социальную принадлежность абонента. Помимо использования информации в маркетинговых целях, в телекоме технологии применяются для предотвращения мошеннических финансовых операций.
Одним из ярких примеров данной отрасли является Вымпелком. Компания применяет Большие Данные для повышения качества обслуживания на уровне каждого абонента, составления отчетности, анализа данных для развития сети, борьбы со спамом и персонализации услуг.
Банки
Значительную долю пользователей Big Data занимают специалисты из финансовой отрасли. Одним из успешных опытов был проведен в Уральском банке реконструкции и развития, где информационную базу стали использовать для анализа клиентов, банк начал предлагать специализированные кредитные предложения, вклады и другие услуги. За год использования данных технологий розничный кредитный портфель компании вырос на 55%.
В Альфа-Банке анализируют информацию из социальных сетей, обрабатывают заявки на получение кредита, анализируют поведение пользователей сайта компании.
Сбербанк также приступил к обработке массива данных с целью сегментации клиентов, предотвращения мошеннических действий, перекрестных продаж и управления рисками. В дальнейшем планируется усовершенствовать сервис и анализировать действия клиентов в режиме реального времени.
Всероссийский банк развития регионов анализирует поведение владельцев пластиковых карт. Это позволяет выявить нетипичные для конкретного клиента операции, тем самым повышается вероятность выявления воровства денежных средств с пластиковых карточек.
Розничная торговля
В России технологии Больших Данных были внедрены компаниями как онлайн, так и офлайн торговли. На сегодняшний день, по данным CNews Analytics, Big Data используют 20% ритейлеров. 75% специалистов розничной торговли считают Большие Данные необходимыми для развития конкурентоспособной стратегии продвижения компании. По статистике Hadoop после внедрения технологии Больших Данных прибыль в торговых организациях вырастает на 7-10%.
Специалисты М.Видео говорят об улучшении логистического планирования после внедрения SAP HANA, также, в результате ее внедрения, подготовка годовой отчетности сократилась с 10 дней до 3, скорость ежедневной загрузки данных сократилась с 3 часов до 30 минут.
Wikimart используют данные технологии для формирования рекомендаций посетителям сайта.
Одним из первых офлайн-магазинов внедривших анализ Больших Данных в России, была «Лента». С помощью Big Data ритейл стал изучать информацию о покупателях из кассовых чеков. Ритейлер собирает информацию для составления поведенческих моделей, что дает возможность более обоснованно принимать решения на уровне операционной и коммерческой деятельности.
Нефтегазовая отрасль
В данной отрасли сфера применения Больших Данных достаточно широка. Технологии Больших Данных могут быть применены при добычи полезных ископаемых из недр. С их помощью можно анализировать сам процесс добычи и наиболее эффективные способы его извлечения, отслеживать процесс бурения, анализ качества сырья, а также обработку и сбыт конечной продукции. В России данными технологиями стали уже пользоваться Транснефть и Роснефть.
Государственные органы
В таких странах, как Германия, Австралия, Испания, Япония, Бразилия и Пакистан технологии Больших Данных используются для решения вопросов национального масштаба. Данные технологии помогают органам государственной власти более эффективно предоставлять услуги населению, оказывать адресную социальную поддержку.
В России данные технологии стали осваивать такие государственные органы, как Пенсионный Фонд, Федеральная Налоговая Служба и Фонда обязательного медицинского страхования. Потенциал реализации проектов с использованием Big Data большой, данные технологии могли бы помочь в улучшении качества сервисов, и, как следствие, уровня жизни населения.
Логистика и транспорт
Big Data также могут быть использованы транспортными компаниями. С помощью технологий Больших Данных можно отслеживать парк автомобилей, учитывать расходы на топливо, проводить мониторинг заявок клиентов.
РЖД внедрили технологии Big Data совместно с компанией SAP. Данные технологии помогли сократить срок подготовки отчетности в 43,5 раза (с 14,5 часов до 20 минут), повысить точность распределения затрат в 40 раз. Также Big Data были внедрены в процессы планирования и тарифного регулирования. Всего компаний используется более 300 систем на базе решений SAP, задействовано 4 дата-центра, а количество пользователей составило 220 000.
Основными барьерами для развития Big Data на российском рынке являются:
Тем не менее российский рынок, следуя мировым тенденциям, будет увеличиваться. По состоянию на 2014 год объем рынка компания IDC оценивает в 340 млн долл. США.
Темп роста рынка за предыдущие годы составлял 50% в год, если он останется на прежнем уровне, то уже в 2018 году объем рынка достигнет 1,7 млрд долл. США. Доля российского рынка в мировом составит около 3%, увеличившись с нынешних 1,2%.
К наиболее восприимчивым отраслям к использованию Big Data в России относятся:
Спасибо, что уделили время прочтению этой объемной работы, подписывайтесь на наш блог - обещаем много новых интересных публикаций!
Термин «Биг-Дата», возможно, сегодня уже узнаваем, но вокруг него все еще довольно много путаницы относительно того, что же он означает на самом деле. По правде говоря, концепция постоянно развивается и пересматривается, поскольку она остается движущей силой многих продолжающихся волн цифрового преобразования, включая искусственный интеллект, науку о данных и Интернет вещей. Но что же представляет собой технология Big-Data и как она меняет наш мир? Давайте попробуем разобраться объяснить суть технологии Биг-Даты и что она означает простыми словами.
Все началось со «взрыва» в объеме данных, которые мы создали с самого начала цифровой эпохи. Это во многом связано с развитием компьютеров, Интернета и технологий, способных «выхватывать» данные из окружающего нас мира. Данные сами по себе не являются новым изобретением. Еще до эпохи компьютеров и баз данных мы использовали бумажные записи транзакций, клиентские записи и архивные файлы, которые и являются данными. Компьютеры, в особенности электронные таблицы и базы данных, позволили нам легко и просто хранить и упорядочивать данные в больших масштабах. Внезапно информация стала доступной при помощи одного щелчка мыши.
Тем не менее, мы прошли долгий путь от первоначальных таблиц и баз данных. Сегодня через каждые два дня мы создаем столько данных, сколько мы получили с самого начала вплоть до 2000 года. Правильно, через каждые два дня. И объем данных, которые мы создаем, продолжает стремительно расти; к 2020 году объем доступной цифровой информации возрастет примерно с 5 зеттабайтов до 20 зеттабайтов.
В настоящее время почти каждое действие, которое мы предпринимаем, оставляет свой след. Мы генерируем данные всякий раз, когда выходим в Интернет, когда переносим наши смартфоны, оборудованные поисковым модулем, когда разговариваем с нашими знакомыми через социальные сети или чаты и т.д. К тому же, количество данных, сгенерированных машинным способом, также быстро растет. Данные генерируются и распространяются, когда наши «умные» домашние устройства обмениваются данными друг с другом или со своими домашними серверами. Промышленное оборудование на заводах и фабриках все чаще оснащается датчиками, которые аккумулируют и передают данные.
Термин «Big-Data» относится к сбору всех этих данных и нашей способности использовать их в своих интересах в широком спектре областей, включая бизнес.
Биг Дата работает по принципу: чем больше вы знаете о том или ином предмете или явлении, тем более достоверно вы сможете достичь нового понимания и предсказать, что произойдет в будущем. В ходе сравнения большего количества точек данных возникают взаимосвязи, которые ранее были скрыты, и эти взаимосвязи позволяют нам учиться и принимать более взвешенные решения. Чаще всего это делается с помощью процесса, который включает в себя построение моделей на основе данных, которые мы можем собрать, и дальнейший запуск имитации, в ходе которой каждый раз настраиваются значения точек данных и отслеживается то, как они влияют на наши результаты. Этот процесс автоматизирован — современные технологии аналитики будут запускать миллионы этих симуляций, настраивая все возможные переменные до тех пор, пока не найдут модель — или идею — которые помогут решить проблему, над которой они работают.
Бил Гейтс висит над бумажным содержимым одного компакт диска
До недавнего времени данные были ограничены электронными таблицами или базами данных — и все было очень упорядочено и аккуратно. Все то, что нельзя было легко организовать в строки и столбцы, расценивалось как слишком сложное для работы и игнорировалось. Однако прогресс в области хранения и аналитики означает, что мы можем фиксировать, хранить и обрабатывать большое количество данных различного типа. В результате «данные» на сегодняшний день могут означать что угодно, начиная базами данных, и заканчивая фотографиями, видео, звукозаписями, письменными текстами и данными датчиков.
Чтобы понять все эти беспорядочные данные, проекты, имеющие в основе Биг Дату, зачастую используют ультрасовременную аналитику с привлечением искусственного интеллекта и компьютерного обучения. Обучая вычислительные машины определять, что же представляют собой конкретные данные — например, посредством распознавания образов или обработки естественного языка – мы можем научить их определять модели гораздо быстрее и достовернее, чем мы сами.
Этот постоянно увеличивающийся поток информации о данных датчиков, текстовых, голосовых, фото- и видеоданных означает, что теперь мы можем использовать данные теми способами, которые невозможно было представить еще несколько лет назад. Это привносит революционные изменения в мир бизнеса едва ли не в каждой отрасли. Сегодня компании могут с невероятной точностью предсказать, какие конкретные категории клиентов захотят сделать приобретение, и когда. Биг Дата также помогает компаниям выполнять свою деятельность намного эффективнее.
Даже вне сферы бизнеса проекты, связанные с Big-Data, уже помогают изменить наш мир различными путями:
Лучшие книги о технологии Big-Data
Биг Дата дает нам беспрецедентные идеи и возможности, но также поднимает проблемы и вопросы, которые необходимо решить:
Выполнение этих задач является важной составляющей Биг Даты, и их необходимо решать организациям, которые хотят использовать такие данные. Неспособность осуществить это может сделать бизнес уязвимым, причем не только с точки зрения его репутации, но также с юридической и финансовой стороны.
Данные меняют наш мир и нашу жизнь небывалыми темпами. Если Big-Data способна на все это сегодня — просто представьте, на что она будет способна завтра. Объем доступных нам данных только увеличится, а технология аналитики станет еще более продвинутой.
Для бизнеса способность применять Биг Дату будет становиться все более решающей в ближайшие годы. Только те компании, которые рассматривают данные как стратегический актив, выживут и будут процветать. Те же, кто игнорирует эту революцию, рискуют остаться позади.
В свое время я услышал термин “Big Data” от Германа Грефа (глава Сбербанка). Мол, они сейчас у себя активно работают над внедрением, потому что это поможет им сократить время работы с каждым клиентом.
Второй раз я столкнулся с этим понятием в интернет-магазине клиента, над которым мы работали и увеличивали ассортимент с пары тысяч до пары десятков тысяч товарных позиций.
Третий раз, когда увидел, что в Yandex требуется аналитик big data. Тогда я решил поглубже разобраться в этой теме и заодно написать статью, которая расскажет что это за термин такой, который будоражит умы ТОП-менеджеров и интернет-пространство.
Обычно любую свою статью я начинаю с пояснения что же это за термин такой. Эта статья не станет исключением.
Однако, это вызвано прежде всего не желанием показать какой я умный, а тем, что тема по-настоящему сложная и требует тщательного пояснения.
К примеру, Вы можете почитать что такое big data в Википедии, ничего не понять, а потом вернуться в эту статью, чтобы все таки разобраться в определении и применимости для бизнеса. Итак, начнём с описания, а потом к примерам для бизнеса.
Big data это большие данные. Удивительно, да? Реально, с английского это переводится как “большие данные”. Но это определение, можно сказать, для чайников.
Важно . Технология big data это подход/метод обработки большего числа данных для получения новой информации, которые тяжело обработать обычными способами.
Данные могут быть как обработанными (структурированными), так и разрозненными (то есть неструктурированными).
Сам термин появился относительно недавно. В 2008 году в научном журнале этот подход предсказывался как нечто необходимое для работы с большим объемом информации, которая увеличивается в геометрической прогрессии.
К примеру, ежегодно информация в интернете, которую нужно хранить, ну и само собой обрабатывать, увеличивается на 40%. Еще раз. +40% каждый год появляется в интернете новой информации.
Если распечатанные документы понятны и способы обработки их тоже понятны (перенести в электронный вид, сшить в одну папку, пронумеровать), то что делать с информацией, которая представлена в совершенно других “носителях” и других объёмах:
Есть характеристики, которые позволяют отнести информацию и данные именно к big data.
То есть не все данные могут быть пригодны для аналитики. В этих характеристиках как раз и заложено ключевое понятие биг дата. Все они умещаются в три V.
Однако, периодически к VVV добавляют и четвертую V (veracity - достоверность/правдоподобность данных) и даже пятую V (в некоторых вариантах это - viability - жизнеспособность, в других же это - value - ценность).
Где-то я видел даже 7V, которые характеризуют данные, относящиеся к биг дата. Но на мой взгляд это из серии (где периодически добавляются P, хотя для понимания достаточно начальных 4-х).
Встает логичный вопрос, как можно использовать информацию (если что, биг дата это сотни и тысячи терабайт)? Даже не так.
Вот есть информация. Так для чего придумали тогда биг дата? Какое применение у big data в маркетинге и в бизнесе?
Биг дата же решает эту главную задачу. Успешно хранит и управляет информацией с большим объемом;
Это сложно. Если говорить просто, то любой маркетолог, который понимает, что если изучить большой объем информации (о Вас, Вашей компании, Ваших конкурентах, Вашей отрасли), то можно получить очень приличные результаты:
И именно потому что технология big data дает следующие результаты, все с ней и носятся.
Пытаются прикрутить это дело в свою компанию, чтобы получить увеличение продаж и уменьшение издержек. А если конкретно, то:
Самый распространенный пример, который приводится во всех источниках - это, конечно ж, компания Apple, которая собирает данные о своих пользователях (телефон, часы, компьютер).
Именно из-за наличия эко-системы корпорация столько знает о своих пользователях и в дальнейшем использует это для получения прибыли.
Эти и другие примеры использования Вы можете прочитать в любой другой статье кроме этой.
Я же Вам расскажу о другом проекте. Вернее о человеке, который строит будущее, используя big data решения.
Это Илон Маск и его компания Tesla. Его главная мечта - сделать автомобили автономными, то есть Вы садитесь за руль, включаете автопилот от Москвы до Владивостока и... засыпаете, потому что Вам совершенно не нужно управлять автомобилем, ведь он все сделает сам.
Казалось бы, фантастика? Но нет! Просто Илон поступил гораздо мудрее, чем Google, которые управляют автомобилями с помощью десятков спутников. И пошел другим путем:
Всю - это значит вообще всю. О водителе, стиле его вождения, дорогах вокруг, движении других автомобилей. Объем таких данных доходит до 20-30 ГБ в час;
К слову, если у Google дела идут довольно скверно и их автомобили все время попадают в аварии, то у Маска, за счет того что идет работа с big data, дела обстоят гораздо лучше, ведь тестовые модели показывают очень неплохие результаты.
https://youtu.be/lc2ZVUZ6kno
Но... Это все из экономики. Что мы все о прибыли, да о прибыли? Многое, что может решить биг дата, совершенно не связано с заработком и деньгами.
Статистика Google, как раз таки основанная на big data, показывает интересную вещь.
Перед тем как медики объявляют о начале эпидемии заболевания в каком-то регионе, в этом регионе существенно возрастает количество поисковых запросов о лечении данного заболевания.
Таким образом, правильное изучение данных и их анализ может сформировать прогнозы и предсказать начало эпидемии (и, соответственно, ее предотвращение) гораздо быстрее, чем заключение официальных органов и их действия.
Однако, Россия как всегда немного “притормаживает”. Так само определение big data в России появилось не более, чем 5 лет назад (я сейчас именно про обычные компании).
И это не смотря на то, что это один из самых быстрорастущих рынков в мире (наркотики и оружие нервно курят в сторонке), ведь ежегодно рынок программного обеспечения для сбора и анализа big data прирастает на 32%.
Чтобы охарактеризовать рынок big data в России, мне вспоминается одна старая шутка. Биг дата это как секс до 18 лет.
Все об этом говорят, вокруг этого много шумихи и мало реальных действий, и всем стыдно признаться, что сами-то они этим не занимаются. И правда, вокруг этого много шумихи, но мало реальных действий.
Хотя известная исследовательская компания Gartner уже в 2015 году объявила, что биг дата это уже не возрастающий тренд (как кстати и искусственный интеллект), а вполне самостоятельные инструменты для анализа и развития передовых технологий.
Наиболее активные ниши, где применяется big data в России, это банки/страхование (недаром я начал статью с главы Сбербанка), телекоммуникационная сфера, ритейл, недвижимость и... государственный сектор.
Для примера расскажу более подробно о паре секторов экономики, которые используют алгоритмы big data.
Начнём с банков и той информации, которую они собирают о нас и наших действиях. Для примера я взял ТОП-5 российских банков, которые активно инвестируют в big data:
Особенно приятно видеть в числе российских лидеров Альфа Банк. Как минимум, приятно осознавать, что банк, официальным партнером которого ты являешься, понимает необходимость внедрения новых маркетинговых инструментов в свою компанию.
Но примеры использования и удачного внедрения big data я хочу показать на банке, который мне нравится за нестандартный взгляд и поступки его основателя.
Я говорю про Тинькофф банк. Их главной задачей стояла разработка системы для анализа больших данных в режиме реального времени из-за разросшейся клиентской базы.
Результаты: время внутренних процессов сократилось минимум в 10 раз, а для некоторых – более, чем в 100 раз.
Ну и небольшое отвлечение. Знаете почему я заговорил про нестандартные выходки и поступки Олега Тинькова?
Просто на мой взгляд именно они помогли ему превратиться из бизнесмена средней руки, коих тысячи в России, в одного из самых известных и узнаваемых предпринимателей. В подтверждение посмотрите это необычное и интересное видео:
https://youtu.be/XHMaD5HAvfk
В недвижимости все гораздо сложнее. И это именно тот пример, который я хочу Вам привести для понимания биг даты в пределах обычного бизнеса. Исходные данные:
И на основе этого нужно подготовить и оценить стоимость земельного участка, например, под уральской деревней. У профессионала на это уйдет неделя.
У Российского общества оценщиков & РОСЭКО, собственно которые и внедрили себе анализ big data с помощью программного обеспечения, уйдет на это не более 30 минут неторопливой работы. Сравните, неделя и 30 минут. Колоссальная разница.
Конечно же огромные объемы информации не могут храниться и обрабатываться на простых жестких дисках.
А программное обеспечение, которое структурирует и анализирует данные - это вообще интеллектуальная собственность и каждый раз авторская разработка. Однако, есть инструменты, на основе которых создается вся эта прелесть:
Если честно, я не смогу Вам внятно объяснить чем они отличаются друг от друга, так как знакомству и работе с этими вещами учат в физико-математических институтах.
Зачем тогда я об этом заговорил, если не смогу объяснить? Помните во всех кино грабители заходят в любой банк и видят огромное число всяких железяк, подключенных к проводам?
То же самое и в биг дате. К примеру, вот модель, которая является на данный момент одним из самых лидеров на рынке.
Инструмент Биг дата
Стоимость в максимальной комплектации доходит до 27 миллионов рублей за стойку. Это, конечно, люксовая версия. Я это к тому, чтобы Вы заранее примерили создание big data в своем бизнесе.
Вы можете спросить зачем же вам, малому и среднему бизнесу работа с биг дата?
На это я отвечу Вам цитатой одного человека: “В ближайшее время клиентами будут востребованы компании, которые лучше понимают их поведение, привычки и максимально соответствуют им”.
Но давайте взглянем правде в глаза. Чтобы внедрить биг дата в малом бизнесе, это надо обладать не только большими бюджетами на разработку и внедрение софта, но и на содержание специалистов, хотя бы таких как аналитик big data и сисадмин.
И это я сейчас молчу о том, что у Вас должны быть такие данные для обработки.
Окей. Для малого бизнеса тема почти не применима. Но это не значит, что Вам нужно забыть все что прочитали выше.
Просто изучайте не свои данные, а результаты аналитики данных известных как зарубежных, так и российских компаний.
К примеру, розничная сеть Target с помощью аналитики по big data выяснила, что беременные женщины перед вторым триместром беременности (с 1-й по 12-ю неделю беременности) активно скупают НЕароматизированные средства.
Благодаря этим данным они отправляют им купоны со скидками на неароматизированные средства с ограниченным сроком действия.
А если Вы ну прям совсем небольшое кафе, к примеру? Да очень просто. Используйте приложение лояльности.
И через некоторое время и благодаря накопленной информации, Вы сможете не только предлагать клиентам релевантные их потребностям блюда, но и увидеть самые непродающиеся и самые маржинальные блюда буквально парой щелчков мышки.
Отсюда вывод. Внедрять биг дата малому бизнесу вряд ли стоит, а вот использовать результаты и наработки других компаний - обязательно.