Типовые задачи анализа данных. Компьютерный анализ данных

Прочие модели 26.05.2019

Прочие модели

Два подхода к анализу данных

Любая организация в процессе своей деятельности стремится повысить прибыль и уменьшить расходы. В этом ей помогают новые компьютерные технологии, использование разнообразных программ автоматизации бизнес-процессов. Это учетные, бухгалтерские и складские системы, системы управленческого учета и многие другие. Чем аккуратнее и полнее ведется сбор и систематизация информации, тем полнее будет представление о процессах в организации. Современные носители информации позволяют хранить десятки и сотни гигабайт информации, но без использования специальных средств анализа накопленной информации такие носители превращаются просто в свалку бесполезных сведений. Очень часто принятие правильного решения затруднено тем, что хотя данные и имеются, они являются неполными, или, наоборот, избыточными, замусорены информацией, которая вообще не имеет отношения к делу, несистематизированными или систематизированными неверно. Тогда прибегают к помощи программных средств, которые позволяют привести информацию к виду, который дает возможность с достаточной степенью достоверности оценить содержащиеся в ней факты и повысить вероятность принятия оптимального решения.

Есть два подхода к анализу данных с помощью информационных систем.

В первом варианте программа используется для визуализации информации - извлечения данных из источников и предоставления их человеку для самостоятельного анализа и принятия решений. Обычно данные, предоставляемые программой, являются простой таблицей, и в таком виде их очень сложно анализировать, особенно если данных много, но имеются и более удобные способы отображения: кубы, диаграммы, гистограммы, карты, деревья…

Второй вариант использования программного обеспечения для анализа – это построение моделей . Модель имитирует некоторый процесс, например, изменение объемов продаж некоторого товара, поведение клиентов и другое. Для построения модели необходимо сделать предобработку данных и далее к ним применять математические методы анализа: кластеризацию, классификацию, регрессию и т. д. Построенную модель можно использовать для принятия решений, объяснения причин, оценки значимости факторов, моделирования различных вариантов развития…

Рассмотрим пример. Предоставление скидки покупателям является стимулом для увеличения объемов закупок. Чем больше продается некоторого товара, тем больше прибыль. С другой стороны, чем больше предоставляется скидка, тем меньше наценка на товар и тем меньше прибыли приносят продажи этого товара. Пусть есть история продаж, представленная таблицей со столбцами: дата, объем продаж, скидка в процентах, наценка и прибыль. При проведении анализа «вручную» можно рассмотреть диаграмму.

Анализ данных - область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных; процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений. Анализ данных имеет множество аспектов и подходов, охватывает разные методы в различных областях науки и деятельности.

Интеллектуальный анализ данных - это особый метод анализа данных, который фокусируется на моделировании и открытии данных, а не на их описании.

Не следует путать с Извлечением информации. Извлечение информации (англ. information extraction ) - это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов.

Извлечение информации является разновидностью информационного поиска, связанного с обработкой текста на естественном языке. Примером извлечения информации может быть поиск деловых визитов - формально это записывается так: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита), - из новостных лент, таких как: «Вчера, 1 апреля 2007 года, представители корпорации Пепелац Интернэшнл посетили офис компании Гравицап Продакшнз». Главная цель такого преобразования - возможность анализа изначально «хаотичной» информации с помощью стандартных методов обработки данных. Более узкой целью может служить, например, задача выявить логические закономерности в описанных в тексте событиях.

В современных информационных технологиях роль такой процедуры, как извлечение информации, всё больше возрастает - из-за стремительного увеличения количества неструктурированной (без метаданных) информации, в частности, в Интернете. Эта информация может быть сделана более структурированной посредством преобразования в реляционную форму или добавлением XML разметки. При мониторинге новостных лент с помощью интеллектуальных агентов как раз и потребуются методы извлечения информации и преобразования её в такую форму, с которой будет удобнее работать позже.

Типичная задача извлечения информации: просканировать набор документов, написанных на естественном языке, и наполнить базу данных выделенной полезной информацией. Современные подходы извлечения информации используют методы обработки естественного языка , направленные лишь на очень ограниченный набор тем (вопросов, проблем) - часто только на одну тему.

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных ) - собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году.

Английское словосочетание «Data Mining » пока не имеет устоявшегося перевода на русский язык. При передаче на русском языке используются следующие словосочетания: просев информации , добыча данных , извлечение данных , а, также, интеллектуальный анализ данных . Более полным и точным является словосочетание «обнаружение знаний в базах данных » (англ. knowledge discovering in databases , KDD).

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).

Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений, что позволяет использовать инструментарий Data Mining людьми, не имеющими специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.

Бизнес-аналитика охватывает анализ данных, который полагается на агрегацию.

Business intelligence или сокращенно BI - бизнес-анализ, бизнес-аналитика. Под этим понятием чаще всего подразумевают программное обеспечение, созданное для помощи менеджеру в анализе информации о своей компании и её окружении. Существует несколько вариантов понимания этого термина.

Бизнес-аналитика - это методы и инструменты для построения информативных отчётов о текущей ситуации. В таком случае цель бизнес-аналитики - предоставить нужную информацию тому человеку, которому она необходима в нужное время. Эта информация может оказаться жизненно необходимой для принятия управленческих решений.
Бизнес-аналитика - это инструменты, используемые для преобразования, хранения, анализа, моделирования, доставки и трассировки информации в ходе работы над задачами, связанными с принятием решений на основе фактических данных. При этом с помощью этих средств лица, принимающие решения, должны при использовании подходящих технологий получать нужные сведения и в нужное время.

Таким образом, BI в первом понимании является лишь одним из секторов бизнес-аналитики в более широком втором понимании. Помимо отчётности туда входят инструменты интеграции и очистки данных (ETL), аналитические хранилища данных и средства Data Mining.

BI-технологии позволяют анализировать большие объёмы информации, заостряя внимание пользователей лишь на ключевых факторах эффективности, моделируя исход различных вариантов действий, отслеживая результаты принятия тех или иных решений.

Термин впервые появился в 1958 году в статье исследователя из IBM Ханса Питера Луна (англ. Hans Peter Luhn ). Он определил этот термин как: «Возможность понимания связей между представленными фактами.»

BI в сегодняшнем понимании эволюционировал из систем для принятия решений, которые появились в начале 1960-х и разрабатывались в середине 1980-х.

В 1989 году Говард Дреснер (позже аналитик Gartner) определил Business intelligence как общий термин, описывающий «концепции и методы для улучшения принятия бизнес-решений с использованием систем на основе бизнес-данных».

В статистическом смысле некоторые разделяют анализ данных на описательную статистику, исследовательский анализ данных и проверку статистических гипотез.

Цель описательной (дескриптивной) статистики - обработка эмпирических данных, их систематизация, наглядное представление в форме графиков и таблиц, а также их количественное описание посредством основных статистических показателей.

В отличие от индуктивной статистики дескриптивная статистика не делает выводов о генеральной совокупности на основании результатов исследования частных случаев. Индуктивная же статистика напротив предполагает, что свойства и закономерности, выявленные при исследовании объектов выборки, также присущи генеральной совокупности.

Исследовательский анализ данных это подход к анализу данных с целью формулировки гипотез стоящих тестирования, дополняющий инструментами стандартной статистики для тестирования гипотез. Названо Джоном Тьюки для отличия от проверки статистических гипотез, термином используемым для набора идей о тестировании гипотез, достигаемом уровне значимости, доверительном интервале и прочих, которые формируют ключевые инструменты в арсенале практикующих статистиков.

Исследовательский анализ данных занимается открытием новых характеристик данных, а проверка статистических гипотез на подтверждении или опровержении существующих гипотез.

Проверки статистических гипотез - один из классов задач в математической статистике.

Пусть в (статистическом) эксперименте доступна наблюдению случайная величина, распределение которой известно полностью или частично. Тогда любое утверждение, касающееся называется статистической гипотезой . Гипотезы различают по виду предположений, содержащихся в них:

Статистическая гипотеза, однозначно определяющая распределение, то есть, где какой-то конкретный закон, называется простой .

Статистическая гипотеза, утверждающая принадлежность распределения к некоторому семейству распределений, то есть вида, где - семейство распределений, называется сложной .

На практике обычно требуется проверить какую-то конкретную и как правило простую гипотезу. Такую гипотезу принято называть нулевой . При этом параллельно рассматривается противоречащая ей гипотеза, называемая конкурирующей или альтернативной .

Выдвинутая гипотеза нуждается в проверке, которая осуществляется статистическими методами, поэтому гипотезу называют статистической. Для проверки гипотезы используют критерии, позволяющие принять или опровергнуть гипотезу.

В большинстве случаев статистические критерии основаны на случайной выборке фиксированного объема из распределения. В последовательном анализе выборка формируется в ходе самого эксперимента и потому её объем является случайной величиной (см. Последовательный статистический критерий).

Введение

Настоящий выпуск является вторым из серии выпусков, в которых излагается курс «Математическое моделирование геологических объектов», сопровождаемый учебно-методическими рекомендациями, контрольными вопросами и комментариями. В этом выпуске первоочередное внимание уделяется анализу данных как самостоятельной научной дисциплине и в его сопряжении с прикладной статистикой. Излагается, конечно, не «весь» анализ данных, а только отдельные его фрагменты, необходимые для понимания курса в целом. Приводятся минимально необходимые сведения о прикладной статистике.

Математическое моделирование геологических объектов тесно связано с анализом данных, как самостоятельной научной дисциплиной, и прикладной статистикой.

Каким образом анализ данных, математическое моделирование и прикладная статистика совместно используются при решении конкретных геологических задач и, в частности, при создании моделей геологических объектов? Обычно создание модели геологического объекта разбивается на ряд подзадач, образующих единую блок-схему с последовательным и параллельным движением обрабатываемой информации от исходных процедур к конечному результату – синтезу модели.

Решение каждой из таких подзадач сводится либо к построению и анализу некоторой частной модели, либо к поиску стохастической зависимости между некоторыми параметрами, либо к решению той или иной типовой задачи анализа данных и т.п. В последнем случае выбирается алгоритм, удовлетворяющий требованиям, предъявляемым исходной информацией. Требования эти могут иметь как чисто формальный характер (например, наличие в таблице разнотипных признаков делает невозможным применение некоторых алгоритмов), так и представлять собой «трудно» формализуемые представления о системе исследуемых объектов, которыми тоже не следует пренебрегать.

В настоящее время не существует универсального формально-математического способа для выбора подходящего алгоритма. Поэтому при выборе алгоритма наряду с проверкой его формально-математической пригодности рекомендуется ориентироваться и на его относительную простоту и содержательную интерпретируемость используемого математического аппарата в конкретной задаче, опыт применения алгоритма при решении аналогичных задач.

Распознавание образов

Основные подзадачи

Основными подзадачами задачи распознавания являются:

1 ) создание исходного списка признаков;

2 ) выбор классов объектов;

3 ) подготовка таблицы (таблиц) обучения;

4 ) выбор семейства решающих правил;

5 ) поиск оптимального (относительно некоторого критерия или критериев) решающего правила в этом семействе;

6 ) подготовка описаний проб;

7 ) распознавание проб.

На этапах 1 -3 производится выбор и экспликация признаков (см. пособие Красавчикова, 2008) и составление базы данных.

При создании исходного перечня признаков могут быть реализованы два подхода:

А ) всестороннее описание объектов, характерное для ситуаций, когда исследователь не знает, из каких признаков должен быть составлен окончательный список (информативная система признаков), по которому будет производиться распознавание проб. Поэтому он отбирает такие признаки, которые, в принципе, могут содержать полезную информацию (хотя, на первый взгляд, их связь с решаемой задачей может быть и не очевидна), и полагается в выборе информативной системы признаков на алгоритм и реализующую его программу.

Б ) описание объектов, основанное на некоторой геологической модели, для которой список признаков заранее известен.

При выборе классов объектов исходят не только из постановки задачи (например, разбраковать локальные поднятия на перспективные и бесперспективные по результатам интерпретации данных сейсморазведки), но и основываются на геологическом смысле и опыте решения аналогичных задач. Возможно, придётся проводить декомпозицию задачи и осуществлять поэтапное решение в рамках последовательно-параллельной блок-схемы несколько задач распознавания.

При подготовке таблицы (таблиц) обучения следует, по-возможности, избегать появления характеристических признаков, замеренных в шкале наименований (номинальных) с числом принимаемых ими значений, превосходящим два, поскольку они резко ограничивают выбор алгоритма распознавания. Они могут содержать весьма существенную информацию, но лучше, чтобы они не входили в список характеристических признаков. Обычно, по значениям таких признаков формируются классы.

Выбор семейства решающих правил не является формальной процедурой. Однако, при этом выборе есть и формальные требования. Например, если среди признаков есть номинальные или ранговые, то можно использовать только те алгоритмы, которые способны работать с информацией, представленной в качественных шкалах.

Одним из главных критериев выбора решающего правила является его «простота». Практика показала, что предпочтение следует отдавать более простым решающим правилам. Если среди «простых» решающих правил (причём, доступных исследователю в программной реализации) не удаётся найти способного справиться с поставленной задачей (или, в случае (а ), радикально сократить размерность описания), то переходят к более сложным и т.д.

Формализовать понятие простоты не так-то просто! В математической логике и теории алгоритмов есть целое направление, связанное с формализацией и изучением простоты математических конструкций, но знакомство с этой тематикой не входит в задачи курса. Поэтому будем относиться к этой проблематике как интуитивно ясной. По всей видимости, примером наиболее простых решающих правил могут служить линейные (см. ниже). Если есть два линейных решающих правила, то более простым, очевидно, является то, которое использует меньшее число признаков.

В случае (а ) при выборе семейства решающих правил следует обращать особое внимание на способность радикального сокращения размерности описания.

После выбора семейства проводится поиск решающей функции и соответствующего правила, которые в этом семействе обладают «наилучшим качеством» по отношению к материалу обучения и экзамена.

Для оценки качества решающего правила используются функционалы наподобие нижеприведённого:

Δ(F,λ,ε)=p 1 M 1 + p 2 M 2 +p 3 M 3 + p 4 M 4 ,

где для материала обучения и экзамена

M 1 – число ошибочно распознанных объектов первого класса;

M 2 – число ошибочно распознанных объектов второго класса;

M 3 – число отказов для объектов первого класса;

M 4 – число отказов для объектов второго класса.

Коэффициенты p j , j=1,…,4, – «штрафы» за ошибку соответствующего типа. Чем меньше значение Δ(F,λ,ε) (при фиксированных списках объектов обучения и экзамена), тем выше качество решающего правила.

После того, как для всех объектов обучения и экзамена вычислены значения решающей функции, управляющие параметры алгоритма λ, ε могут быть выбраны оптимальным образом, т.е. так, чтобы функционал качества решающего правила достигал минимума:

Δ(F,λ * ,ε *)=min Δ(F,λ,ε),

где минимум берётся по всемλ, ε и ε>0.

В случае (а ) ещё одним (и не менее важным) критерием качества является резко сокращение числа признаков, используемых в распознавании, по сравнению с исходным списком. Это обусловлено тем, что

Малое число признаков уменьшает влияние «информационных шумов», что делает распознавание более надёжным;

Сокращается время на подготовку описаний проб. Так, при распознавании в узлах сеток уменьшается число карт, которые приходится строить;

Появляется возможность содержательно проинтерпретировать решающее правило и т.д.

Описание проб производится по признакам, используемым в оптимальном решающем правиле. В случае (а ) это особенно важно, т.к., в частности, существенно сокращается время на подготовку описаний.

Примеры алгоритмов распознавания

К настоящему времени опубликованы сотни методов распознавания. Они объединяются в семейства. Зачастую, эти семейства описываются в виде решающих функций (либо правил) с неопределёнными параметрами. Устоявшейся общепризнанной классификации семейств алгоритмов распознавания не существует. Поэтому ограничимся кратким описанием нескольких семейств алгоритмов, показавших свою эффективность при решении прикладных геологических задач, особенно в геологии нефти и газа.

Для подробного ознакомления с применением методов распознавания в геологии нефти и газа отсылаем читателя к публикациям 60-80 годов прошлого века, когда их использование при решения задач прогнозно-поискового профиля было массовым. Методы распознавания применялись, в частности, при решении задач прогноза гигантских нефтяных месторождений, продуктивности локальных поднятий, фазового состояния УВ в залежах и др. (Распознавание образов…, 1971; Раздельное прогнозирование…, 1978, Прогноз месторождений …, 1981 и др.).

4.3.1. Байесовские решающие правила

Эти решающие правила подробно охарактеризованы в учебном пособии Дёмина (2005), куда мы и отсылаем читателя. Для более глубокого ознакомления с приложениями байесовской теории принятия решений в геологии нефти и газа рекомендуем обратиться к монографии (Прогноз месторождений…, 1981).

4.3.2. Комбинаторно-логические методы в распознавании

Применение этих методов рассмотрим на примере одной конкретной схемы распознавания, основанной на аппарате дискретной математики и математической логики.

Пусть сначала для простоты изложения все признаки X 1 ,…,X n – бинарные. Согласно Журавлёву (1978) назовём произвольную совокупность W наборов признаков вида w=(X j (1) ,…,X j (k)), где k=1,…,n, системой опорных множеств, W={w 1 , w 2 ,…, w N }, а её элементы w r – опорными множествами.

Пусть wÎW, w=(X j (1) ,…,X j (L)), S k – строка таблицы , Q p – строка таблицы . Строки S k и Q p различаются по набору признаков w, если найдётся входящий в w признак X j (r) такой, что X j (r) (S k)¹X j (r) (Q p). В противном случае будем говорить, что они не различаются.

Определение 1 .Набор признаков wÎW голосует за отнесение строки S к первому классу, если в таблице T 1 найдётся строка S k , такая, что по набору w строки S и S k не различаются; w голосует за отнесение строки S ко второму классу, если в таблице T 2 найдётся строка Q p , такая, что по набору w строки S и Q p не различаются.

при Г 1 (S) > Q p) и Г 2 (S) ≤ Г 2 (S i) объект S относится к классу K 1 ;

при Г 2 (S) > S i) и Г 1 (S) ≤ Г 1 (Q p) объект S относится к классу K 2 ;

в остальных случаях S не распознаётся.

Смысл этого решающего правила заключается в том, что для отнесения пробы S к классу K j , где j=1,2, она должна получить

Эта схема представляет собой один из простейших вариантов голосования по системе опорных множеств. Алгоритм представляет собой реализацию так называемого «принципа частичной прецедентности» (Журавлёв, 1978), при котором заключение о принадлежности объекта к классу выносится на основе анализа совпадений фрагментов его описания с соответствующими фрагментами описаний объектов этого класса. Совпадение фрагментов описаний объекта обучения и пробы является частичным прецедентом.

Пример системы опорных множеств: тестовая конструкция. Её основой являются понятия теста и тупикового теста, предложенные С.В. Яблонским в качестве математического аппарата диагностики технических устройств (Журавлёв, 1978).

Определение 2. Набор столбцовw называется тестом для пары таблиц T 1 , T 2 если по нему нет совпадений между строками S i и Q p , где

Определение 3 .Тест называетсятупиковым, если из него нельзя удалить ни одного столбца без того, чтобы он перестал быть тестом.

Дмитриев, Журавлёв, Кренделев (1966) воспользовались аппаратом тупиковых тестов для создания алгоритмов классификации предметов и явлений.

В геологии нефти и газа комбинаторно-логические методы впервые были применены при решении задач прогноза гигантских нефтяных месторождений (Распознавание образов …, 1971), где была использована тестовая конструкция. Под руководством А.А. Трофимука тестовый подход применён также и к решению других важнейших прогнозных задач геологии нефти и газа (Раздельное прогнозирование…, 1978 и др.). Ряд сделанных А.А. Трофимуком прогнозов, не нашедших поддержки в момент опубликования, в дальнейшем блестяще подтвердились.

Константиновым, Королёвой, Кудрявцевым (1976) на представительном фактическом материале по прогнозу рудоносности была подтверждена эффективность алгоритмов тестового подхода по сравнению с другими алгоритмами распознавания, применявшимися для решения задач рудопрогноза.

В геологии нефти и газа другие системы опорных множеств не применялись.

Если в таблицах встречаются признаки, замеренные в количественных шкалах, то для них используются пороговые меры различимости значений (см. Красавчиков, 2009).

4.3.1. Линейные методы

Линейные методы стали применяться для решения задач распознавания образов одними из первых (см.. Ту, Гонсалес, 1978) в середине прошлого века.

Пусть F(u 1 ,…,u n)=a 1 u 1 + a 2 u 2 + … +a n u n – линейная функция n переменных u 1 ,…,u n . Методы отыскания линейных решающих функций и правил принято называть линейными. Общий вид линейных решающих правил может быть задан следующим образом:

при a 1 X 1 (S) + a 2 X 2 (S) + … +a n X n (S)≥λ+ε объект S относится к К 1 ;

при a 1 X 1 (S) + a 2 X 2 (S) + … +a n X n (S)≤λ-ε объект S относится к К 2 ;

при λ-ε

Пусть , . Для проверки существования линейного решающего правила достаточно убедиться в существовании решения системы линейных неравенств для какого-либо ε>0:

где j=1,…,n, i=1,…,m(1), k=m(1)+1,…,m c неизвестными y 1 ,…,y n (искомыми значениями коэффициентов a j) и λ. Для проверки существования решения систем линейных неравенств используются вычислительные методы линейной алгебры; эта проверка является «не слишком сложной», а программное обеспечение содержится в общераспространённых пакетах. Если решение существует, то оно либо единственно, либо их бесконечно много.

Существуют многочисленные методы нахождения линейных решающих правил, реализующие различные дополнительные требования (типа максимизации ε, сокращения размерности описания и пр.).

Геометрическая интерпретация линейного решающего правила заключается в следующем. Пусть все признаки замерены в количественных шкалах и E n – n-мерное евклидово пространство. Гиперплоскость a 1 x 1 +a 2 x 2 +…+a n x n = λ делит E n на две части таким образом, что в каждой из них находятся точки только одного из классов. Такие гиперплоскости называются разделяющими .

Ситуация заметно усложняется, если разделяющей гиперплоскости не существует и нужно отыскать гиперплоскость, минимизирующую функционал качества распознавания. С вычислительной точки зрения эта задача является намного более сложной.

Линейные методы распознавания использовались в течение ряда лет для прогноза продуктивности локальных поднятий и уточнения границ природных резервуаров УВ в нижне -среднеюрских отложениях Западной Сибири (Каштанов, Соколов, 1976, Красавчиков, 2007).

Упорядочение

На практике вместо отыскания решающей функции, удовлетворяющей цепочке неравенств (1), зачастую достаточно получить «хорошую» корреляцию упорядочения по убыванию значений функции F с упорядочением на материале обучения. Это имеет принципиальное значение, поскольку решающей функции, для которой выполняются неравенства (1), в классах «простых» функций (типа линейных и т.п.) может и не существовать. Для приближённого решения этой задачи можно применять математический аппарат множественной линейной регрессии, реализованный в программном продукте Statistica for Windows.

Пусть приближённое решение F ищется в классе линейных функций,

F(u 1 ,u 2 ,…,u n)=a 1 u 1 +a 2 u 2 +…+a n u n +b ,

где a 1 ,…,a n , b – коэффициенты при переменных и свободный член соответственно, Ψ – некоторая монотонная функция, определённая на множестве значений целевого признака (например, логарифм, см. пояснение в разделе 10). Тогда, решая задачу множественной линейной регрессии вида:

найти a 1 ,…, a n , b , при которых функционал

достигает минимума ,

мы получаем приближённое решение задачи упорядочения через аппроксимацию некоторой монотонной функции от целевого признака. Поскольку функция Ψ монотонна, можно, используя коэффициент Спирмена, оценить достоверность связи между решением регрессионной задачи и значениями целевого признака X n +1 . Значение r s является естественным показателем качества приближённого решения задачи упорядочения.

Можно показать, что для отыскания точного решения F в классе линейных решающих функций достаточно решить систему m-1 нестрогих линейных неравенств c n неизвестными p 1 ,…,p n:

, i=1,…,m-1, (3)

где n – число признаков, e>0 – малая положительная константа. При этом, как легко видеть, разности X j (S i) - X j (S i +1)=H ij являются известными величинами. Обратно, из существования решения системы линейных неравенств (3) вытекает существование решения системы неравенств (2). Однако, как уже отмечалось, в классе линейных решающих функций решения может и не существовать.

Программное обеспечение для решения систем нестрогих линейных неравенств отсутствует в пакете Statistica. Однако оно, в принципе, является достаточно распространённым и содержится в программных продуктах, предназначенных для решения задач вычислительной алгебры.

Кластер-анализ

Существует большое количество методов и алгоритмов кластер анализа. Среди них выделяются две крупные группы, к которым относится большинство опубликованных алгоритмов. Это иерархические алгоритмы, порождающие древовидные классификации объектов, и алгоритмы, порождающие разбиения (группировки).

Иерархические алгоритмы

Среди иерархических алгоритмов можно выделить два основных класса – агломеративные и дивизимные. Это – пошаговые алгоритмы. Агломеративные алгоритмы начинают с того, что каждый объект является отдельным кластером, а заканчивают тем, что все кластеры объединяются в один объект. На каждом шаге производится объединение двух наиболее «близких» в некотором смысле кластеров. Близость между кластерами задаётся «расстоянием» либо мерой близости. Под «расстоянием» в данном случае понимается неотрицательная симметричная функция. Примеры таких функций будут рассмотрены ниже. В дивизимных же методах, наоборот, на первом шаге все объекты образуют один кластер, на последнем – каждый объект представляет отдельный кластер.

6.1.1. Агломеративные алгоритмы

Рассмотрим агломеративные методы, представленные в пакете Statistica for Windows. Для этого сначала определим функции, с помощью которых оцениваются расстояния между конечными подмножествами метрического пространства M .

Пусть множество описаний объектов S= {S 1 ,…,S m } признаками X 1 (S),…,X n (S) содержится в евклидовом пространстве E n , так что для любой пары объектов S i , S j из S определена метрика (расстояние) ρ ij = ρ(S i ,S j) и можно составить симметричную матрицу расстояний R=(ρ ij) m ´ m . Приведём примеры функций двух переменных, значения которых играют в кластер-анализе роль расстояний между непересекающимися подмножествами, хотя, формально, эти функции не являются метриками. Пусть A l , A q Ì S неимеют общих элементов, A l ÇA q = Æ. Тогда:

а) ρ lq равно расстоянию между двумя ближайшими объектами множеств A l , A q ;.

б) ρ lq равно расстоянию между самыми далекими объектами множеств A l , A q ;

в) ρ lq равно расстоянию между центрами тяжести множеств A l , A q (точек со средними

значениями всех показателей);

г) ρ lq равно среднему арифметическому расстояний между объектами множеств A l , A q ;

д) ρ lq равно расстоянию между точками с медианными значениями признаков для мно-

жеств A l , A q ;

е) ρ lq равно сумме расстояний между элементами множеств A l , A q .

ж) ρ lq равно так называемому «статистическому расстоянию» (Дюран, Оделл, 1977) между

множествами A l , A q:

Здесь – векторы средних значений признаков для подмножеств A l , A q , T – знак транспонирования. Таким образом, «статистическое расстояние» между подмножествами A l , A q представляет собой квадрат расстояния между векторами средних значений признаков (центрами тяжести) с коэффициентом m l m q /(m l +m q) .

В иерархических агломеративных алгоритмах, основанных на вычислении «расстояний» между подмножествами A l , A q вида (а-ж) и им подобных, на первом шаге каждый объект считается отдельным кластером. На следующем шаге объединяются два ближайших объекта, которые образуют новый класс, определяются «расстояния» от этого класса до всех остальных объектов. Матрица расстояний, соответственно, изменяется с учётом результатов кластеризации, включая уменьшение её размерности. На р-м шаге для кластеров и матрицы расстояний предыдущего шага R p -1 повторяется та же процедура, пока все объекты не объединятся в один кластер. В отличие от R 1 =R, при p>1 элементами R p являются не расстояния между объектами, а «расстояния» между кластерами.

Если сразу несколько объектов (либо кластеров) имеют минимальное «расстояние», то возможны две стратегии: выбрать одну случайную пару или объединить сразу все пары. Первый способ является классическим; иногда в литературе его называют восходящей иерархической классификацией. Второй способ используется гораздо реже.

Метод, основанный на вычислении «статистического расстояния» (см. п. (ж) выше) называется методом Уорда (Мандель, 1988) по имени предложившего его специалиста. Названия остальных методов определяются используемым в них расстоянием.

Результаты работы всех иерархических агломеративных процедур обычно оформляются в виде так называемой дендрограммы (см. рис. 1), в которой по горизонтали показаны номера объектов, а по вертикали – значения межкластерных расстояний ρ lq , при которых произошло объединение двух кластеров.

6.1.2. Дивизимные алгоритмы

Этот класс алгоритмов кластер-анализа опишем на примере «Быстрого дивизимного комбинационного алгоритма», предложенного Chaudhuri (Мандель, 1988). Проведённые в ИНГГ эксперименты показали его высокую эффективность при решении задачи кластеризации разрезов по толщинам составляющих их горизонтов на основе информации, содержащейся в сетках толщин. Обработка информации по средней юре юго-востока ЗСП показала, что он быстро и «разумно» кластеризует огромные массивы данных, представленных сеточными моделями. Другими алгоритмами кластеризовать эти массивы, состоящие, порой, из миллиона с лишним объектов, охарактеризованных более чем 10 признаками, часто невозможно либо крайне затруднительно. Алгоритм Chaudhuri (Чаудури) в программном продукте “Statistica for Windows” не представлен.

Этот алгоритм для краткости будем называть также алгоритмом гиперкубов. Приведём его краткое описание.

Гиперкуб, в котором содержатся все точки (определяемый размахами вариации признаков), разбивается на первом шаге по каждой оси перпендикулярной ей плоскостью на 2 n «кубика», где n –число признаков. На j -м шаге каждый из этих кубиков также разбивается, т. е. получается 2 n j гиперкуба. Если в полученном кубе есть хоть один объект, он считается заполненным, если нет – пустым. Кластером здесь называется максимально большая связная область, в которой любые два объекта соединены непустыми клетками (т.е. компонента связности графа, вершинами которого являются объекты, и две вершины в котором соединены ребром если и только если они либо находятся в одной клетке либо вмещающие их клетки имеют общую границу, пусть даже состоящую из одной точки).

По мере увеличения j число кластеров растет, т.е. алгоритм носит дивизимный характер. Он принадлежит к числу наиболее быстрых иерархических алгоритмов, не требует предварительной нормировки показателей, хранения и пересчёта матрицы расстояний, может работать в исходном пространстве. Эти и некоторые другие особенности относят его к числу наиболее предпочтительных алгоритмов для построения иерархических классификаций в случае больших баз данных.

Раздел 2

1. Решающая функция в распознавании образов – это отображение, переводящее набор значений разнотипных признаков X 1 (S),…,X n (S) в число. Это число – значение решающей функции F на объекте S. Решающее правило в распознавании образов – это высказывание, которое содержит значения решающей функции и управляющих параметров и, с учётом этих значений, либо относит пробу к одному из классов, либо отказывается от распознавания.

2. Сформулируйте понятие решающей функции применительно к задаче упорядочения.

3. Может ли целевой признак применительно к сформулированной в разделе 2 версии задачи упорядочения быть а) логическим; б) номинальным?

4. Почему на начальных этапах развития кластер - анализа его (в противовес распознаванию образов) называли «обучением без учителя»?

5. Зависимость между признаками может быть представлена как в виде, разрешённом относительно того или иного признака, например, X j ≈ f(X i ,X k ,…,X l), так и без такого разрешения. Например, (ln(X j)) 2 + ln(X j +X k) -1≈0.

6. Сформулируйте задачу распознавания как задачу заполнения единичного пропуска.

7. Сформулируйте задачу заполнения единичного пропуска в бинарном или номинальном признаке как задачу распознавания.

Раздел 3

1. В каких случаях и почему для оценки связи между количественными признаками рационально использовать ранговый коэффициент Спирмена?

2. Всегда ли множественная линейная регрессия будет точно решать задачу упорядочения?

3. Можно ли применять линейную регрессионную модель из раздела 3, если Y- ранговый признак?

4. Можно ли применять линейную регрессионную модель из раздела 3, если Y- номинальный признак?

5. Можно ли применять линейную регрессионную модель из раздела 3, если хотя бы один признак из списка X 1 ,…,X n – ранговый или номинальный?

6. Можно ли без предварительной нормировки признаков сопоставлять веса, с которыми они входят в уравнение регрессии, с целью их упорядочения по влиянию на значение прогнозируемого показателя?

7. Что такое b в разделе «Множественная линейная регрессия» пакета “Statistica for Windows? Как величины b j могут быть использованы при сравнении характеристических признаков по их влиянию на значение зависимого (целевого) признака?

Раздел 4

1. В чём заключается экспликация на этапе формирования списка исходных признаков?

2. Каким образом штрафы за ошибки и отказы позволяют регулировать оценку качества распознавания?

3. Какое из двух линейных решающих правил, имеющих одинаковую оценку качества распознавания, предпочтительнее: использующее 5 признаков или 7?

4. Если метод распознавания используется для уточнения границ (по латерали) геологического объекта в осадочной толще, то некоторый процент отказов или даже ошибок в узлах сетки может и не повлиять на прогнозируемое расположение его границы. В результате решения задачи распознавания образов для узлов сетки на принадлежность локального участка (центром которого является узел) к моделируемому объекту появляется предварительная версия границы. Обычно, в результате анализа полученной версии, геологическая ситуация, в целом, становится ясной, так что исследователь уже в состоянии «самостоятельно» провести границу объекта.

5. В результате решения задач распознавания с использованием признаков, рассчитанных по сеткам реперных геофизических поверхностей и данным глубокого бурения (разбивки по стратиграфическим уровням, толщины горизонтов и пр.), в ИНГГ СО РАН были уточнены границы (по латерали) основных стратиграфических горизонтов в нижне-среднеюрских отложениях Западной Сибири, что, в свою очередь, позволило уточнить оценки ресурсов УВ юры ряда крупных регионов.

6. Читая работы по применению методов распознавания в геологии нефти и газа, следует иметь в виду, что, обычно, исследователь опирается на свой опыт решения аналогичных задач и литературные данные; при этом использует не «самое лучшее» программное обеспечение, а то, которым располагает и умеет пользоваться.

7. Опыт решения многочисленных практических задач в области моделирования геологических объектов в слоистой толще позволяет сформулировать нижеследующие требования к алгоритмам и программному обеспечению распознавания образов применительно к моделированию региональных, зональных и локальных объектов в осадочном бассейне:

- «уметь» работать с признаками, заданными на сетках;

- отыскивать простые и легко интерпретируемые решающие правила;

- обеспечивать эффективное снижение размерности описания n ;

- работать с зависимыми и разнотипными признаками;

- учитывать сложный характер разделения классов (по латерали).

Раздел 5

Множественный линейный регрессионный анализ предназначен для отыскания линейной зависимости признака Y от признаков X 1 ,…,X n

Y≈a 1 X 1 +…+ a n X n + b =L(X 1 ,..., X n). (4)

В задаче упорядочения требуется решить более общую задачу: отыскать зависимость F, которая расставляет объекты обучения в порядке по убыванию значений целевого признака X n +1 . При этом может оказаться так, что значения функции F у объектов обучения и проб не будут совпадать со значениями целевого признака.

Решение линейной регрессионной задачи по нахождению минимума функционала (4) может не привести к нахождению приемлемой аппроксимации решения задачи упорядочения. Однако, можно попытаться провести преобразование целевого признака X n +1 монотонной функцией Ψ таким образом, чтобы для Ψ(X n +1) методом наименьших квадратов можно было получить искомую аппроксимацию. Поскольку Ψ монотонна, это даёт решение задачи упорядочения.

«Универсального» способа выбора Ψ, скорее всего, не существует. Однако можно привести некоторые практические рекомендации по его подбору.

Монотонная функция Ψ, как правило, используется в том случае, когда «обычный» коэффициент парной корреляции r (Дёмин, 2005, с. 42-44) между значениями целевого признака X n +1 и соответствующими значениями, рассчитанными по уравнению множественной линейной регрессии, «мал». При этом содержательные соображения позволяют предполагать, что упорядочить объекты по убыванию целевого признака X n +1 по значениям X 1 ,..., X n всё-таки можно. Чаще всего множественная линейная регрессия с «удачно подобранным» Ψ успешно применяется, когда распределение значений в последовательности X n +1 (S m), X n +1 (S m -1),…, X n +1 (S 1) имеет ярко выраженный нелинейный характер, сопоставимый, например, с экспонентой. Функция Ψ, обычно, выбирается таким образом, чтобы, по возможности, устранить резкую нелинейность. Логарифм – типичный пример подобной функции, неоднократно использованный в подобных ситуациях при решении практических задач

Раздел 6

1.Пусть A l ={(0,1), (2,0), (2,3)}, A q ={(5,1), (6,2), (8,3), (9,5), (10,7)}. Рассчитайте расстояния (а –ж).

2. Полагая S= A l ÈA q решите задачу кластеризации совокупности объектов S методом Чоудари

3. На локальном уровне для отдельной площади или скопления площадей («малой» зоны) кластер-анализ успешно применяется при корреляции дизъюнктивных нарушений по данным 3D-сейсморазведки (Кашик и др, 2004).

Опыт применения кластер-анализа на региональном и зональном уровне показал, что эти методы могут давать полезную информацию об истории развития изучаемых толщ и тектонических процессах, типах геологических разрезов, их раcпространении по латерали, зонах развития коллекторов в них, нефтегазоносности. Однако для этого, как выяснилось, нужны достаточно «густые» регулярные сетки толщин отложений, поэтому главный фактор, сдерживающий его применение при региональных и зональных построениях (в случае «больших» территорий), – необходимость хранения и пересчётов матрицы расстояний для всей совокупности объектов.

Если исходить из оценки трудоёмкости вычислений, то на локальном уровне, за исключением обработки данных 3D-cейсморазведки , вполне можно использовать практически любые алгоритмы кластер-анализа. При региональных и зональных построениях с использованием сеточных моделей (в случае «больших» территорий), а также при обработке данных 3D-сейсморазведки (даже на уровне отдельной площади или «малой зоны»), целесообразно выбирать алгоритм, не требующий пересчёта матрицы расстояний, например, метод Чоудари.

4. Наметим, в общих чертах, подход, позволяющий эффективно использовать кластер-анализ данных бурения при прогнозных построениях. Пусть, например, анализируются данные по какому-либо региональному или зональному резервуару УВ. На основании некоторого исходного списка признаков (не включающего результаты испытаний скважин и их координаты) производится кластеризация объектов.

При анализе информации вы часто будете сталкиваться с тем, что теоретическое великолепие методов анализа разбивается о действительность. Ведь вроде все давно решено, известно множество методов решения задач анализа. Почему же довольно часто они не работают?

Дело в том, что безупречные с точки зрения теории методы имеют мало общего с действительностью. Чаще всего аналитик сталкивается с ситуацией, когда трудно сделать какие-либо четкие предположения относительно исследуемой задачи. Модель не известна, и единственным источником сведений для ее построения является таблица экспериментальных данных типа "вход – выход", каждая строка которой содержит значения входных характеристик объекта и соответствующие им значения выходных характеристик.

В результате они вынуждены использовать всякого рода эвристические или экспертные предположения и о выборе информативных признаков, и о классе моделей, и о параметрах выбранной модели. Эти предположения аналитика основываются на его опыте, интуиции, понимании смысла анализируемого процесса. Выводы, получаемые при таком подходе, базируются на простой, но фундаментальной гипотезе о монотонности пространства решений, которую можно выразить так: "Похожие входные ситуации приводят к похожим выходным реакциям системы". Идея на интуитивном уровне достаточно понятная, и этого обычно достаточно для получения практически приемлемых решений в каждом конкретном случае.

В результате применения такого метода решений академическая строгость приносится в жертву реальному положению вещей. Собственно, в этом нет ничего нового. Если какие – то подходы к решению задачи вступают в противоречие с реальностью, то обычно их изменяют. Возвращаясь к анализу данных, или, вернее, к тому, что сейчас называют Data Mining, следует обратить внимание еще на один момент: процесс извлечения знаний из данных происходит по той же схеме, что и установление физических законов: сбор экспериментальных данных, организация их в виде таблиц и поиск такой схемы рассуждений, которая, во-первых, делает полученные результаты очевидными и, во-вторых, дает возможность предсказать новые факты. При этом имеется ясное понимание того, что наши знания об анализируемом процессе, как и любом физическом явлении, в какой – то степени приближение. Вообще, всякая система рассуждений о реальном мире предполагает разного рода приближения. Фактически термин Data Mining – это попытка узаконить физический подход в отличие от математического к решению задач анализа данных. Что же мы вкладываем в понятие "физический подход"?

Это такой подход, при котором аналитик готов к тому, что анализируемый процесс может оказаться слишком запутанным и не поддающимся точному анализу с помощью строгих аналитических методов. Но можно все же получить хорошее представление о его поведении в различных обстоятельствах, подходя к задаче с различных точек зрения, руководствуясь знанием предметной области, опытом, интуицией и используя различные эвристические подходы. При этом мы движемся от грубой модели ко все более точным представлениям об анализируемом процессе. Слегка перефразировав Р. Фейнмана, скажем так: можно идеально изучить характеристики анализируемой системы, стоит только не гнаться за точностью.

Общая схема работы при этом выглядит следующим образом:

Таким образом, данный подход подразумевает, что:

При анализе нужно отталкиваться от опыта эксперта.
Необходимо рассматривать проблему под разными углами и комбинировать подходы.
Не стоит стремиться сразу к высокой точности. Двигаться к решению нужно от более простых и грубых моделей ко все более сложным и точным.
Стоит останавливаться как только получим приемлемый результат, не стремясь получить идеальную модель.
По прошествии времени и накоплению новых сведений нужно повторять цикл – процесс познания бесконечен.

Пример работы

В качестве примера можно в общих чертах рассмотреть процесс анализа рынка недвижимости в г. Москве. Цель – оценка инвестиционной привлекательности проектов. Одна из задач, решаемых при этом, – построение модели ценообразования для жилья в новостройках, другими словами, количественную зависимость цены жилья от ценообразующих факторов. Для типового жилья таковыми, в частности, являются:

Местоположение дома (престижность района; инфраструктура района; массовая или точечная застройка; окружение дома (напр. нежелательное соседство с промышленными предприятиями, "хрущевками", рынками и т.д.); экология района (близость к лесопарковым массивам))
Местоположение квартиры (этаж – первые и последние этажи дешевле; секция – квартиры в торцевых секциях дешевле; ориентация квартиры по сторонам света – северная сторона дешевле; вид из окон).
Тип дома (самая популярная серия П-44Т).
Площадь квартиры.
Наличие лоджий (балконов)
Стадия строительства (чем ближе к сдаче дома, тем выше цена за кв.м).
Наличие отделки ("черновая" отделка, частичная отделка, под ключ. Большинство новостроек сдаются с черновой отделкой).
Телефонизация дома.
Транспортное сообщение (близость к метро, удаленность от крупных магистралей, удобный подъезд, наличие автостоянки около дома (наличие парковочных мест)).
Кто продает квартиру ("из первых рук" (инвестор, застройщик) или посредники (риэлтеры). Риэлтеры, как правило, берут за свои услуги – 3-6%).

Это далеко неполный перечень, но и он повергает в уныние. Вот тут-то очень кстати приходится высказывание Р. Фейнмана ("можно идеально изучить характеристики анализируемой системы, стоит только не гнаться за точностью"). Для начала из имеющейся истории продаж мы ограничились данными для одного района Москвы. В качестве входных факторов взяли ограниченный набор характеристик с точки зрения экспертов, очевидно влияющих на продажную цену жилья: серия дома, отделка, этаж (первый, последний, средний), готовность объекта, количество комнат, секция (угловая, обычная), метраж. Выходным значением являлась цена за квадратный метр, по которой продавались квартиры. Получилась вполне обозримая таблица с разумным количеством входных факторов.

На этих данных обучили нейросеть, то есть построили довольно грубую модель. При всей своей приблизительности у нее было одно существенное достоинство: она правильно отражала зависимость цены от учитываемых факторов. Например, при прочих равных условиях квартира в угловой секции стоила дешевле, чем в обычной, а стоимость квартир по мере готовности объекта возрастала. Теперь оставалось ее лишь совершенствовать, делать более полной и точной.

На следующем этапе в обучающее множество были добавлены записи о продажах в других районах Москвы. Соответственно, в качестве входных факторов стали учитываться такие характеристики, как престижность района, экология района, удаленность от метро. Так же в обучающую выборку была добавлена цена за аналогичное жилье на вторичном рынке. Специалисты, имеющие опыт работы на рынке недвижимости, имели возможность в процессе совершенствования модели безболезненно экспериментировать, добавляя или исключая факторы, т. к., напомню, процесс поиска более совершенной модели сводился к обучению нейросети на разных наборах данных. Главное здесь вовремя понять, что процесс этот бесконечен.

Это пример, как нам кажется, довольно эффективного подхода к анализу данных: использование опыта и интуиции специалиста в своей области для последовательного приближения ко все более точной модели анализируемого процесса. Основное требование при этом – наличие качественной информации достаточного объема, что невозможно без системы автоматизации сбора и хранения информации, о чем всегда надо помнить тем, кто серьезно занимается информационным обеспечением бизнеса. Но данная тема выходит за рамки статьи.

Вывод

Описанный подход позволяет решать реальные задачи с приемлемым качеством. Конечно, можно найти у данной методики множество недостатков, но в действительности реальной альтернативы ей нет, разве что отказаться от анализа вообще. Хотя если физики с успехом используют такие методы анализа уже много веков, почему бы не взять его на вооружение и в других областях?

Понимание данных (DataInsight - DI):

DI - Область data science, в которой ключеаую роль по обработке данных играют эксперты. Мы рассматриваем это направление как узконаправленное, в интересах конкретной цели заказчика. Эксперты ищут информацию, источники данных, открытые ресурсы и основываясь на экспертной оценке, интуиции обобщают материалы, формируют новое знание. 80% всей информации разведками мира добываются именно таким образом - извлечение знаний экспертами из открытых источников. Это актуально, когда данные неформализованы, смысл скрыт. Например: сбор сведений о предмете интереса с неявными идентифицирующими признаками, косвенными связями. Результатом иссдедования становится аналитическая записка с указанием источников данных, принципов идентификации и причинно-следственными связями.

Анализ данных (Data Analysis):

DA - область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из данных; процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений.

Анализ данных имеет множество аспектов и подходов, охватывает разные методы в различных областях науки и деятельности.

Анализ данных является наукой изучения исходных данных с целью сделать выводы об этой информации. Анализ данных используется во многих отраслях промышленности, сфере услуг, чтобы позволить компаниям и организациям принимать лучшие бизнес-решения и в науке, чтобы подтвердить или опровергнуть существующие модели или теории.

Анализ данных отличается от интеллектуального анализа данных (data minig) по сфере применения, цели и направленности анализа. Интеллектуальный анализ данных оперирует огромными наборами данных, используя сложное программное обеспечение для выявления скрытых шаблонов и установления неявных связей. Анализ данных фокусируется на умозаключениях, процессе получения выводов, основанных исключительно на том, что уже известно исследователю.

Анализ данных, как правило, делится на поисковый анализ данных (EDA), поиск возможностей в данных, и подтверждающий анализ данных (CDA), для подтверждения или опровержения гипотез.

Анализ качественных данных (QDA) используется в социальных науках, чтобы сделать выводы из нечисловых данных, таких как слова, фотографии или видео.

Термин "аналитика" используется многими поставщиками продуктов бизнес-аналитики (BI), как умное слово для описания совершенно разных функций. Анализ данных используется для описания всего: от оперативной аналитической обработки данных (OLAP) до аналитики CRM в центрах обработки вызовов.

Не стоит обосабливать анализ "больших данных" (BigData Analysis) так как по сути в большинстве случаев используются те же методики и методы, что для анализа обычных данных, отличие начинается в технологиях, механизмах распараллеливания.

Особняком стоит DataInsight (Понимание данных) - в этом исследовании акцент делается не на математической обработке данных, а экспертной оценке. Выделении связей, оценка последствий.

Интеллектуальный анализ данных - это особый метод анализа данных, который фокусируется на моделировании и открытии данных, а не на их описании.

Интеллектуальный анализ данных (Data Mining):

Избыток данных и недостаток хороших методов их анализа приводил к ситуации богатства данными, но бедности информацией. Быстро растущие объемы накопленных данных быстро превысили способности человека в их обработке. В результате большие базы данных стали «могилами» данных – архивами, которые редко посещаются. Как следствие, важные решения принимаются не на основе информационно- насыщенных баз данных, а на основе интуиции человека, принимающего решения, так как он не имеет подходящих инструментов для извлечения полезных знаний из огромных объемов данных. Технология Интеллектуального Анализа Данных позволяет извлечь полезные знания, важные паттерны, способствуя совершенствованию бизнес- стратегий, баз знаний, научных и медицинских исследований. Интеллектуальным анализом данных мы будем называть процесс определения новых, корректных и потенциально полезных знаний на основе больших массивов данных. Извлеченное знание в результате интеллектуального анализа называется термином паттерн.

Паттерном может быть, например, некоторое нетривиальное утверждение о структуре данных, об имеющихся закономерностях, о зависимости между атрибутами и т.д. Таким образом, задачей интеллектуального анализа данных является эффективное извлечение осмысленных паттернов из имеющегося массива данных большого размера.

Для отсева большого количества возможных малополезных паттернов может вводится функция полезности. В реальности оценка полезности знания имеет субъективный характер, то есть зависит от конкретного пользователя. Можно выделить две главные характеристики «интересного» знания:

Неожиданность. Знание «удивительно» для пользователя и потенциально несет новую информацию.

Применимость. Пользователь может использовать новое знание для достижения своих целей.

Интересные знания, закономерности, высокоуровневая информация, полученные в результате анализа данных, могут быть использованы для принятия решений, контроля за процессами, управления информацией и обработки запросов. Поэтому технология интеллектуального анализа данных рассматривается как одна из самых важных и многообещающих тем для исследований и применения в отрасли информационных технологий.

Этапы в процессе интеллектуального анализа данных:

1. Изучение предметной области, в результате которого формулируются основные цели анализа.
2. Сбор данных.

3. Предварительная обработка данных: (a) Очистка данных – исключение противоречий и случайных "шумов"из исходных данных (b) Интеграция данных – объединение данных из нескольких возможных источников в одном хранилище (c) Преобразование данных. На данном этапе данные преобразуются к форме, подходящей для анализа. Часто применяется агрегация данных, дискретизация атрибутов, сжатие данных и сокращение размерности.

4. Анализ данных. В рамках данного этапа применяются алгоритмы интеллектуального анализа с целью извлечения паттернов.
5. Интерпретация найденных паттернов. Данный этап может включать визуализацию извлеченных паттернов, определение действительно полезных паттернов на основе некоторой функции полезности.
6. Использование новых знаний.

Data Mining (DM) - это процесс обнаружения в сырых данных (row data) раннее неизвестных, нетривиальных, практически полезных, доступных интерпретации знаний (закономерностей), необходимых для принятия решений в различных сферах человеческой деятельности (Г.Пятецкий-Шапиро).

Большие объемы накопленных данных постоянно приходится модифицировать из-за быстрой смены аппаратного и программного обеспечения БД, при этом неизбежны потери и искажение информации. Одним из средств для преодоления подобных трудностей является создание информационных хранилищ данных, доступ к которым не будет сильно зависеть от изменения данных во времени и от используемого программного обеспечения. Другой подход ориентирован на сжатие больших объемов данных путем нахождения некоторых общих закономерностей (знаний) в накопленной информации. Оба направления актуальны с практической точки зрения.

Наличие информационного хранилища данных - необходимое условие для успешного проведения всего процесса DataMining. Информационным хранилищем данных называют предметно-ориентированное, интегрированное, привязанное ко времени, неизменяемое собрание данных, используемых для поддержки процесса принятия управленческих решений. Предметная ориентация означает, что данные объединены в категории и хранятся в соответствии с теми областями, которые они описывают, а не в соответствии с приложениями, которые их используют. Такой принцип хранения гарантирует, что отчеты, сгенерированные различными аналитиками, будут опираться на одну и ту же совокупность данных. Привязанность ко времени означает, что хранилище можно рассматривать как собрание исторических данных, т.е. конкретные значения данных однозначно связаны с определенными моментами времени. Атрибут времени всегда явно присутствует в структурах хранилищ данных. Данные, занесенные в хранилище, уже не изменяются в отличие от оперативных систем, где присутствуют только последние, постоянно изменяемые версии данных.

В технологиях DM используются различные математические методы и алгоритмы: классификация, кластеризация, регрессия, прогнозирование временных рядов, ассоциация, последовательность.

Классификация - инструмент обобщения. Она позволяет перейти от рассмотрения единичных объектов к обобщенным понятиям, которые характеризуют некоторые совокупности объектов и являются достаточными для распознавания объектов, принадлежащих этим совокупностям (классам). Суть процесса формирования понятий заключается в нахождении закономерностей, свойственных классам. Для описания объектов используются множества различных признаков (атрибутов), Проблема формирования понятий по признаковым описаниям была сформулирована М. М. Бонгартом. Ее решение базируется на применении двух основных процедур: обучения и проверки. В процедурах обучения строится классифицирующее правило на основе обработки обучающего множества объектов. Процедура проверки (экзамена) состоит в использовании полученного классифицирующего правила для распознавания объектов из новой (экзаменационной) выборки. Если результаты проверки признаны удовлетворительными, то процесс обучения заканчивается, в противном случае классифицирующее правило уточняется в процессе повторного обучения.

Кластеризация - это распределение информации (записей) из БД по группам (кластерам) или сегментам с одновременным определением этих групп. В отличие от классификации здесь для проведения анализа не требуется предварительного задания классов.

Регрессионный анализ используется в том случае, если отношения между атрибутами объектов в БД выражены количественными оценками. Построенные уравнения регрессии позволяют вычислять значения зависимых атрибутов по заданным значениям независимых признаков.

Прогнозирование временных рядов является инструментом для определения тенденций изменения атрибутов рассматриваемых объектов с течением времени. Анализ поведения временных рядов позволяет прогнозировать значения исследуемых характеристик.

Ассоциация позволяет выделить устойчивые группы объектов, между которыми существуют неявно заданные связи. Частота появления отдельного предмета или группы предметов, выраженная в процентах, называется распространенностью. Низкий уровень распространенности (менее одной тысячной процента) говорит о том, что такая ассоциация не существенна.

Типичным примером применения ассоциации является анализ структуры покупок. Например, при проведении исследования в супермаркете можно установить, что 65 % купивших картофельные чипсы берут также и «кока-колу», а при наличии скидки за такой комплект «колу» приобретают в 85 % случаев. Подобные результаты представляют ценность при формировании маркетинговых стратегий.

Последовательность - это метод выявления ассоциаций во времени. В данном случае определяются правила, которые описывают последовательное появление определенных групп событий. Такие правила необходимы для построения сценариев. Кроме того, их можно использовать, например, для формирования типичного набора предшествующих продаж, которые могут повлечь за собой последующие продажи конкретного товара.

К интеллектуальным средствам DM относятся нейронные сети, деревья решений, индуктивные выводы, методы рассуждения по аналогии, нечеткие логические выводы, генетические алгоритмы, алгоритмы определения ассоциаций и последовательностей, анализ с избирательным действием, логическая регрессия, эволюционное программирование, визуализация данных. Иногда перечисленные методы применяются в различных комбинациях.

Нейронные сети относятся к классу нелинейных адаптивных систем с архитектурой, условно имитирующей нервную ткань, состоящую из нейронов. Математическая модель нейрона представляет собой некий универсальный нелинейный элемент, допускающий возможность изменения и настройки его характеристик. Нейронные сети широко применяются для решения задач классификации. Построенную сеть сначала нужно «обучить» на примерах, для которых известны значения исходных данных и результаты. Процесс «обучения» сети заключается в подборе весов межнейронных связей и модификации внутренних параметров активационной функции нейронов. «Обученная» сеть способна классифицировать новые объекты (или решать другие примеры), однако правила классификации остаются не известными пользователю.

Деревья решений - метод структурирования задачи в виде древовидного графа, вершины которого соответствуют продукционным правилам, позволяющим классифицировать данные или осуществлять анализ последствий решений. Этот метод дает наглядное представление о системе классифицирующих правил, если их не очень много. Простые задачи решаются с помощью этого метода гораздо быстрее, чем с использованием нейронных сетей. Для сложных проблем и для некоторых типов данных деревья решений могут оказаться неприемлемыми. Кроме того, для этого метода характерна проблема значимости. Одним из последствий иерархической кластеризации данных является то, что для многих частных случаев отсутствует достаточное число обучающих примеров, в связи с чем классификацию нельзя считать надежной.

Индуктивные выводы позволяют получить обобщения фактов, хранящихся в БД. В процессе индуктивного обучения может участвовать специалист, поставляющий гипотезы. Такой способ называют обучением с учителем. Поиск правил обобщения может осуществляться без учителя путем автоматической генерации гипотез. В современных программных средствах, как правило, сочетаются оба способа, а для проверки гипотез используются статистические методы.

Рассуждения на основе аналогичных случаев (Case-based reasoning - CBR) основаны на поиске в БД ситуаций, описания которых сходны по ряду признаков с заданной ситуацией. Принцип аналогии позволяет предполагать, что результаты похожих ситуаций также будут близки между собой. Недостаток этого подхода заключается в том, что здесь не создается каких-либо моделей или правил, обобщающих предыдущий опыт. Кроме того, надежность выводимых результатов зависит от полноты описания ситуаций, как и в процессах индуктивного вывода.

Нечеткая логика применяется для обработки данных с размытыми значениями истинности, которые могут быть представлены разнообразными лингвистическими переменными. Нечеткое представление знаний широко применяется в системах с логическими выводами (дедуктивными, индуктивными, абдуктивными) для решения задач классификации и прогнозирования.

Генетические алгоритмы входят в инструментарий DM как мощное средство решения комбинаторных и оптимизационных задач. Они часто применяются в сочетании с нейронными сетями. В задачах извлечения знаний применение генетических алгоритмов сопряжено со сложностью оценки статистической значимости полученных решений и с трудностями построения критериев отбора удачных решений.

Логическая (логистическая) регрессия используется для предсказания вероятности появления того или иного значения дискретной целевой переменной. Дискретная зависимая (целевая) переменная не может быть смоделирована методами обычной многофакторной линейной регрессии. Тем не менее вероятность результата может быть представлена как функция входных переменных, что позволяет получить количественные оценки влияния этих параметров на зависимую переменную. Полученные вероятности могут использоваться и для оценки шансов. Логическая регрессия - это, с одной стороны, инструмент классификации, который используется для предсказания значений категориальных переменных, с другой стороны - регрессионный инструмент, позволяющий оценить степень влияния входных факторов на результат.

Эволюционное программирование - самая новая и наиболее перспективная ветвь DM. Суть метода заключается в том, что гипотезы о форме зависимости целевой переменной от других переменных формулируются компьютерной системой в виде программ на определенном внутреннем языке программирования. Если это универсальный язык, то теоретически он способен выразить зависимости произвольной формы. Процесс построения таких программ организован как эволюция в мире программ. Когда система находит программу, достаточно точно выражающую искомую зависимость, она начинает вносить в нее небольшие модификации и отбирает среди построенных дочерних программ те, которые являются наиболее точными. Затем найденные зависимости переводятся с внутреннего языка системы на понятный пользователю язык (математические формулы, таблицы и т.п.). При этом активно используются средства визуализации.

Типовые задачи анализа данных. Компьютерный анализ данных

Два подхода к анализу данных

Пример работы

Вывод

Понимание данных (DataInsight - DI):

Анализ данных (Data Analysis):

Анализ данных имеет множество аспектов и подходов, охватывает разные методы в различных областях науки и деятельности.

Анализ качественных данных (QDA) используется в социальных науках, чтобы сделать выводы из нечисловых данных, таких как слова, фотографии или видео.

Интеллектуальный анализ данных - это особый метод анализа данных, который фокусируется на моделировании и открытии данных, а не на их описании.

Интеллектуальный анализ данных (Data Mining):

Неожиданность. Знание «удивительно» для пользователя и потенциально несет новую информацию.

Применимость. Пользователь может использовать новое знание для достижения своих целей.

Этапы в процессе интеллектуального анализа данных:

1. Изучение предметной области, в результате которого формулируются основные цели анализа.

2. Сбор данных.

4. Анализ данных. В рамках данного этапа применяются алгоритмы интеллектуального анализа с целью извлечения паттернов.

6. Использование новых знаний.

Рекомендуем почитать

Поиск по сайту