1. Лекция 2. Разведочный анализ
данных
Лектор: проф. Авдеенко Татьяна
Владимировна,
Новосибирский государственный
технический университет,
Факультет бизнеса,
Кафедра экономической информатики
2. Разведочный анализ данных -
• Предварительный анализ данных с целью
выявления наиболее общих закономерностей
и тенденций, характера и свойств
анализируемых данных, законов
распределения анализируемых величин.
• Применяется для нахождения связей между
переменными в ситуациях, когда отсутствуют
(или недостаточны) априорные
представления о природе этих связей. Как
правило, при разведочном анализе
учитывается и сравнивается большое число
переменных, а для поиска закономерностей
используются самые разные методы.
3. Разведочный анализ данных
Термин «разведочный анализ» был впервые
введен математиком из Принстонского
университета Дж. Тьюки. Он также
сформулировал основные цели данного
анализа:
- Максимальное «проникновение» в данные.
- Выявление основных структур.
- Выбор наиболее важных переменных.
- Обнаружение отклонений и аномалий.
- Проверка основных гипотез
(предположений).
- Разработка начальных моделей. .
4. Разведочный анализ данных
Результаты разведочного анализа не
используются для выработки
управленческих решений. Их
назначение - помощь в разработке
наилучшей стратегии углубленного
анализа, выдвижение гипотез,
уточнение особенностей применения
тех или иных математических методов
и моделей. Без разведочного анализа
углубленный анализ данных будет
производиться практически «вслепую».
5. Разведочный анализ данных
К основным методам разведочного
анализа относится процедура анализа
распределений переменных, просмотр
корреляционных матриц с целью
поиска коэффициентов, превосходящих
по величине определенные пороговые
значения, факторный анализ,
дискриминантный анализ, многомерное
шкалирование, визуальный анализ
гистограмм и т.д.
6. Разведочный анализ данных
Предварительное исследование данных
может служить лишь первым этапом в
процессе их анализа, и пока результаты
не подтверждены на других выборках
или на независимом множестве данных,
их следует воспринимать самое
большее как гипотезу. Если результаты
разведочного анализа говорят в пользу
некоторой модели, то ее правильность
можно затем проверить, применив ее к
новым данных.
9. Центральные меры распределения:
среднее, медиана и мода
Один из способов подытожить данные — вычислить одно
значение, характеризующее весь набор данных. Это
значение часто называется типичным или наиболее
представительным.
Медиана. Представляет середину распределения, т.е.
одна половина данного набора данных имеет меньшие
значения, а другая — большие значения. Для
определения медианы сначала необходимо выполнить
сортировку (ранжирование) данных. Полученная
последовательность называется вариационным рядом, а
ее элементы – порядковыми статистиками. Каждому
наблюдению присваивается ранг (номер). Точный подсчет
медианы зависит от количества наблюдений в наборе
данных. При нечетном количестве значений медианой
является промежуточное значение, а при четном —
полусумма двух центральных значений.
10. Центральные меры распределения:
среднее
Среднее значение:
Выборочное среднее обладает одним замечательным
свойством: сумма квадратов расстояний является
минимальной
Другие статистические свойства выборочного среднего –
несмещенность, состоятельность, эффективность.
∑
=
=
N
i
ix
n
x
1
1
∑
=
−
N
i
ixx
1
2
)(
11. Центральные меры распределения:
медиана или среднее
Одним из недостатков среднего значения является то, что
оно существенно зависит от экстремальных значений.
Рассмотрим распределение заработной платы
профессиональных бейсболистов. Большинство
бейсболистов зарабатывают в год менее миллиона
долларов, но есть бейсболисты с зарплатой более 10 млн.
и один бейсболист с зарплатой более 20 млн. долларов.
Как определить "типичную" зарплату? Медианой данного
распределения является зарплата 900 тыс. долларов, а
средним значением — 2,5 млн. долларов. Похоже, что
медиана в большей степени представляет "типичную"
зарплату,
В официальной статистике США именно медиана
используется в качестве оценки центральной точки
доходов населения.
Если распределение несимметрично, имеются выбросы,
12. Центральные меры распределения:
медиана или среднее
Для снижения влияния экстремальных значений можно
использовать усеченное среднее (trimmed mean), т.е.
среднее для набора данных, из которого исключены
несколько процентов значений с обоих концов
распределения. Например, 5%ное усеченное среднее
равно среднему значению для 90% значений из набора
данных, за исключением 5% с каждого конца
распределения. Усеченное среднее представляет собой
компромиссный вариант итоговой характеристики по
сравнению с медианой и средним.
13. Центральные меры распределения
Среднее геометрическое (geometric mean)
Среднее геометрическое чаще всего используется для
наборов данных, которые находятся в диапазоне от 0 до 1.
Например, результаты фармацевтических опытов часто
записываются в виде относительных долей химических
компонентов, поэтому для них удобно использовать
среднее геометрическое.
Среднее гармоническое (harmonic mean )
Эту характеристику удобно применять для вычисления
средних значений скоростей. Допустим, требуется
определить среднюю скорость автомобиля, который
движется из пункта А в пункт В со скоростью S, а в
обратном направлении — со скоростью Т. В этом случае
средняя скорость автомобиля будет равна среднему
гармоническому для величин S и Т.
n
n
i
ix∏
=1
∑
=
=
n
i ixnН 1
111
14. Центральные меры распределения
Еще одной итоговой характеристикой распределения
является мода (mode, Пирсон 1894 г.), т.е. наиболее часто
встречающееся (модное) значение распределения. Мода
часто используется при работе с качественными данными
или дискретными количественными данными, которые
имеют сравнительно немного разных значений. Ее не
следует использовать для непрерывных количественных
данных, поскольку в таком случае в подобных
распределениях очень мало или практически нет
повторяющихся значений.
Классический пример использования моды – выбор размера
выпускаемой партии обуви или цвета обоев.
15. Центральные меры распределения
Если распределение имеет несколько мод, то оно называется
мультимодальным.
Мультимодальность дает важную информацию о природе
исследуемой переменной. Например, в социологических
опросах, если переменная представляет собой предпочтение
или отношение к чему-либо, то мультимодальность может
означать, что существует несколько определенных мнений.
Мультимодальность может служить индикатором того, что
выборка не является однородной и наблюдения, возможно,
порождены двумя или более "наложенными"
распределениями.
16. Меры изменчивости
Среднее и медиана не полностью характеризуют
распределение, так как не учитывают изменчивость
данных. Изменчивость (variability) характеризует
различия между данными или, что то же самое,
разброс от центра.
Простейшей мерой изменчивости является диапазон
(range), т.е. разница между максимальным и
минимальным значениями распределения. Однако
диапазон значений не совсем точно характеризует
изменчивость распределения и может ввести в
заблуждение.
17. Меры изменчивости
Дисперсия (variance) (Фишер, 1918 г.)
Стандартное отклонение (standard deviation)
∑
=
−
−
=
n
i
i xx
n
s
1
22
)(
1
1
2
1
1
( )
1
n
i
i
s x x
n =
= −
−
∑
18. Меры изменчивости
Выборочная дисперсия повторной и
бесповторной выборки является несмещенной
и состоятельной оценкой генеральной
дисперсии , т.е. и
Выборочная дисперсия не является
эффективной оценкой , зато является
асимптотически эффективной (т.е. при
эффективность стремится к 1).
2
s
2
σ
2
s
2
σ 22
)( σ=sM 2 2
P
n
s σ
→∞
→
∞→n
19. Меры формы: асимметрия и
эксцесс
Асимметрия, или скос (skewness), является мерой
несимметричности распределения (Пирсон 1895 г.):
Положительная асимметрия означает, что значения
распределения скучены в области малых значений и
распределение имеет длинный хвост в области
больших значений. И наоборот: отрицательная
асимметрия означает, что значения распределения
скучены в области высоких значений и распределение
имеет длинный хвост в области малых значений.
Равное нулю значение асимметрии соответствует
симметричному распределению.
2
3
1
2
1
3
)(
1
)(
1
−
−
=
∑
∑
=
=
n
i
i
n
i
i
xx
n
xx
n
A
20. Меры формы: асимметрия и
эксцесс
Эксцесс (kurtosis) (Пирсон 1905 г.) характеризует
относительную остроконечность или сглаженность
распределения по сравнению с нормальным
распределением.
Положительный эксцесс обозначает относительно
остроконечное распределение, а отрицательный –
относительно сглаженное распределение.
Как с помощью асимметрии и эксцесса проверить
нормальность распределения? Для нормального
распределения A=E=0.
3
)(
1
)(
1
2
1
2
1
4
−
−
−
=
∑
∑
=
=
n
i
i
n
i
i
xx
n
xx
n
E
21. Персентили (процентили) и
квартили
Квантиль (Кендалл 1940 г.)
Одним из итоговых ориентиров является р-я
персентиль (percentile), т.е. такое значение
заданного распределения, которое больше
р процентов всех значений распределения.
Персентили обычно используются при
анализе роста новорожденных, если,
например, ребенка относят к 75-й или 90-й
персентили, значит, он весит больше, чем
75% или 90% всех новорожденных детей.
( )pF x p=
22. Персентили (процентили) и
квартили
Довольно близкими по смыслу к персентилям
являются квартили (Гальтон 1982) (quartiles) –
значения, соответствующие 25, 50 и 75-й
персентилям, т.е. четвертям распределения.
Обычно их называют первой, второй и третьей
квартилями. В статистике часто используют
интерквартильный диапазон (interquartile
range), который обозначает разницу между
первой и третьей квартилями (другое название –
квартильный размах). Поскольку в этом
диапазоне располагается 50% всех данных, его
размер дает представление о ширине
распределения.
23. Ящик с усами
Диаграмма типа “ящик с усами” (boxplot)
изображает важные характеристик
описательной статистики на одном
компактном рисунке. Он предложен
Джоном Тьюки (John Tukey) в 1977 г. в .
Диаграмма типа “ящик с усами” отображает
следующие характеристики описательной
статистики:
• Первая квартиль, медиана, третья
квартиль и интерквартильный диапазон.
• Минимальное и максимальное значения.
• Умеренные и экстремальные выбросы.
Диаграмма типа “ящик с усами” дает хорошее
визуальное представление изменчивости
данных, а также асимметрии
распределения.
24. Ящик с усами
После отображения
интерквартильного диапазона
можно приступать к
вычислению внутреннего и
внешнего ограждений.
Внутренние ограждения
(inner fences) располагаются в
области больше третьей
квартили + 1,5×IQR или
меньше первой квартили –
1,5×IQR. Внешние
ограждения (outer fences)
располагаются в области
больше третьей квартили +
3×IQR или меньше первой
квартили – 3×IQR.
3-я квартиль
1-я квартиль
внутреннее = 1-я квартиль - 1.5xIQR
внешнее = 1-я квартиль - 3xIQR
внутреннее = 3-я квартиль + 1.5xIQR
внешнее = 3-я квартиль + 3xIQR
медиана IQR
25. Ящик с усами
Все значения, которые лежат в
промежутке между
внутренним и внешним
ограждениями, называются
умеренными выбросами
(moderate outlier) и
обозначаются символами .
Все значения, которые лежат
за пределами внешних
ограждений, называются
экстремальными выбросами
(extreme outlier) и
обозначаются символами .
3-я квартиль
1-я квартиль
внутреннее
внешнее
внутреннее
внешнее
медиана
28. Таблицы сопряженности
Кросстабуляция - это процесс объединения
двух (или нескольких) таблиц частот так, что
каждая ячейка (клетка) в построенной таблице
представляется единственной комбинацией
значений или уровней табулированных
переменных. Таким образом, кросстабуляция
позволяет совместить частоты появления
наблюдений на разных уровнях
рассматриваемых факторов. Исследуя эти
частоты, можно определить связи между
табулированными переменными. Обычно
табулируются категориальные переменные или
переменные с относительно небольшим
числом значений.
29. Таблицы сопряженности
Газ. вода:
А
Газ. вода:
В
Пол:
женщины
20 (40 %) 30 (60 %) 50 (50 %)
Пол:
мужчины
30 (60 %) 20 (40 %) 50 (50%)
50 (50 %) 50 (50 %) 100 100 %)
30. Таблицы сопряженности
Маргинальные частоты. Значения, расположенные по
краям таблицы сопряженности - это обычные таблицы
частот (с одним входом) для рассматриваемых
переменных. Так как эти частоты располагаются на
краях таблицы, то они называются маргинальными.
Маргинальные значения важны, т.к. позволяют оценить
распределение частот в отдельных столбцах и строках
таблицы. Например, 40% и 60% мужчин и женщин
(соответственно), выбравших марку A, не могли бы
показать какой-либо связи между переменными Пол и
Газ.вода, если бы маргинальные частоты переменной
Пол были также 40% и 60%. В этом случае они просто
отражали бы разную долю мужчин и женщин,
участвующих в опросе.
31. Таблицы сопряженности
Summary Frequency Table (Опрос)
Marked cells have counts > 10
(Marginal summaries are not marked)
Var1 Var2
Матем
Var2
Биз_Экон
Var2
Мед_Здрав
Var2
Социол
Row
Totals
ПК 29 49 8 28 114
Мэйнфрейм 22 12 3 13 50
Мини-компьютер 2 1 0 1 4
Mac 12 4 0 6 22
All Grps 65 66 11 48 190
32. Таблицы сопряженности
Проверка гипотезы
H0 : распределение разных видов
компьютеров одинаково внутри каждой
кафедры (переменные независимы).
H1 : распределение разных видов
компьютеров зависит от кафедры
(переменные зависимы)
33. Таблицы сопряженности
В 1900 году Карл Пирсон предложил для проверки
гипотезы тест (тест хи-квадрат Пирсона):
, ожидаемые частоты
, маргинальные частоты
Если то гипотеза о независимости
переменных отвергается (переменные зависимы).
∑∑
= =
−
=
r
i
s
j ij
ijijn
1 1
2
2 )(
ν
ν
χ
n
nn ji
ij
..
=ν
2 2
,( 1)( 1)r sαχ χ − −>
∑
=
=
s
j
iji nn
1
.
1
.
r
j ij
i
n n
=
= ∑