SlideShare une entreprise Scribd logo
1  sur  33
Лекция 2. Разведочный анализ
данных
Лектор: проф. Авдеенко Татьяна
Владимировна,
Новосибирский государственный
технический университет,
Факультет бизнеса,
Кафедра экономической информатики
Разведочный анализ данных -
• Предварительный анализ данных с целью
выявления наиболее общих закономерностей
и тенденций, характера и свойств
анализируемых данных, законов
распределения анализируемых величин.
• Применяется для нахождения связей между
переменными в ситуациях, когда отсутствуют
(или недостаточны) априорные
представления о природе этих связей. Как
правило, при разведочном анализе
учитывается и сравнивается большое число
переменных, а для поиска закономерностей
используются самые разные методы.
Разведочный анализ данных
Термин «разведочный анализ» был впервые
введен математиком из Принстонского
университета Дж. Тьюки. Он также
сформулировал основные цели данного
анализа:
- Максимальное «проникновение» в данные.
- Выявление основных структур.
- Выбор наиболее важных переменных.
- Обнаружение отклонений и аномалий.
- Проверка основных гипотез
(предположений).
- Разработка начальных моделей. .
Разведочный анализ данных
Результаты разведочного анализа не
используются для выработки
управленческих решений. Их
назначение - помощь в разработке
наилучшей стратегии углубленного
анализа, выдвижение гипотез,
уточнение особенностей применения
тех или иных математических методов
и моделей. Без разведочного анализа
углубленный анализ данных будет
производиться практически «вслепую».
Разведочный анализ данных
К основным методам разведочного
анализа относится процедура анализа
распределений переменных, просмотр
корреляционных матриц с целью
поиска коэффициентов, превосходящих
по величине определенные пороговые
значения, факторный анализ,
дискриминантный анализ, многомерное
шкалирование, визуальный анализ
гистограмм и т.д.
Разведочный анализ данных
Предварительное исследование данных
может служить лишь первым этапом в
процессе их анализа, и пока результаты
не подтверждены на других выборках
или на независимом множестве данных,
их следует воспринимать самое
большее как гипотезу. Если результаты
разведочного анализа говорят в пользу
некоторой модели, то ее правильность
можно затем проверить, применив ее к
новым данных.
Простейшие описательные
статистики (Descriptive Statistics)
• Среднее
• Дисперсия
• Процентиль
• Эксцесс
• Квантиль
• Размах
• Медиана
• Квартиль
• Мода
• Асимметрия
• Интерквартильный диапазон
Центральные меры распределения:
среднее, медиана и мода
Один из способов подытожить данные — вычислить одно
значение, характеризующее весь набор данных. Это
значение часто называется типичным или наиболее
представительным.
Медиана. Представляет середину распределения, т.е.
одна половина данного набора данных имеет меньшие
значения, а другая — большие значения. Для
определения медианы сначала необходимо выполнить
сортировку (ранжирование) данных. Полученная
последовательность называется вариационным рядом, а
ее элементы – порядковыми статистиками. Каждому
наблюдению присваивается ранг (номер). Точный подсчет
медианы зависит от количества наблюдений в наборе
данных. При нечетном количестве значений медианой
является промежуточное значение, а при четном —
полусумма двух центральных значений.
Центральные меры распределения:
среднее
Среднее значение:
Выборочное среднее обладает одним замечательным
свойством: сумма квадратов расстояний является
минимальной
Другие статистические свойства выборочного среднего –
несмещенность, состоятельность, эффективность.
∑
=
=
N
i
ix
n
x
1
1
∑
=
−
N
i
ixx
1
2
)(
Центральные меры распределения:
медиана или среднее
Одним из недостатков среднего значения является то, что
оно существенно зависит от экстремальных значений.
Рассмотрим распределение заработной платы
профессиональных бейс­болистов. Большинство
бейсболистов зарабатывают в год менее миллиона
долларов, но есть бейсболисты с зарплатой более 10 млн.
и один бейс­болист с зарплатой более 20 млн. долларов.
Как определить "типичную" зарплату? Медианой данного
распределения является зарплата 900 тыс. долларов, а
средним значением — 2,5 млн. долларов. Похоже, что
медиана в большей степени представляет "типичную"
зарплату,
В официальной статистике США именно медиана
используется в качестве оценки центральной точки
доходов населения.
Если распределение несимметрично, имеются выбросы,
Центральные меры распределения:
медиана или среднее
Для снижения влияния экстремальных значений можно
использовать усеченное среднее (trimmed mean), т.е.
среднее для набора данных, из которого исключены
несколько процентов значений с обоих концов
распределения. Например, 5%­ное усеченное среднее
равно среднему значению для 90% значений из набора
данных, за исключением 5% с каждого конца
распределения. Усеченное среднее представляет собой
компромиссный вариант итоговой характеристики по
сравнению с медианой и средним.
Центральные меры распределения
Среднее геометрическое (geometric mean)
Среднее геометрическое чаще всего используется для
наборов данных, которые находятся в диапазоне от 0 до 1.
Например, результаты фармацевтических опытов часто
записываются в виде относительных долей химических
компонентов, поэтому для них удобно использовать
среднее геометрическое.
Среднее гармоническое (harmonic mean )
Эту характеристику удобно применять для вычисления
средних значений скоростей. Допустим, требуется
определить среднюю скорость автомобиля, который
движется из пункта А в пункт В со скоростью S, а в
обратном направлении — со скоростью Т. В этом случае
средняя скорость автомобиля будет равна среднему
гармоническому для величин S и Т.
n
n
i
ix∏
=1
∑
=
=
n
i ixnН 1
111
Центральные меры распределения
Еще одной итоговой характеристикой распределения
является мода (mode, Пирсон 1894 г.), т.е. наиболее часто
встречающееся (модное) значение распределения. Мода
часто используется при работе с качественными данными
или дискретными количественными данными, которые
имеют сравнительно немного разных значений. Ее не
следует использовать для непрерывных количественных
данных, поскольку в таком случае в подобных
распределениях очень мало или практически нет
повторяющихся значений.
Классический пример использования моды – выбор размера
выпускаемой партии обуви или цвета обоев.
Центральные меры распределения
Если распределение имеет несколько мод, то оно называется
мультимодальным.
Мультимодальность дает важную информацию о природе
исследуемой переменной. Например, в социологических
опросах, если переменная представляет собой предпочтение
или отношение к чему-либо, то мультимодальность может
означать, что существует несколько определенных мнений.
Мультимодальность может служить индикатором того, что
выборка не является однородной и наблюдения, возможно,
порождены двумя или более "наложенными"
распределениями.
Меры изменчивости
Среднее и медиана не полностью характеризуют
распределение, так как не учитывают изменчивость
данных. Изменчивость (variability) характеризует
различия между данными или, что то же самое,
разброс от центра.
Простейшей мерой изменчивости является диапазон
(range), т.е. разница между максимальным и
минимальным значениями распределения. Однако
диапазон значений не совсем точно характеризует
изменчивость распределения и может ввести в
заблуждение.
Меры изменчивости
Дисперсия (variance) (Фишер, 1918 г.)
Стандартное отклонение (standard deviation)
∑
=
−
−
=
n
i
i xx
n
s
1
22
)(
1
1
2
1
1
( )
1
n
i
i
s x x
n =
= −
−
∑
Меры изменчивости
Выборочная дисперсия повторной и
бесповторной выборки является несмещенной
и состоятельной оценкой генеральной
дисперсии , т.е. и
Выборочная дисперсия не является
эффективной оценкой , зато является
асимптотически эффективной (т.е. при
эффективность стремится к 1).
2
s
2
σ
2
s
2
σ 22
)( σ=sM 2 2
P
n
s σ
→∞
→
∞→n
Меры формы: асимметрия и
эксцесс
Асимметрия, или скос (skewness), является мерой
несимметричности распределения (Пирсон 1895 г.):
Положительная асимметрия означает, что значения
распределения скучены в области малых значений и
распределение имеет длинный хвост в области
больших значений. И наоборот: отрицательная
асимметрия означает, что значения распределения
скучены в области высоких значений и распределение
имеет длинный хвост в области малых значений.
Равное нулю значение асимметрии соответствует
симметричному распределению.
2
3
1
2
1
3
)(
1
)(
1








−
−
=
∑
∑
=
=
n
i
i
n
i
i
xx
n
xx
n
A
Меры формы: асимметрия и
эксцесс
Эксцесс (kurtosis) (Пирсон 1905 г.) характеризует
относительную остроконечность или сглаженность
распределения по сравнению с нормальным
распределением.
Положительный эксцесс обозначает относительно
остроконечное распределение, а отрицательный –
относительно сглаженное распределение.
Как с помощью асимметрии и эксцесса проверить
нормальность распределения? Для нормального
распределения A=E=0.
3
)(
1
)(
1
2
1
2
1
4
−








−
−
=
∑
∑
=
=
n
i
i
n
i
i
xx
n
xx
n
E
Персентили (процентили) и
квартили
Квантиль (Кендалл 1940 г.)
Одним из итоговых ориентиров является р-я
персентиль (percentile), т.е. такое значение
заданного распределения, которое больше
р процентов всех значений распределения.
Персентили обычно используются при
анализе роста новорожденных, если,
например, ребенка относят к 75-й или 90-й
персентили, значит, он весит больше, чем
75% или 90% всех новорожденных детей.
( )pF x p=
Персентили (процентили) и
квартили
Довольно близкими по смыслу к персентилям
являются квартили (Гальтон 1982) (quartiles) –
значения, соответствующие 25, 50 и 75-й
персентилям, т.е. четвертям распределения.
Обычно их называют первой, второй и третьей
квартилями. В статистике часто используют
интерквартильный диапазон (interquartile
range), который обозначает разницу между
первой и третьей квартилями (другое название –
квартильный размах). Поскольку в этом
диапазоне располагается 50% всех данных, его
размер дает представление о ширине
распределения.
Ящик с усами
Диаграмма типа “ящик с усами” (boxplot)
изображает важные характеристик
описательной статистики на одном
компактном рисунке. Он предложен
Джоном Тьюки (John Tukey) в 1977 г. в .
Диаграмма типа “ящик с усами” отображает
следующие характеристики описательной
статистики:
• Первая квартиль, медиана, третья
квартиль и интерквартильный диапазон.
• Минимальное и максимальное значения.
• Умеренные и экстремальные выбросы.
Диаграмма типа “ящик с усами” дает хорошее
визуальное представление изменчивости
данных, а также асимметрии
распределения.
Ящик с усами
После отображения
интерквартильного диапазона
можно приступать к
вычислению внутреннего и
внешнего ограждений.
Внутренние ограждения
(inner fences) располагаются в
области больше третьей
квартили + 1,5×IQR или
меньше первой квартили –
1,5×IQR. Внешние
ограждения (outer fences)
располагаются в области
больше третьей квартили +
3×IQR или меньше первой
квартили – 3×IQR.
3-я квартиль
1-я квартиль
внутреннее = 1-я квартиль - 1.5xIQR
внешнее = 1-я квартиль - 3xIQR
внутреннее = 3-я квартиль + 1.5xIQR
внешнее = 3-я квартиль + 3xIQR
медиана IQR
Ящик с усами
Все значения, которые лежат в
промежутке между
внутренним и внешним
ограждениями, называются
умеренными выбросами
(moderate outlier) и
обозначаются символами .
Все значения, которые лежат
за пределами внешних
ограждений, называются
экстремальными выбросами
(extreme outlier) и
обозначаются символами  .
3-я квартиль
1-я квартиль
внутреннее
внешнее
внутреннее
внешнее
медиана
Box&WhiskerPlot:Зарплата
Median
25%-75%
Min-Max
Ж М
Пол
18000
20000
22000
24000
26000
28000
30000
32000
34000
36000
38000
40000
42000
44000
46000
Зарплата
Анализ таблиц
• Таблицы частот
• Таблицы сопряженности
• Таблицы заголовков
• Многомерные отклики
• Дихотомии
Таблицы сопряженности
Кросстабуляция - это процесс объединения
двух (или нескольких) таблиц частот так, что
каждая ячейка (клетка) в построенной таблице
представляется единственной комбинацией
значений или уровней табулированных
переменных. Таким образом, кросстабуляция
позволяет совместить частоты появления
наблюдений на разных уровнях
рассматриваемых факторов. Исследуя эти
частоты, можно определить связи между
табулированными переменными. Обычно
табулируются категориальные переменные или
переменные с относительно небольшим
числом значений.
Таблицы сопряженности
Газ. вода:
А
Газ. вода:
В
Пол:
женщины
20 (40 %) 30 (60 %) 50 (50 %)
Пол:
мужчины
30 (60 %) 20 (40 %) 50 (50%)
50 (50 %) 50 (50 %) 100 100 %)
Таблицы сопряженности
Маргинальные частоты. Значения, расположенные по
краям таблицы сопряженности - это обычные таблицы
частот (с одним входом) для рассматриваемых
переменных. Так как эти частоты располагаются на
краях таблицы, то они называются маргинальными.
Маргинальные значения важны, т.к. позволяют оценить
распределение частот в отдельных столбцах и строках
таблицы. Например, 40% и 60% мужчин и женщин
(соответственно), выбравших марку A, не могли бы
показать какой-либо связи между переменными Пол и
Газ.вода, если бы маргинальные частоты переменной
Пол были также 40% и 60%. В этом случае они просто
отражали бы разную долю мужчин и женщин,
участвующих в опросе.
Таблицы сопряженности
Summary Frequency Table (Опрос)
Marked cells have counts > 10
(Marginal summaries are not marked)
Var1 Var2
Матем
Var2
Биз_Экон
Var2
Мед_Здрав
Var2
Социол
Row
Totals
ПК 29 49 8 28 114
Мэйнфрейм 22 12 3 13 50
Мини-компьютер 2 1 0 1 4
Mac 12 4 0 6 22
All Grps 65 66 11 48 190
Таблицы сопряженности
Проверка гипотезы
H0 : распределение разных видов
компьютеров одинаково внутри каждой
кафедры (переменные независимы).
H1 : распределение разных видов
компьютеров зависит от кафедры
(переменные зависимы)
Таблицы сопряженности
В 1900 году Карл Пирсон предложил для проверки
гипотезы тест (тест хи-квадрат Пирсона):
, ожидаемые частоты
, маргинальные частоты
Если то гипотеза о независимости
переменных отвергается (переменные зависимы).
∑∑
= =
−
=
r
i
s
j ij
ijijn
1 1
2
2 )(
ν
ν
χ
n
nn ji
ij
..
=ν
2 2
,( 1)( 1)r sαχ χ − −>
∑
=
=
s
j
iji nn
1
.
1
.
r
j ij
i
n n
=
= ∑

Contenu connexe

Tendances

МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛАМЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛАCranberry_Katia
 
Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Vladimir Tcherniak
 
Прогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессияПрогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессияGleb Zakhodiakin
 
Прогнозирование - Лекция 6. Использование инструментов подготовки данных и пр...
Прогнозирование - Лекция 6. Использование инструментов подготовки данных и пр...Прогнозирование - Лекция 6. Использование инструментов подготовки данных и пр...
Прогнозирование - Лекция 6. Использование инструментов подготовки данных и пр...Gleb Zakhodiakin
 
Прогнозирование - Лекция 5. Методология Бокса-Дженкинса (модели ARIMA)
Прогнозирование - Лекция 5. Методология Бокса-Дженкинса (модели ARIMA)Прогнозирование - Лекция 5. Методология Бокса-Дженкинса (модели ARIMA)
Прогнозирование - Лекция 5. Методология Бокса-Дженкинса (модели ARIMA)Gleb Zakhodiakin
 
Прогнозирование - Лекция 4. Регрессионные модели временных рядов
Прогнозирование - Лекция 4. Регрессионные модели временных рядовПрогнозирование - Лекция 4. Регрессионные модели временных рядов
Прогнозирование - Лекция 4. Регрессионные модели временных рядовGleb Zakhodiakin
 
Статистика
СтатистикаСтатистика
СтатистикаNick535
 
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессияПрогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессияGleb Zakhodiakin
 
Корреляция и МНК
Корреляция и МНККорреляция и МНК
Корреляция и МНКKurbatskiy Alexey
 
Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборокKurbatskiy Alexey
 
Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014Andrii Gakhov
 
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияGleb Zakhodiakin
 
Непараметрические методы
Непараметрические методыНепараметрические методы
Непараметрические методыKurbatskiy Alexey
 
Regress 2015.05.011
Regress 2015.05.011Regress 2015.05.011
Regress 2015.05.011Kh Ider
 
Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Andrii Gakhov
 
Доверительные интервалы. Распределения F,t,chi^2
Доверительные интервалы. Распределения F,t,chi^2Доверительные интервалы. Распределения F,t,chi^2
Доверительные интервалы. Распределения F,t,chi^2Kurbatskiy Alexey
 

Tendances (20)

МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛАМЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
 
Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.
 
Прогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессияПрогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессия
 
Прогнозирование - Лекция 6. Использование инструментов подготовки данных и пр...
Прогнозирование - Лекция 6. Использование инструментов подготовки данных и пр...Прогнозирование - Лекция 6. Использование инструментов подготовки данных и пр...
Прогнозирование - Лекция 6. Использование инструментов подготовки данных и пр...
 
Прогнозирование - Лекция 5. Методология Бокса-Дженкинса (модели ARIMA)
Прогнозирование - Лекция 5. Методология Бокса-Дженкинса (модели ARIMA)Прогнозирование - Лекция 5. Методология Бокса-Дженкинса (модели ARIMA)
Прогнозирование - Лекция 5. Методология Бокса-Дженкинса (модели ARIMA)
 
Regression
RegressionRegression
Regression
 
Прогнозирование - Лекция 4. Регрессионные модели временных рядов
Прогнозирование - Лекция 4. Регрессионные модели временных рядовПрогнозирование - Лекция 4. Регрессионные модели временных рядов
Прогнозирование - Лекция 4. Регрессионные модели временных рядов
 
Статистика
СтатистикаСтатистика
Статистика
 
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессияПрогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
 
Корреляция и МНК
Корреляция и МНККорреляция и МНК
Корреляция и МНК
 
Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборок
 
Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014
 
Tema 1 do_
Tema 1 do_Tema 1 do_
Tema 1 do_
 
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
 
Непараметрические методы
Непараметрические методыНепараметрические методы
Непараметрические методы
 
Regress 2015.05.011
Regress 2015.05.011Regress 2015.05.011
Regress 2015.05.011
 
Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014
 
Доверительные интервалы. Распределения F,t,chi^2
Доверительные интервалы. Распределения F,t,chi^2Доверительные интервалы. Распределения F,t,chi^2
Доверительные интервалы. Распределения F,t,chi^2
 
Stat 5 alpha
Stat 5 alphaStat 5 alpha
Stat 5 alpha
 
2
22
2
 

Similaire à Разведочный анализ данных

практика02 97
практика02 97практика02 97
практика02 97cezium
 
практика02 97
практика02 97практика02 97
практика02 97cezium
 
практика02 97
практика02 97практика02 97
практика02 97cezium
 
Практика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.ppt
Практика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.pptПрактика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.ppt
Практика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.pptJamshidJumaboyev1
 
Описательная статистика
Описательная статистикаОписательная статистика
Описательная статистикаSixSigmaOnline
 
Модели прогнозирования объемов продаж (лекция 1)
Модели прогнозирования объемов продаж (лекция 1)Модели прогнозирования объемов продаж (лекция 1)
Модели прогнозирования объемов продаж (лекция 1)Olga Kudryashova
 
t-статистика
t-статистикаt-статистика
t-статистикаSixSigmaOnline
 
Представление результатов психологических исследований
Представление результатов психологических исследованийПредставление результатов психологических исследований
Представление результатов психологических исследованийАндрей Четвериков
 
Лекция 3 Особенности подбора репрезентативной выборки
Лекция 3 Особенности подбора репрезентативной выборкиЛекция 3 Особенности подбора репрезентативной выборки
Лекция 3 Особенности подбора репрезентативной выборкиКонстантин Князев
 
Лекция 4 Основы описательной статистики
Лекция 4 Основы описательной статистикиЛекция 4 Основы описательной статистики
Лекция 4 Основы описательной статистикиКонстантин Князев
 
07в11 45-алашеев - введение в биостатистику
07в11 45-алашеев - введение в биостатистику07в11 45-алашеев - введение в биостатистику
07в11 45-алашеев - введение в биостатистикуViktor Mokretsov
 
Представление результатов психологических исследований: рекомендации APA и в...
Представление результатов психологических исследований: рекомендации APA и в...Представление результатов психологических исследований: рекомендации APA и в...
Представление результатов психологических исследований: рекомендации APA и в...Андрей Четвериков
 
Михаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделированиеМихаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделированиеLidia Pivovarova
 
Moscow web slides_april_21_2010 rus
Moscow web slides_april_21_2010 rusMoscow web slides_april_21_2010 rus
Moscow web slides_april_21_2010 rusMaria Holkina
 
Voting system slides
Voting system slidesVoting system slides
Voting system slidesMaria Holkina
 
Tchaikovsky voting system
Tchaikovsky voting systemTchaikovsky voting system
Tchaikovsky voting systemguest9cfa0f
 
Aslanov ebm biostat_basic
Aslanov ebm biostat_basicAslanov ebm biostat_basic
Aslanov ebm biostat_basicElena Lvova
 

Similaire à Разведочный анализ данных (20)

практика02 97
практика02 97практика02 97
практика02 97
 
практика02 97
практика02 97практика02 97
практика02 97
 
практика02 97
практика02 97практика02 97
практика02 97
 
Практика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.ppt
Практика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.pptПрактика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.ppt
Практика_3_MDIB_Tanlanma_to’plam_va_statistik_xatolarni_aniqlash.ppt
 
Stat 4 alpha
Stat 4 alphaStat 4 alpha
Stat 4 alpha
 
Описательная статистика
Описательная статистикаОписательная статистика
Описательная статистика
 
Модели прогнозирования объемов продаж (лекция 1)
Модели прогнозирования объемов продаж (лекция 1)Модели прогнозирования объемов продаж (лекция 1)
Модели прогнозирования объемов продаж (лекция 1)
 
t-статистика
t-статистикаt-статистика
t-статистика
 
Представление результатов психологических исследований
Представление результатов психологических исследованийПредставление результатов психологических исследований
Представление результатов психологических исследований
 
Лекция 3 Особенности подбора репрезентативной выборки
Лекция 3 Особенности подбора репрезентативной выборкиЛекция 3 Особенности подбора репрезентативной выборки
Лекция 3 Особенности подбора репрезентативной выборки
 
Лекция 4 Основы описательной статистики
Лекция 4 Основы описательной статистикиЛекция 4 Основы описательной статистики
Лекция 4 Основы описательной статистики
 
Trimmed mean
Trimmed meanTrimmed mean
Trimmed mean
 
07в11 45-алашеев - введение в биостатистику
07в11 45-алашеев - введение в биостатистику07в11 45-алашеев - введение в биостатистику
07в11 45-алашеев - введение в биостатистику
 
Представление результатов психологических исследований: рекомендации APA и в...
Представление результатов психологических исследований: рекомендации APA и в...Представление результатов психологических исследований: рекомендации APA и в...
Представление результатов психологических исследований: рекомендации APA и в...
 
Михаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделированиеМихаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделирование
 
6
66
6
 
Moscow web slides_april_21_2010 rus
Moscow web slides_april_21_2010 rusMoscow web slides_april_21_2010 rus
Moscow web slides_april_21_2010 rus
 
Voting system slides
Voting system slidesVoting system slides
Voting system slides
 
Tchaikovsky voting system
Tchaikovsky voting systemTchaikovsky voting system
Tchaikovsky voting system
 
Aslanov ebm biostat_basic
Aslanov ebm biostat_basicAslanov ebm biostat_basic
Aslanov ebm biostat_basic
 

Plus de DEVTYPE

Рукописные лекции по линейной алгебре
Рукописные лекции по линейной алгебреРукописные лекции по линейной алгебре
Рукописные лекции по линейной алгебреDEVTYPE
 
1.4 Точечные оценки и их свойства
1.4 Точечные оценки и их свойства1.4 Точечные оценки и их свойства
1.4 Точечные оценки и их свойстваDEVTYPE
 
1.3 Описательная статистика
1.3 Описательная статистика1.3 Описательная статистика
1.3 Описательная статистикаDEVTYPE
 
1.2 Выборка. Выборочное пространство
1.2 Выборка. Выборочное пространство1.2 Выборка. Выборочное пространство
1.2 Выборка. Выборочное пространствоDEVTYPE
 
Continuity and Uniform Continuity
Continuity and Uniform ContinuityContinuity and Uniform Continuity
Continuity and Uniform ContinuityDEVTYPE
 
Coin Change Problem
Coin Change ProblemCoin Change Problem
Coin Change ProblemDEVTYPE
 
Recurrences
RecurrencesRecurrences
RecurrencesDEVTYPE
 
D-кучи и их применение
D-кучи и их применениеD-кучи и их применение
D-кучи и их применениеDEVTYPE
 
Диаграммы Юнга, плоские разбиения и знакочередующиеся матрицы
Диаграммы Юнга, плоские разбиения и знакочередующиеся матрицыДиаграммы Юнга, плоские разбиения и знакочередующиеся матрицы
Диаграммы Юнга, плоские разбиения и знакочередующиеся матрицыDEVTYPE
 
ЖАДНЫЕ АЛГОРИТМЫ
ЖАДНЫЕ АЛГОРИТМЫ ЖАДНЫЕ АЛГОРИТМЫ
ЖАДНЫЕ АЛГОРИТМЫ DEVTYPE
 
Скорость роста функций
Скорость роста функцийСкорость роста функций
Скорость роста функцийDEVTYPE
 
Asymptotic Growth of Functions
Asymptotic Growth of FunctionsAsymptotic Growth of Functions
Asymptotic Growth of FunctionsDEVTYPE
 
Кучи
КучиКучи
КучиDEVTYPE
 
Кодирование Хаффмана
Кодирование ХаффманаКодирование Хаффмана
Кодирование ХаффманаDEVTYPE
 
Жадные алгоритмы: введение
Жадные алгоритмы: введениеЖадные алгоритмы: введение
Жадные алгоритмы: введениеDEVTYPE
 
Разбор задач по дискретной вероятности
Разбор задач по дискретной вероятностиРазбор задач по дискретной вероятности
Разбор задач по дискретной вероятностиDEVTYPE
 
Разбор задач модуля "Теория графов ll"
Разбор задач модуля "Теория графов ll"Разбор задач модуля "Теория графов ll"
Разбор задач модуля "Теория графов ll"DEVTYPE
 
Наибольший общий делитель
Наибольший общий делительНаибольший общий делитель
Наибольший общий делительDEVTYPE
 
Числа Фибоначчи
Числа ФибоначчиЧисла Фибоначчи
Числа ФибоначчиDEVTYPE
 
О-символика
О-символикаО-символика
О-символикаDEVTYPE
 

Plus de DEVTYPE (20)

Рукописные лекции по линейной алгебре
Рукописные лекции по линейной алгебреРукописные лекции по линейной алгебре
Рукописные лекции по линейной алгебре
 
1.4 Точечные оценки и их свойства
1.4 Точечные оценки и их свойства1.4 Точечные оценки и их свойства
1.4 Точечные оценки и их свойства
 
1.3 Описательная статистика
1.3 Описательная статистика1.3 Описательная статистика
1.3 Описательная статистика
 
1.2 Выборка. Выборочное пространство
1.2 Выборка. Выборочное пространство1.2 Выборка. Выборочное пространство
1.2 Выборка. Выборочное пространство
 
Continuity and Uniform Continuity
Continuity and Uniform ContinuityContinuity and Uniform Continuity
Continuity and Uniform Continuity
 
Coin Change Problem
Coin Change ProblemCoin Change Problem
Coin Change Problem
 
Recurrences
RecurrencesRecurrences
Recurrences
 
D-кучи и их применение
D-кучи и их применениеD-кучи и их применение
D-кучи и их применение
 
Диаграммы Юнга, плоские разбиения и знакочередующиеся матрицы
Диаграммы Юнга, плоские разбиения и знакочередующиеся матрицыДиаграммы Юнга, плоские разбиения и знакочередующиеся матрицы
Диаграммы Юнга, плоские разбиения и знакочередующиеся матрицы
 
ЖАДНЫЕ АЛГОРИТМЫ
ЖАДНЫЕ АЛГОРИТМЫ ЖАДНЫЕ АЛГОРИТМЫ
ЖАДНЫЕ АЛГОРИТМЫ
 
Скорость роста функций
Скорость роста функцийСкорость роста функций
Скорость роста функций
 
Asymptotic Growth of Functions
Asymptotic Growth of FunctionsAsymptotic Growth of Functions
Asymptotic Growth of Functions
 
Кучи
КучиКучи
Кучи
 
Кодирование Хаффмана
Кодирование ХаффманаКодирование Хаффмана
Кодирование Хаффмана
 
Жадные алгоритмы: введение
Жадные алгоритмы: введениеЖадные алгоритмы: введение
Жадные алгоритмы: введение
 
Разбор задач по дискретной вероятности
Разбор задач по дискретной вероятностиРазбор задач по дискретной вероятности
Разбор задач по дискретной вероятности
 
Разбор задач модуля "Теория графов ll"
Разбор задач модуля "Теория графов ll"Разбор задач модуля "Теория графов ll"
Разбор задач модуля "Теория графов ll"
 
Наибольший общий делитель
Наибольший общий делительНаибольший общий делитель
Наибольший общий делитель
 
Числа Фибоначчи
Числа ФибоначчиЧисла Фибоначчи
Числа Фибоначчи
 
О-символика
О-символикаО-символика
О-символика
 

Разведочный анализ данных

  • 1. Лекция 2. Разведочный анализ данных Лектор: проф. Авдеенко Татьяна Владимировна, Новосибирский государственный технический университет, Факультет бизнеса, Кафедра экономической информатики
  • 2. Разведочный анализ данных - • Предварительный анализ данных с целью выявления наиболее общих закономерностей и тенденций, характера и свойств анализируемых данных, законов распределения анализируемых величин. • Применяется для нахождения связей между переменными в ситуациях, когда отсутствуют (или недостаточны) априорные представления о природе этих связей. Как правило, при разведочном анализе учитывается и сравнивается большое число переменных, а для поиска закономерностей используются самые разные методы.
  • 3. Разведочный анализ данных Термин «разведочный анализ» был впервые введен математиком из Принстонского университета Дж. Тьюки. Он также сформулировал основные цели данного анализа: - Максимальное «проникновение» в данные. - Выявление основных структур. - Выбор наиболее важных переменных. - Обнаружение отклонений и аномалий. - Проверка основных гипотез (предположений). - Разработка начальных моделей. .
  • 4. Разведочный анализ данных Результаты разведочного анализа не используются для выработки управленческих решений. Их назначение - помощь в разработке наилучшей стратегии углубленного анализа, выдвижение гипотез, уточнение особенностей применения тех или иных математических методов и моделей. Без разведочного анализа углубленный анализ данных будет производиться практически «вслепую».
  • 5. Разведочный анализ данных К основным методам разведочного анализа относится процедура анализа распределений переменных, просмотр корреляционных матриц с целью поиска коэффициентов, превосходящих по величине определенные пороговые значения, факторный анализ, дискриминантный анализ, многомерное шкалирование, визуальный анализ гистограмм и т.д.
  • 6. Разведочный анализ данных Предварительное исследование данных может служить лишь первым этапом в процессе их анализа, и пока результаты не подтверждены на других выборках или на независимом множестве данных, их следует воспринимать самое большее как гипотезу. Если результаты разведочного анализа говорят в пользу некоторой модели, то ее правильность можно затем проверить, применив ее к новым данных.
  • 7.
  • 8. Простейшие описательные статистики (Descriptive Statistics) • Среднее • Дисперсия • Процентиль • Эксцесс • Квантиль • Размах • Медиана • Квартиль • Мода • Асимметрия • Интерквартильный диапазон
  • 9. Центральные меры распределения: среднее, медиана и мода Один из способов подытожить данные — вычислить одно значение, характеризующее весь набор данных. Это значение часто называется типичным или наиболее представительным. Медиана. Представляет середину распределения, т.е. одна половина данного набора данных имеет меньшие значения, а другая — большие значения. Для определения медианы сначала необходимо выполнить сортировку (ранжирование) данных. Полученная последовательность называется вариационным рядом, а ее элементы – порядковыми статистиками. Каждому наблюдению присваивается ранг (номер). Точный подсчет медианы зависит от количества наблюдений в наборе данных. При нечетном количестве значений медианой является промежуточное значение, а при четном — полусумма двух центральных значений.
  • 10. Центральные меры распределения: среднее Среднее значение: Выборочное среднее обладает одним замечательным свойством: сумма квадратов расстояний является минимальной Другие статистические свойства выборочного среднего – несмещенность, состоятельность, эффективность. ∑ = = N i ix n x 1 1 ∑ = − N i ixx 1 2 )(
  • 11. Центральные меры распределения: медиана или среднее Одним из недостатков среднего значения является то, что оно существенно зависит от экстремальных значений. Рассмотрим распределение заработной платы профессиональных бейс­болистов. Большинство бейсболистов зарабатывают в год менее миллиона долларов, но есть бейсболисты с зарплатой более 10 млн. и один бейс­болист с зарплатой более 20 млн. долларов. Как определить "типичную" зарплату? Медианой данного распределения является зарплата 900 тыс. долларов, а средним значением — 2,5 млн. долларов. Похоже, что медиана в большей степени представляет "типичную" зарплату, В официальной статистике США именно медиана используется в качестве оценки центральной точки доходов населения. Если распределение несимметрично, имеются выбросы,
  • 12. Центральные меры распределения: медиана или среднее Для снижения влияния экстремальных значений можно использовать усеченное среднее (trimmed mean), т.е. среднее для набора данных, из которого исключены несколько процентов значений с обоих концов распределения. Например, 5%­ное усеченное среднее равно среднему значению для 90% значений из набора данных, за исключением 5% с каждого конца распределения. Усеченное среднее представляет собой компромиссный вариант итоговой характеристики по сравнению с медианой и средним.
  • 13. Центральные меры распределения Среднее геометрическое (geometric mean) Среднее геометрическое чаще всего используется для наборов данных, которые находятся в диапазоне от 0 до 1. Например, результаты фармацевтических опытов часто записываются в виде относительных долей химических компонентов, поэтому для них удобно использовать среднее геометрическое. Среднее гармоническое (harmonic mean ) Эту характеристику удобно применять для вычисления средних значений скоростей. Допустим, требуется определить среднюю скорость автомобиля, который движется из пункта А в пункт В со скоростью S, а в обратном направлении — со скоростью Т. В этом случае средняя скорость автомобиля будет равна среднему гармоническому для величин S и Т. n n i ix∏ =1 ∑ = = n i ixnН 1 111
  • 14. Центральные меры распределения Еще одной итоговой характеристикой распределения является мода (mode, Пирсон 1894 г.), т.е. наиболее часто встречающееся (модное) значение распределения. Мода часто используется при работе с качественными данными или дискретными количественными данными, которые имеют сравнительно немного разных значений. Ее не следует использовать для непрерывных количественных данных, поскольку в таком случае в подобных распределениях очень мало или практически нет повторяющихся значений. Классический пример использования моды – выбор размера выпускаемой партии обуви или цвета обоев.
  • 15. Центральные меры распределения Если распределение имеет несколько мод, то оно называется мультимодальным. Мультимодальность дает важную информацию о природе исследуемой переменной. Например, в социологических опросах, если переменная представляет собой предпочтение или отношение к чему-либо, то мультимодальность может означать, что существует несколько определенных мнений. Мультимодальность может служить индикатором того, что выборка не является однородной и наблюдения, возможно, порождены двумя или более "наложенными" распределениями.
  • 16. Меры изменчивости Среднее и медиана не полностью характеризуют распределение, так как не учитывают изменчивость данных. Изменчивость (variability) характеризует различия между данными или, что то же самое, разброс от центра. Простейшей мерой изменчивости является диапазон (range), т.е. разница между максимальным и минимальным значениями распределения. Однако диапазон значений не совсем точно характеризует изменчивость распределения и может ввести в заблуждение.
  • 17. Меры изменчивости Дисперсия (variance) (Фишер, 1918 г.) Стандартное отклонение (standard deviation) ∑ = − − = n i i xx n s 1 22 )( 1 1 2 1 1 ( ) 1 n i i s x x n = = − − ∑
  • 18. Меры изменчивости Выборочная дисперсия повторной и бесповторной выборки является несмещенной и состоятельной оценкой генеральной дисперсии , т.е. и Выборочная дисперсия не является эффективной оценкой , зато является асимптотически эффективной (т.е. при эффективность стремится к 1). 2 s 2 σ 2 s 2 σ 22 )( σ=sM 2 2 P n s σ →∞ → ∞→n
  • 19. Меры формы: асимметрия и эксцесс Асимметрия, или скос (skewness), является мерой несимметричности распределения (Пирсон 1895 г.): Положительная асимметрия означает, что значения распределения скучены в области малых значений и распределение имеет длинный хвост в области больших значений. И наоборот: отрицательная асимметрия означает, что значения распределения скучены в области высоких значений и распределение имеет длинный хвост в области малых значений. Равное нулю значение асимметрии соответствует симметричному распределению. 2 3 1 2 1 3 )( 1 )( 1         − − = ∑ ∑ = = n i i n i i xx n xx n A
  • 20. Меры формы: асимметрия и эксцесс Эксцесс (kurtosis) (Пирсон 1905 г.) характеризует относительную остроконечность или сглаженность распределения по сравнению с нормальным распределением. Положительный эксцесс обозначает относительно остроконечное распределение, а отрицательный – относительно сглаженное распределение. Как с помощью асимметрии и эксцесса проверить нормальность распределения? Для нормального распределения A=E=0. 3 )( 1 )( 1 2 1 2 1 4 −         − − = ∑ ∑ = = n i i n i i xx n xx n E
  • 21. Персентили (процентили) и квартили Квантиль (Кендалл 1940 г.) Одним из итоговых ориентиров является р-я персентиль (percentile), т.е. такое значение заданного распределения, которое больше р процентов всех значений распределения. Персентили обычно используются при анализе роста новорожденных, если, например, ребенка относят к 75-й или 90-й персентили, значит, он весит больше, чем 75% или 90% всех новорожденных детей. ( )pF x p=
  • 22. Персентили (процентили) и квартили Довольно близкими по смыслу к персентилям являются квартили (Гальтон 1982) (quartiles) – значения, соответствующие 25, 50 и 75-й персентилям, т.е. четвертям распределения. Обычно их называют первой, второй и третьей квартилями. В статистике часто используют интерквартильный диапазон (interquartile range), который обозначает разницу между первой и третьей квартилями (другое название – квартильный размах). Поскольку в этом диапазоне располагается 50% всех данных, его размер дает представление о ширине распределения.
  • 23. Ящик с усами Диаграмма типа “ящик с усами” (boxplot) изображает важные характеристик описательной статистики на одном компактном рисунке. Он предложен Джоном Тьюки (John Tukey) в 1977 г. в . Диаграмма типа “ящик с усами” отображает следующие характеристики описательной статистики: • Первая квартиль, медиана, третья квартиль и интерквартильный диапазон. • Минимальное и максимальное значения. • Умеренные и экстремальные выбросы. Диаграмма типа “ящик с усами” дает хорошее визуальное представление изменчивости данных, а также асимметрии распределения.
  • 24. Ящик с усами После отображения интерквартильного диапазона можно приступать к вычислению внутреннего и внешнего ограждений. Внутренние ограждения (inner fences) располагаются в области больше третьей квартили + 1,5×IQR или меньше первой квартили – 1,5×IQR. Внешние ограждения (outer fences) располагаются в области больше третьей квартили + 3×IQR или меньше первой квартили – 3×IQR. 3-я квартиль 1-я квартиль внутреннее = 1-я квартиль - 1.5xIQR внешнее = 1-я квартиль - 3xIQR внутреннее = 3-я квартиль + 1.5xIQR внешнее = 3-я квартиль + 3xIQR медиана IQR
  • 25. Ящик с усами Все значения, которые лежат в промежутке между внутренним и внешним ограждениями, называются умеренными выбросами (moderate outlier) и обозначаются символами . Все значения, которые лежат за пределами внешних ограждений, называются экстремальными выбросами (extreme outlier) и обозначаются символами  . 3-я квартиль 1-я квартиль внутреннее внешнее внутреннее внешнее медиана
  • 27. Анализ таблиц • Таблицы частот • Таблицы сопряженности • Таблицы заголовков • Многомерные отклики • Дихотомии
  • 28. Таблицы сопряженности Кросстабуляция - это процесс объединения двух (или нескольких) таблиц частот так, что каждая ячейка (клетка) в построенной таблице представляется единственной комбинацией значений или уровней табулированных переменных. Таким образом, кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов. Исследуя эти частоты, можно определить связи между табулированными переменными. Обычно табулируются категориальные переменные или переменные с относительно небольшим числом значений.
  • 29. Таблицы сопряженности Газ. вода: А Газ. вода: В Пол: женщины 20 (40 %) 30 (60 %) 50 (50 %) Пол: мужчины 30 (60 %) 20 (40 %) 50 (50%) 50 (50 %) 50 (50 %) 100 100 %)
  • 30. Таблицы сопряженности Маргинальные частоты. Значения, расположенные по краям таблицы сопряженности - это обычные таблицы частот (с одним входом) для рассматриваемых переменных. Так как эти частоты располагаются на краях таблицы, то они называются маргинальными. Маргинальные значения важны, т.к. позволяют оценить распределение частот в отдельных столбцах и строках таблицы. Например, 40% и 60% мужчин и женщин (соответственно), выбравших марку A, не могли бы показать какой-либо связи между переменными Пол и Газ.вода, если бы маргинальные частоты переменной Пол были также 40% и 60%. В этом случае они просто отражали бы разную долю мужчин и женщин, участвующих в опросе.
  • 31. Таблицы сопряженности Summary Frequency Table (Опрос) Marked cells have counts > 10 (Marginal summaries are not marked) Var1 Var2 Матем Var2 Биз_Экон Var2 Мед_Здрав Var2 Социол Row Totals ПК 29 49 8 28 114 Мэйнфрейм 22 12 3 13 50 Мини-компьютер 2 1 0 1 4 Mac 12 4 0 6 22 All Grps 65 66 11 48 190
  • 32. Таблицы сопряженности Проверка гипотезы H0 : распределение разных видов компьютеров одинаково внутри каждой кафедры (переменные независимы). H1 : распределение разных видов компьютеров зависит от кафедры (переменные зависимы)
  • 33. Таблицы сопряженности В 1900 году Карл Пирсон предложил для проверки гипотезы тест (тест хи-квадрат Пирсона): , ожидаемые частоты , маргинальные частоты Если то гипотеза о независимости переменных отвергается (переменные зависимы). ∑∑ = = − = r i s j ij ijijn 1 1 2 2 )( ν ν χ n nn ji ij .. =ν 2 2 ,( 1)( 1)r sαχ χ − −> ∑ = = s j iji nn 1 . 1 . r j ij i n n = = ∑