SlideShare une entreprise Scribd logo
1  sur  21
Télécharger pour lire hors ligne
Head First
                 Statistics Ch.7
                     2012. 5.26
                      chois79




12년 5월 26일 토요일
Introduction
                 확률분포란?

                   발생할 수 있는 모든 가능성의 확률을 모아둔 것
                     조합        꽝      레몬      체리      달러/체리   달러

                   따는 금액(x)    -$1     $4      $9      $14     $19

                     확률       0.977   0.008   0.008   0.006   0.001


                   확률 변수(x): 특정한 확률과 연관되어 있는 경우의 변수

                 이산 확률 분포란? (6장 참조)

                   확률 변수가 반드시 정확한 값(이산)을 가지는 확률 분포

                 이 장에서는...

                   기하, 이항, 푸아송분포




12년 5월 26일 토요일
Example #1:
                         스노보더 차드
                 전제 조건

                  차드가 한번의 시도에서 슬로프를 성공적으로 내려올 확
                  률: 0.2

                  각 시도는 서로 독립적

                  한번이라도 성공할 경우 시도를 멈춤

                 문제

                  두번 시도할 확률은?

                  한번 혹은 두번 시도 안에 성공적으로 내려올 확률은?



12년 5월 26일 토요일
Answer #1:
                           스노보더 차드
                                    시도 #1                시도 #2
                                                          성공
                                                0.2


                           0.2       성공
                                                0.8       실패
                                                0.2       성공

                           0.8       실패

                                                0.8       실패

                 P(X=1) = P(첫 번째 성공) = 0.2

                 P(X=2) = P(두 번째 성공 ∩ 첫 번째 실패) = 0.2 * 0.8 = 0.16

                 P(X≤2) = P(X=1) + P(X=2) = 0.2 + 0.16   = 0.36

                 100번 이내에 성공적으로 내려올 확률은? P(X≤100)




12년 5월 26일 토요일
확률 분포 패턴:
                         스노보더 차드
                 여러번 시도할 경우 확률 분포 표
                    X              P(X=x)              실패할 확률을 곱하는 횟수   성공할 확률을 곱하는 횟수

                    1                0.2                      0               1

                    2             0.8 * 0.2                   1               1

                    3          0.8 * 0.8 * 0.2                2               1

                    4       0.8 * 0.8 * 0.8 * 0.2             3               1

                    5    0.8 * 0.8 * 0.8 * 0.8 * 0.2          4               1

                    r                 ?                     r - 1             1




                 성공할 확률을 p, 실패할 확률을 q

                  P(X=r) = p * qr-1

                  실제로는 q = 1 - p



12년 5월 26일 토요일
기하 분포
                 기하분포의 조건

                   일련의 독립 시행

                   각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일

                   관심사: 첫 번째 성공을 거두기 위해 시도해야 하는 횟수

                 기하 분포의 특징

                   P(X=1)이 가장 높은 확률을 가짐

                   첫번째 성공이 r보다 클 확률: P(X>r)= qr

                   첫번째 성공이 r보다 작을 확률: P(X≤r) = 1 - qr

                 기하 분포의 표현

                   X ~ Geo(p): “성공률이 p일때 확률 변수는 기하 분포를 따른다”는 의미




12년 5월 26일 토요일
기하 분포를 위한
                      기대치 패턴
                 기대치: ΣxP(X=x)

                   X ~ Geo(0.2)일 경우
                     x     P(X = x)    xP(X = x)    xP(X ≤ x)

                     1       0.2          0.2          0.2

                     2    0.8 * 0.2       0.32         0.52

                     3    0.82 * 0.2     0.384        0.904

                     4    0.83 * 0.2     0.4096       1.3136

                     5    0.84 * 0.2     0.4096       1.7232

                     6    0.85 * 0.2    0.393216     2.116416

                     7    0.86 * 0.2   0.3670016    2.4834176

                     8    0.87 * 0.2   0.33554432   2.81894608

                   X가 5일때 까지 xP(X=x) 값이 증가하고 점점 감소함

                 ΣxP(X=x) 값은 x가 무한대까지 증가할 경우: 1/p




12년 5월 26일 토요일
기하 분포를 위한
                         분산 패턴
                 분산: Σx2/n - u2     =>
                                         E(X2) - E2(X)

                    X ~ Geo(0.2)일 경우
                       x         P(X = x)       x2P(X = x)    x2P(X ≤ x)

                       1           0.2             0.2           0.2

                       2     0.8 * 0.2            0.64           0.84

                       3     0.82 * 0.2           1.152         1.992

                       4     0.83 * 0.2          1.6384         3.6304

                       5     0.84 * 0.2           2.048         5.6784

                       6     0.85 * 0.2         2.359296       8.037696

                       7     0.86 * 0.2         2.5690112     10.6067072

                       8     0.87 * 0.2        2.68435456    13.29106176

                       9     0.88 * 0.2        2.717908992   16.008970752

                      10     0.89 * 0.2        2.68435456    18.693325312


                 Var(x) = q/p2




12년 5월 26일 토요일
기하 분포 정리
                 기하분포의 사용 조건

                      일련의 독립 시행

                      각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일

                      관심사: 첫 번째 성공을 거두기 위해 시도해야 하는 횟수

                 확률

                      P(X=r) = pqr-1

                      P(X>r) = qr

                      P(X≤r) = 1 - qr

                 기대치와 분산

                      E(X) = 1/p, Var(X) = q/p2




12년 5월 26일 토요일
Example #2:
                    빙글 의자 퀴즈쇼
                 1 라운드 라운드 전제 조건

                   3개의 질문이 존재하고, 각 질문은 4개의 항목을 가지는 객관식

                 확률 트리

                            문제 #1          문제 #2          문제 #3

                                    0.25
                                            정답      :
                                                           정답
                                                   0.25
                     0.25    정답
                                    0.75   오답
                                    0.25   정답
                                                   0.75    오답
                     0.75    오답

                                    0.75
                                                    :
                                           오답




12년 5월 26일 토요일
확률 분포 패턴:
                      빙글 의자 퀴즈쇼
                 정답의 수에 따른 확률 분포표
                  X           P(X=x)              오답일 확률을 곱하는 횟수   정답일 확률을 곱하는 횟수   가능한 경우의 수

                  0        0.753 = 0.422                   3             0              1

                  1   3 * 0.752 * 0.25 = 0.422             2             1              3

                  2   3 * 0.75 * 0.252 = 0.141             1             2              3

                  3        0.253 = 0.015                   0             3              1



                  P(X=r) = ? * 0.25r * 0.75n-r

                  즉, P(X=r) =                    3C
                                                      r   * 0.25r * 0.75n-r

                 확률 분포의 일반화

                  P(X=r) =             nC
                                            r    * pr * qn-r (이항 분포)



12년 5월 26일 토요일
이항 분포
                 이항분포의 조건

                   일련의 독립 시행

                   각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일

                   시행의 수는 한정되어 있음

                       Ex) 확률 변수 X: n번의 시행에서 성공적인 결과를 얻는 수

                 이항 분포의 특징

                   P(X=r) =   nC
                                   r   * pr * qn-r

                   p의 값에 따라 기울기가 변함 (기준 0.5)

                 이항 분포의 표현

                   X ~ B(n, p): “시행의 수 n, 각 시행에서 성공적인 결과를 얻을 확률 p일때 확
                   률 변수는 이항 분포를 따른다”는 의미




12년 5월 26일 토요일
이항분포의
                        기대치와 분산
                 X ~ B(n, p): n이 1일 경우

                   E(X) = 0 * q + 1 * p = p

                   Var(X) = E(X2) - E2(X) = (0 * q + 1 * p) - p2
                   = p - p2 = p * (1 - p) = p * q

                 X ~ B(n, p)의 일반화

                   P(X=x)가 독립 시행이므로

                      E(X) = E(X1) + E(X2) ... + E(Xn) = n * p

                      Var(X) = Var(X1) + Var(X2) ... + Var(Xn)
                      = n * p * q



12년 5월 26일 토요일
이항 분포 정리
                 기하분포의 사용 조건

                   일련의 독립 시행

                   각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상
                   동일

                   관심사: n번 시행 했을 때의 성공이나 실패의 횟수에 대한 확률

                 확률

                   P(X=r) =   nC
                                   rp
                                        rqn-r   ,   nC
                                                         r   = n! / r!(n - r)!

                 기대치와 분산

                   E(X) = np, Var(X) = npq



12년 5월 26일 토요일
Example #3:
                        팝콘 기계
                 전제 조건

                  팝콘 기계가 주 중에 고장을 일으키는 평균 횟수 3.4

                 문제

                  다음 주에 한번이라도 고장이 나지 않을 확률은?

                 기하/이항 분포와 다른점

                  일련의 시도나 시행이 없고, 임의의 시점에서 발생

                  그럼 어떻게?



12년 5월 26일 토요일
푸아송 분포
                 푸아송 분포의 조건

                   개별적인 사건이 어떤 주어진 구간에서 임의 혹은 독립적으로 발생

                       Ex) 1주일, 1마일 ...

                   해당 구간에서 사건이 발생하는 수의 평균 값이나 비율을 알고 있을 경우

                 푸아송 분포의 특징

                   P(X=r) = e-𝝀 𝝀r / r!

                    𝝀가 작으면 오른쪽으로 편향, 클 경우 좌우 대칭

                 푸아송 분포의 표현

                   X ~ Po(𝝀): “확률변수는 구간마다 𝝀번 발생하는 푸아송 분포를 따른다”는 의미

                 푸아송 분포의 기대치와 분산

                   E(X) = 𝝀, Var(X) = 𝝀




12년 5월 26일 토요일
Answer #3:
                        팝콘 기계
                 한 주에 고장나는 횟수의 평균: 3.4

                  한번도 고장나지 않을 확률

                    P(X=0) = e-3.4 * 3.40 / 0! = 0.033

                  3번 고장날 확률

                    P(X=3) = e-3.4 * 3.43 / 3! = 0.216

                  기대치와 분산

                    E(X) = 3.4, Var(X) = 3.4



12년 5월 26일 토요일
Example #4:
            팝콘 기계, 음료수 기계
                 전제 조건(한 주에 고장 나는 횟수의 평균)

                      팝콘 기계: 3.4

                      음료수 기계: 2.3

                 문제

                      한 주 동안 두 기계 모두 고장 나지 않을 확률은?

                        두 기계는 독립 확률이므로,

                           P(X+Y) = P(X) + P(Y), E(X+Y) = E(X) + E(Y)

                        두 기계 모두 푸아송 분포를 따르기 때문에,

                           X + Y ~ Po(𝝀x + 𝝀y), 즉 Po(5.7)




12년 5월 26일 토요일
푸아송 분포의 활용
                 이항 확률 분포에서 n이 큰 경우

                  Ex) 3000일 경우 3000!을 계산해야 함

                 이항 확률 분포와 푸아송 분포가 유사할 조건

                   𝝀 ≒ np, 𝝀 ≒ npq일 경우

                    np ≒ npq (n이 크고 q가 1에 가깝다면)

                  일반적인 경우: n > 50, p < 0.1 (q = 1 - p)



12년 5월 26일 토요일
Example #5:
        시험에서 r개의 정답을 맞출 확률
                 전제 조건

                      모두 모르는 문제

                      시험의 총 문제의 수: 50

                      한 문제의 정답을 맞출 확률: 0.05

                 문제

                      5개의 정답을 맞출 확률? P(X=5)

                        이항 분포: 0.055 * 0.954 * 50!/5!(50-5)!

                        푸아송 분포

                           𝝀 = 50 * 0.05 = 0.25 => e-0.25 * 2.55 / 5!




12년 5월 26일 토요일
정리
                 기하 분포

                   일련의 독립 시행

                   각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일

                   관심사: 첫 번째 성공을 거두기 위해 시도해야 하는 횟수

                 이항 분포

                   일련의 독립 시행

                   각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일

                   관심사: 시행의 수가 한정되어 있을 때, 특정한 결과가 발생한 횟수

                 푸아송 분포

                   개별적인 사건이 어떤 주어진 구간에서 임의 혹은 독립적으로 발생

                   해당 시행 구간에서 평균을 알 경우

                   관심사: 특정한 결과가 발생한 횟수


12년 5월 26일 토요일

Contenu connexe

En vedette

CODE Ch.21 버스에 올라 탑시다
CODE Ch.21 버스에 올라 탑시다CODE Ch.21 버스에 올라 탑시다
CODE Ch.21 버스에 올라 탑시다HyeonSeok Choi
 
Refactoring 메소드 호출의 단순화
Refactoring 메소드 호출의 단순화Refactoring 메소드 호출의 단순화
Refactoring 메소드 호출의 단순화HyeonSeok Choi
 
SICP_2.5 일반화된 연산시스템
SICP_2.5 일반화된 연산시스템SICP_2.5 일반화된 연산시스템
SICP_2.5 일반화된 연산시스템HyeonSeok Choi
 
MiningTheSocialWeb.Ch2.Microformat
MiningTheSocialWeb.Ch2.MicroformatMiningTheSocialWeb.Ch2.Microformat
MiningTheSocialWeb.Ch2.MicroformatHyeonSeok Choi
 
프로그래머로 사는 법 Ch14
프로그래머로 사는 법 Ch14프로그래머로 사는 법 Ch14
프로그래머로 사는 법 Ch14HyeonSeok Choi
 
Domain driven design ch1
Domain driven design ch1Domain driven design ch1
Domain driven design ch1HyeonSeok Choi
 
서버인프라를지탱하는기술3_2_3
서버인프라를지탱하는기술3_2_3서버인프라를지탱하는기술3_2_3
서버인프라를지탱하는기술3_2_3HyeonSeok Choi
 
Mining the social web 6
Mining the social web 6Mining the social web 6
Mining the social web 6HyeonSeok Choi
 
Code 11 논리 게이트
Code 11 논리 게이트Code 11 논리 게이트
Code 11 논리 게이트HyeonSeok Choi
 
자바 병렬 프로그래밍 1&2
자바 병렬 프로그래밍 1&2자바 병렬 프로그래밍 1&2
자바 병렬 프로그래밍 1&2HyeonSeok Choi
 
컴퓨터 프로그램 구조와 해석 3.5
컴퓨터 프로그램 구조와 해석 3.5컴퓨터 프로그램 구조와 해석 3.5
컴퓨터 프로그램 구조와 해석 3.5HyeonSeok Choi
 
실무로 배우는 시스템 성능 최적화 Ch7
실무로 배우는 시스템 성능 최적화 Ch7실무로 배우는 시스템 성능 최적화 Ch7
실무로 배우는 시스템 성능 최적화 Ch7HyeonSeok Choi
 
서버인프라를지탱하는기술2_1-2
서버인프라를지탱하는기술2_1-2서버인프라를지탱하는기술2_1-2
서버인프라를지탱하는기술2_1-2HyeonSeok Choi
 
실무로 배우는 시스템 성능 최적화 Ch6
실무로 배우는 시스템 성능 최적화 Ch6실무로 배우는 시스템 성능 최적화 Ch6
실무로 배우는 시스템 성능 최적화 Ch6HyeonSeok Choi
 
HTTP 완벽가이드 16장
HTTP 완벽가이드 16장HTTP 완벽가이드 16장
HTTP 완벽가이드 16장HyeonSeok Choi
 
Mining the social web ch1
Mining the social web ch1Mining the social web ch1
Mining the social web ch1HyeonSeok Choi
 

En vedette (20)

CODE Ch.21 버스에 올라 탑시다
CODE Ch.21 버스에 올라 탑시다CODE Ch.21 버스에 올라 탑시다
CODE Ch.21 버스에 올라 탑시다
 
Code1_2
Code1_2Code1_2
Code1_2
 
Refactoring 메소드 호출의 단순화
Refactoring 메소드 호출의 단순화Refactoring 메소드 호출의 단순화
Refactoring 메소드 호출의 단순화
 
SICP_2.5 일반화된 연산시스템
SICP_2.5 일반화된 연산시스템SICP_2.5 일반화된 연산시스템
SICP_2.5 일반화된 연산시스템
 
MiningTheSocialWeb.Ch2.Microformat
MiningTheSocialWeb.Ch2.MicroformatMiningTheSocialWeb.Ch2.Microformat
MiningTheSocialWeb.Ch2.Microformat
 
프로그래머로 사는 법 Ch14
프로그래머로 사는 법 Ch14프로그래머로 사는 법 Ch14
프로그래머로 사는 법 Ch14
 
Domain driven design ch1
Domain driven design ch1Domain driven design ch1
Domain driven design ch1
 
서버인프라를지탱하는기술3_2_3
서버인프라를지탱하는기술3_2_3서버인프라를지탱하는기술3_2_3
서버인프라를지탱하는기술3_2_3
 
Mining the social web 6
Mining the social web 6Mining the social web 6
Mining the social web 6
 
C++ api design 품질
C++ api design 품질C++ api design 품질
C++ api design 품질
 
Code 11 논리 게이트
Code 11 논리 게이트Code 11 논리 게이트
Code 11 논리 게이트
 
자바 병렬 프로그래밍 1&2
자바 병렬 프로그래밍 1&2자바 병렬 프로그래밍 1&2
자바 병렬 프로그래밍 1&2
 
컴퓨터 프로그램 구조와 해석 3.5
컴퓨터 프로그램 구조와 해석 3.5컴퓨터 프로그램 구조와 해석 3.5
컴퓨터 프로그램 구조와 해석 3.5
 
실무로 배우는 시스템 성능 최적화 Ch7
실무로 배우는 시스템 성능 최적화 Ch7실무로 배우는 시스템 성능 최적화 Ch7
실무로 배우는 시스템 성능 최적화 Ch7
 
서버인프라를지탱하는기술2_1-2
서버인프라를지탱하는기술2_1-2서버인프라를지탱하는기술2_1-2
서버인프라를지탱하는기술2_1-2
 
실무로 배우는 시스템 성능 최적화 Ch6
실무로 배우는 시스템 성능 최적화 Ch6실무로 배우는 시스템 성능 최적화 Ch6
실무로 배우는 시스템 성능 최적화 Ch6
 
HTTPS
HTTPSHTTPS
HTTPS
 
HTTP 완벽가이드 16장
HTTP 완벽가이드 16장HTTP 완벽가이드 16장
HTTP 완벽가이드 16장
 
Mining the social web ch1
Mining the social web ch1Mining the social web ch1
Mining the social web ch1
 
MutiCore 19-20
MutiCore 19-20MutiCore 19-20
MutiCore 19-20
 

Plus de HyeonSeok Choi

밑바닥부터시작하는딥러닝 Ch05
밑바닥부터시작하는딥러닝 Ch05밑바닥부터시작하는딥러닝 Ch05
밑바닥부터시작하는딥러닝 Ch05HyeonSeok Choi
 
밑바닥부터시작하는딥러닝 Ch2
밑바닥부터시작하는딥러닝 Ch2밑바닥부터시작하는딥러닝 Ch2
밑바닥부터시작하는딥러닝 Ch2HyeonSeok Choi
 
프로그래머를위한선형대수학1.2
프로그래머를위한선형대수학1.2프로그래머를위한선형대수학1.2
프로그래머를위한선형대수학1.2HyeonSeok Choi
 
알고리즘 중심의 머신러닝 가이드 Ch04
알고리즘 중심의 머신러닝 가이드 Ch04알고리즘 중심의 머신러닝 가이드 Ch04
알고리즘 중심의 머신러닝 가이드 Ch04HyeonSeok Choi
 
딥러닝 제대로시작하기 Ch04
딥러닝 제대로시작하기 Ch04딥러닝 제대로시작하기 Ch04
딥러닝 제대로시작하기 Ch04HyeonSeok Choi
 
밑바닥부터시작하는딥러닝 Ch05
밑바닥부터시작하는딥러닝 Ch05밑바닥부터시작하는딥러닝 Ch05
밑바닥부터시작하는딥러닝 Ch05HyeonSeok Choi
 
7가지 동시성 모델 - 데이터 병렬성
7가지 동시성 모델 - 데이터 병렬성7가지 동시성 모델 - 데이터 병렬성
7가지 동시성 모델 - 데이터 병렬성HyeonSeok Choi
 
7가지 동시성 모델 4장
7가지 동시성 모델 4장7가지 동시성 모델 4장
7가지 동시성 모델 4장HyeonSeok Choi
 
실무로 배우는 시스템 성능 최적화 Ch8
실무로 배우는 시스템 성능 최적화 Ch8실무로 배우는 시스템 성능 최적화 Ch8
실무로 배우는 시스템 성능 최적화 Ch8HyeonSeok Choi
 
Logstash, ElasticSearch, Kibana
Logstash, ElasticSearch, KibanaLogstash, ElasticSearch, Kibana
Logstash, ElasticSearch, KibanaHyeonSeok Choi
 
실무로배우는시스템성능최적화 Ch1
실무로배우는시스템성능최적화 Ch1실무로배우는시스템성능최적화 Ch1
실무로배우는시스템성능최적화 Ch1HyeonSeok Choi
 
HTTP 완벽가이드 21장
HTTP 완벽가이드 21장HTTP 완벽가이드 21장
HTTP 완벽가이드 21장HyeonSeok Choi
 
HTTP 완벽가이드 6장.
HTTP 완벽가이드 6장.HTTP 완벽가이드 6장.
HTTP 완벽가이드 6장.HyeonSeok Choi
 
HTTP 완벽가이드 1장.
HTTP 완벽가이드 1장.HTTP 완벽가이드 1장.
HTTP 완벽가이드 1장.HyeonSeok Choi
 

Plus de HyeonSeok Choi (20)

밑바닥부터시작하는딥러닝 Ch05
밑바닥부터시작하는딥러닝 Ch05밑바닥부터시작하는딥러닝 Ch05
밑바닥부터시작하는딥러닝 Ch05
 
밑바닥부터시작하는딥러닝 Ch2
밑바닥부터시작하는딥러닝 Ch2밑바닥부터시작하는딥러닝 Ch2
밑바닥부터시작하는딥러닝 Ch2
 
프로그래머를위한선형대수학1.2
프로그래머를위한선형대수학1.2프로그래머를위한선형대수학1.2
프로그래머를위한선형대수학1.2
 
알고리즘 중심의 머신러닝 가이드 Ch04
알고리즘 중심의 머신러닝 가이드 Ch04알고리즘 중심의 머신러닝 가이드 Ch04
알고리즘 중심의 머신러닝 가이드 Ch04
 
딥러닝 제대로시작하기 Ch04
딥러닝 제대로시작하기 Ch04딥러닝 제대로시작하기 Ch04
딥러닝 제대로시작하기 Ch04
 
밑바닥부터시작하는딥러닝 Ch05
밑바닥부터시작하는딥러닝 Ch05밑바닥부터시작하는딥러닝 Ch05
밑바닥부터시작하는딥러닝 Ch05
 
함수적 사고 2장
함수적 사고 2장함수적 사고 2장
함수적 사고 2장
 
7가지 동시성 모델 - 데이터 병렬성
7가지 동시성 모델 - 데이터 병렬성7가지 동시성 모델 - 데이터 병렬성
7가지 동시성 모델 - 데이터 병렬성
 
7가지 동시성 모델 4장
7가지 동시성 모델 4장7가지 동시성 모델 4장
7가지 동시성 모델 4장
 
Bounded Context
Bounded ContextBounded Context
Bounded Context
 
DDD Repository
DDD RepositoryDDD Repository
DDD Repository
 
DDD Start Ch#3
DDD Start Ch#3DDD Start Ch#3
DDD Start Ch#3
 
실무로 배우는 시스템 성능 최적화 Ch8
실무로 배우는 시스템 성능 최적화 Ch8실무로 배우는 시스템 성능 최적화 Ch8
실무로 배우는 시스템 성능 최적화 Ch8
 
Logstash, ElasticSearch, Kibana
Logstash, ElasticSearch, KibanaLogstash, ElasticSearch, Kibana
Logstash, ElasticSearch, Kibana
 
실무로배우는시스템성능최적화 Ch1
실무로배우는시스템성능최적화 Ch1실무로배우는시스템성능최적화 Ch1
실무로배우는시스템성능최적화 Ch1
 
HTTP 완벽가이드 21장
HTTP 완벽가이드 21장HTTP 완벽가이드 21장
HTTP 완벽가이드 21장
 
HTTP 완벽가이드 6장.
HTTP 완벽가이드 6장.HTTP 완벽가이드 6장.
HTTP 완벽가이드 6장.
 
HTTP 완벽가이드 1장.
HTTP 완벽가이드 1장.HTTP 완벽가이드 1장.
HTTP 완벽가이드 1장.
 
Cluster - spark
Cluster - sparkCluster - spark
Cluster - spark
 
Pair RDD - Spark
Pair RDD - SparkPair RDD - Spark
Pair RDD - Spark
 

Head First Statistics ch7

  • 1. Head First Statistics Ch.7 2012. 5.26 chois79 12년 5월 26일 토요일
  • 2. Introduction 확률분포란? 발생할 수 있는 모든 가능성의 확률을 모아둔 것 조합 꽝 레몬 체리 달러/체리 달러 따는 금액(x) -$1 $4 $9 $14 $19 확률 0.977 0.008 0.008 0.006 0.001 확률 변수(x): 특정한 확률과 연관되어 있는 경우의 변수 이산 확률 분포란? (6장 참조) 확률 변수가 반드시 정확한 값(이산)을 가지는 확률 분포 이 장에서는... 기하, 이항, 푸아송분포 12년 5월 26일 토요일
  • 3. Example #1: 스노보더 차드 전제 조건 차드가 한번의 시도에서 슬로프를 성공적으로 내려올 확 률: 0.2 각 시도는 서로 독립적 한번이라도 성공할 경우 시도를 멈춤 문제 두번 시도할 확률은? 한번 혹은 두번 시도 안에 성공적으로 내려올 확률은? 12년 5월 26일 토요일
  • 4. Answer #1: 스노보더 차드 시도 #1 시도 #2 성공 0.2 0.2 성공 0.8 실패 0.2 성공 0.8 실패 0.8 실패 P(X=1) = P(첫 번째 성공) = 0.2 P(X=2) = P(두 번째 성공 ∩ 첫 번째 실패) = 0.2 * 0.8 = 0.16 P(X≤2) = P(X=1) + P(X=2) = 0.2 + 0.16 = 0.36 100번 이내에 성공적으로 내려올 확률은? P(X≤100) 12년 5월 26일 토요일
  • 5. 확률 분포 패턴: 스노보더 차드 여러번 시도할 경우 확률 분포 표 X P(X=x) 실패할 확률을 곱하는 횟수 성공할 확률을 곱하는 횟수 1 0.2 0 1 2 0.8 * 0.2 1 1 3 0.8 * 0.8 * 0.2 2 1 4 0.8 * 0.8 * 0.8 * 0.2 3 1 5 0.8 * 0.8 * 0.8 * 0.8 * 0.2 4 1 r ? r - 1 1 성공할 확률을 p, 실패할 확률을 q P(X=r) = p * qr-1 실제로는 q = 1 - p 12년 5월 26일 토요일
  • 6. 기하 분포 기하분포의 조건 일련의 독립 시행 각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일 관심사: 첫 번째 성공을 거두기 위해 시도해야 하는 횟수 기하 분포의 특징 P(X=1)이 가장 높은 확률을 가짐 첫번째 성공이 r보다 클 확률: P(X>r)= qr 첫번째 성공이 r보다 작을 확률: P(X≤r) = 1 - qr 기하 분포의 표현 X ~ Geo(p): “성공률이 p일때 확률 변수는 기하 분포를 따른다”는 의미 12년 5월 26일 토요일
  • 7. 기하 분포를 위한 기대치 패턴 기대치: ΣxP(X=x) X ~ Geo(0.2)일 경우 x P(X = x) xP(X = x) xP(X ≤ x) 1 0.2 0.2 0.2 2 0.8 * 0.2 0.32 0.52 3 0.82 * 0.2 0.384 0.904 4 0.83 * 0.2 0.4096 1.3136 5 0.84 * 0.2 0.4096 1.7232 6 0.85 * 0.2 0.393216 2.116416 7 0.86 * 0.2 0.3670016 2.4834176 8 0.87 * 0.2 0.33554432 2.81894608 X가 5일때 까지 xP(X=x) 값이 증가하고 점점 감소함 ΣxP(X=x) 값은 x가 무한대까지 증가할 경우: 1/p 12년 5월 26일 토요일
  • 8. 기하 분포를 위한 분산 패턴 분산: Σx2/n - u2 => E(X2) - E2(X) X ~ Geo(0.2)일 경우 x P(X = x) x2P(X = x) x2P(X ≤ x) 1 0.2 0.2 0.2 2 0.8 * 0.2 0.64 0.84 3 0.82 * 0.2 1.152 1.992 4 0.83 * 0.2 1.6384 3.6304 5 0.84 * 0.2 2.048 5.6784 6 0.85 * 0.2 2.359296 8.037696 7 0.86 * 0.2 2.5690112 10.6067072 8 0.87 * 0.2 2.68435456 13.29106176 9 0.88 * 0.2 2.717908992 16.008970752 10 0.89 * 0.2 2.68435456 18.693325312 Var(x) = q/p2 12년 5월 26일 토요일
  • 9. 기하 분포 정리 기하분포의 사용 조건 일련의 독립 시행 각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일 관심사: 첫 번째 성공을 거두기 위해 시도해야 하는 횟수 확률 P(X=r) = pqr-1 P(X>r) = qr P(X≤r) = 1 - qr 기대치와 분산 E(X) = 1/p, Var(X) = q/p2 12년 5월 26일 토요일
  • 10. Example #2: 빙글 의자 퀴즈쇼 1 라운드 라운드 전제 조건 3개의 질문이 존재하고, 각 질문은 4개의 항목을 가지는 객관식 확률 트리 문제 #1 문제 #2 문제 #3 0.25 정답 : 정답 0.25 0.25 정답 0.75 오답 0.25 정답 0.75 오답 0.75 오답 0.75 : 오답 12년 5월 26일 토요일
  • 11. 확률 분포 패턴: 빙글 의자 퀴즈쇼 정답의 수에 따른 확률 분포표 X P(X=x) 오답일 확률을 곱하는 횟수 정답일 확률을 곱하는 횟수 가능한 경우의 수 0 0.753 = 0.422 3 0 1 1 3 * 0.752 * 0.25 = 0.422 2 1 3 2 3 * 0.75 * 0.252 = 0.141 1 2 3 3 0.253 = 0.015 0 3 1 P(X=r) = ? * 0.25r * 0.75n-r 즉, P(X=r) = 3C r * 0.25r * 0.75n-r 확률 분포의 일반화 P(X=r) = nC r * pr * qn-r (이항 분포) 12년 5월 26일 토요일
  • 12. 이항 분포 이항분포의 조건 일련의 독립 시행 각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일 시행의 수는 한정되어 있음 Ex) 확률 변수 X: n번의 시행에서 성공적인 결과를 얻는 수 이항 분포의 특징 P(X=r) = nC r * pr * qn-r p의 값에 따라 기울기가 변함 (기준 0.5) 이항 분포의 표현 X ~ B(n, p): “시행의 수 n, 각 시행에서 성공적인 결과를 얻을 확률 p일때 확 률 변수는 이항 분포를 따른다”는 의미 12년 5월 26일 토요일
  • 13. 이항분포의 기대치와 분산 X ~ B(n, p): n이 1일 경우 E(X) = 0 * q + 1 * p = p Var(X) = E(X2) - E2(X) = (0 * q + 1 * p) - p2 = p - p2 = p * (1 - p) = p * q X ~ B(n, p)의 일반화 P(X=x)가 독립 시행이므로 E(X) = E(X1) + E(X2) ... + E(Xn) = n * p Var(X) = Var(X1) + Var(X2) ... + Var(Xn) = n * p * q 12년 5월 26일 토요일
  • 14. 이항 분포 정리 기하분포의 사용 조건 일련의 독립 시행 각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일 관심사: n번 시행 했을 때의 성공이나 실패의 횟수에 대한 확률 확률 P(X=r) = nC rp rqn-r , nC r = n! / r!(n - r)! 기대치와 분산 E(X) = np, Var(X) = npq 12년 5월 26일 토요일
  • 15. Example #3: 팝콘 기계 전제 조건 팝콘 기계가 주 중에 고장을 일으키는 평균 횟수 3.4 문제 다음 주에 한번이라도 고장이 나지 않을 확률은? 기하/이항 분포와 다른점 일련의 시도나 시행이 없고, 임의의 시점에서 발생 그럼 어떻게? 12년 5월 26일 토요일
  • 16. 푸아송 분포 푸아송 분포의 조건 개별적인 사건이 어떤 주어진 구간에서 임의 혹은 독립적으로 발생 Ex) 1주일, 1마일 ... 해당 구간에서 사건이 발생하는 수의 평균 값이나 비율을 알고 있을 경우 푸아송 분포의 특징 P(X=r) = e-𝝀 𝝀r / r! 𝝀가 작으면 오른쪽으로 편향, 클 경우 좌우 대칭 푸아송 분포의 표현 X ~ Po(𝝀): “확률변수는 구간마다 𝝀번 발생하는 푸아송 분포를 따른다”는 의미 푸아송 분포의 기대치와 분산 E(X) = 𝝀, Var(X) = 𝝀 12년 5월 26일 토요일
  • 17. Answer #3: 팝콘 기계 한 주에 고장나는 횟수의 평균: 3.4 한번도 고장나지 않을 확률 P(X=0) = e-3.4 * 3.40 / 0! = 0.033 3번 고장날 확률 P(X=3) = e-3.4 * 3.43 / 3! = 0.216 기대치와 분산 E(X) = 3.4, Var(X) = 3.4 12년 5월 26일 토요일
  • 18. Example #4: 팝콘 기계, 음료수 기계 전제 조건(한 주에 고장 나는 횟수의 평균) 팝콘 기계: 3.4 음료수 기계: 2.3 문제 한 주 동안 두 기계 모두 고장 나지 않을 확률은? 두 기계는 독립 확률이므로, P(X+Y) = P(X) + P(Y), E(X+Y) = E(X) + E(Y) 두 기계 모두 푸아송 분포를 따르기 때문에, X + Y ~ Po(𝝀x + 𝝀y), 즉 Po(5.7) 12년 5월 26일 토요일
  • 19. 푸아송 분포의 활용 이항 확률 분포에서 n이 큰 경우 Ex) 3000일 경우 3000!을 계산해야 함 이항 확률 분포와 푸아송 분포가 유사할 조건 𝝀 ≒ np, 𝝀 ≒ npq일 경우 np ≒ npq (n이 크고 q가 1에 가깝다면) 일반적인 경우: n > 50, p < 0.1 (q = 1 - p) 12년 5월 26일 토요일
  • 20. Example #5: 시험에서 r개의 정답을 맞출 확률 전제 조건 모두 모르는 문제 시험의 총 문제의 수: 50 한 문제의 정답을 맞출 확률: 0.05 문제 5개의 정답을 맞출 확률? P(X=5) 이항 분포: 0.055 * 0.954 * 50!/5!(50-5)! 푸아송 분포 𝝀 = 50 * 0.05 = 0.25 => e-0.25 * 2.55 / 5! 12년 5월 26일 토요일
  • 21. 정리 기하 분포 일련의 독립 시행 각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일 관심사: 첫 번째 성공을 거두기 위해 시도해야 하는 횟수 이항 분포 일련의 독립 시행 각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일 관심사: 시행의 수가 한정되어 있을 때, 특정한 결과가 발생한 횟수 푸아송 분포 개별적인 사건이 어떤 주어진 구간에서 임의 혹은 독립적으로 발생 해당 시행 구간에서 평균을 알 경우 관심사: 특정한 결과가 발생한 횟수 12년 5월 26일 토요일