Jewish Efforts to Influence American Immigration Policy in the Years Before t...
2011-07-09 데이터 탐색
1. POPONG meeting (2011-07-09)
작성자: 박은정, 박주성
1. Raw data
A. 국회 의안 정보 시스템
1
- 제 18 대 국회 의안 중 처리 의안
2. Data preprocessing (박주성)
A. 의원 별 참여 의안에 대한 binary matrix 구성
(단, 의안 이름이 같은데 발의자 구성이 같은 경우에는, 하나의 record 로 간
주)
의안 1 의안 2 의안 3 … 의안 m
의원 1 1 0 0 … 1
의원 2 1 0 1 … 0
… … … … … …
의원 n 0 1 0 … 1
B. Case 분류 및 중복제거: 총 6 가지 case 에 대한 분석
의원수(n) 의안수(m)
All (D1) 329 3262
Accepted (D3) 329 505
Rejected (D5) 329 2757
All + 노이즈제거
2
(D2) 329 2856
Accepted + 노이즈제거 (D4) 329 472
Rejected + 노이즈제거 (D6) 329 2384
(Spotfire ‘BillMemberAnalysis_0709.dxp’ 파일 참고)
1
http://likms.assembly.go.kr/bill/jsp/main.jsp
2
공동발의자수가 150 명 이상인 경우를 제외
1
2. 3. Data Analysis (박은정)
A. Similarity calculation: 세 가지 set similarity measure 사용
B. Similarity Based Hierarchical Clustering
- 의원 간의 상관계수를 계산하여 그들간의비유사성(dissimilarity) 계산
Dissimilarity = 1 - Abs(Similarity)
- 위에서 계산된 비유사성을 이용하여 계층군집 알고리즘 적용
3
※ 계층군집 알고리즘
• 각 개체 간의 비유사도를 기반으로 가장 가까운 것 두 개를 묶는다.
• 묶은 개체 둘은 다시 하나의 개체로 간주하여 다시 앞 과정을 반복한다.
• 앞 두 과정을 전체가 하나로 묶일 때까지 반복한다.
3
Single linkage(minimum distance) 사용
2