2011-07-02 데이터 탐색

1
POPONG meeting (2011-07-02)
작성자: 박은정, 박주성
1. Raw data
A. 국회 의안 정보 시스템1
- 제 18대 국회 의안 중 처리 의안
2. Data preprocessing (박주성)
A. 의원별 참여 의안에 대한 binary matrix
Ex:
B. 중복 제거
Data 의원수 (n) 의안수 (m)
1 All 329 3300
2 중복 의안 제거2
329 2235
3 중복 발의자 set 제거 329 951
- Spotfire ‘BillMemberAnalysis.dxp’ 파일 참고
1
http://likms.assembly.go.kr/bill/jsp/main.jsp
2
중복 의안 중 첫 레코드만 사용 (?)
의안 1 의안 2 의안 3 … 의안 m
의원 1 1 0 0 … 1
의원 2 1 0 1 … 0
… … … … … …
의원 n 0 1 0 … 1

2
3. Data Analysis (박은정)
A. Similarity calculation: 세 가지 set similarity measure 사용
(엑셀파일 sim_2_member.xlsx 참고)
B. Similarity Based Hierarchical Clustering
- 의원 간의 상관계수를 계산하여 그들간의비유사성(dissimilarity) 계산
Dissimilarity = 1 - Abs(Similarity)
- 위에서 계산된 비유사성을 이용하여 계층군집 알고리즘 적용3
※ 계층군집 알고리즘
• 각 개체 간의 비유사도를 기반으로 가장 가까운 것 두 개를 묶는다.
• 묶은 개체 둘은 다시 하나의 개체로 간주하여 다시 앞 과정을 반복한다.
• 앞 두 과정을 전체가 하나로 묶일 때까지 반복한다.
3
Single linkage(minimum distance) 사용

4
4. Comment: 성능이 좋고, 구체적이고, 좀 더 의미 있는 결과를 얻기 위해서는 의원들의
demographic 데이터가 필요!

2011-07-02 데이터 탐색

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (15)

More from Team POPONG

More from Team POPONG (13)

2011-07-02 데이터 탐색