본 자료는 빅데이터를 분석하는 전반적인 과정에 대해 정리한 자료로써 사회과학을 포함한 다양한 영역(컴퓨터 공학, 통계학, 수학 등)이 분석 과정에 참여할 수 있는지를 정리한 자료이다. 분석 과정 세부 영역에 있어선 주로 사회과학의 관점에서 기술하였다. 현재 자료는 2010년부터 사회과학의 관점에서 데이터 분석을 계속 해오면서 경험한 부분과 문헌 및 발표 자료 등을 통해 정리한 자료이다. 앞으로 여러 영역을 공부하면서 빅데이터 분석 프로세스를 더욱 발전시켜 나갈 예정이다.
1. Choi, Myunggoon
Data Analyst
사용자분석팀,UX Lab, Coupang
E-mail: myunggoonchoi@coupang.com
E-mail: Myunggoon.choi@gmail.com
Tel: 02. 6150. 4098
Mobile: 010. 9692. 3080.
빅데이터 분석 프로세스
2. 빅데이터 소개
1 빅데이터의 정의
정의
• 디지털 기술 발달로 만들어지는 데이터로 그 규모(Volume)가 방대하고, 생성 속도
(Velocity)가 빠르며, 형태도 수치 데이터뿐만 아니라 문자와, 영상 데이터를 포함하는
다양(Variety)한 데이터
• 3V(Volume과 Velocity, Variety)
01
데이터 과학 (Data Science)
• ‘데이터’ 로부터 의미를 추출해내는 학문
• 기업의 실무 현장에서 쌓이는 빅데이터를 대상으로 의미를 추출
• 예를 들면, 인터넷과 휴대전화, 감시용 카메라 등과 같은 정보기술로부터 생성
되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 의미
3. 빅데이터 소개
2 빅데이터의 현황
시대적 상황
• 인터넷 사용의 급격한 발전과 활용은 인터넷 기업의 등장을 촉진
• 페이스북의 경우, 이용자가 1억 명에 이르는데 소요 시간은 단, 9개월
(이용자 5천 만 명에 달하는데 걸린 시간: 라디오 38년, TV 13년, 인터넷 4년, iPod 3
년)
• 아날로그에서 디지털로의 정보 흐름의 변화
• 글로벌 네트워크 및 데이터의 개방과 공유 시대
01
<그림1> 인터넷 기업의 등장과 글로벌 디지털 데이터 규모
출처: 정용찬(2012)
4. 빅데이터 소개
3 빅데이터의 중요성 증대
중요성 증대
• 2010년 미 대통령 과학자문위원회, 모든 연방정부 기관의 빅데이터 전략 필요성 강조
• 2012년 다보스 포럼, 위기의 자본주의를 구할 사회 기술 모델로의 도구로 빅데이터 제
시
• 2011년, 국가정보화전략위원회, 빅데이터를 활용한 공공부분의 혁신 패러다임 형성
01
<그림2> ‘Big Data’ 키워드 검색 변화 추이
120
100
80
60
40
20
0
2005 2007 2009 2011 2013
출처: Google Trend, retrieved from
https://www.google.com/trends/explore#q=big%20data&cmpt=q
FRQ.
YEAR
5. 02 빅데이터 방법론
1 전체 프로세스
빅데이터 방법론의 핵심적 프로세스(Process)
• 사회과학을 통한 정확한 현상 설명 및 정의
• 측정 수준의 정의에 따른 자동적인 데이터 수집 및 분석, 예측
<Figure 3> Key Process for Big Data Analysis
1 2 3
Conceptualization Operationalization
Concep
t
6 7
Social Science
4 5
Algorithm Correlation
Causation
Social Scienc and Computer Science, Statistics, Mathematics
Operationalize
d
Definition
Social
Phenomena
Data
Collection
Data
Analysis
Results
&
Implications
Prediction
6. 02 빅데이터 방법론
2 빅데이터를 바라보는 사회과학적 관점
10가지 주요 관점들
• 인간 감각의 확장 (Extension of Human Senses)
• 역의제설정이론 (Reversed Agenda-Setting Theory)
• 공론장 (Public Sphere)
• SNS (Social Network Services)
• 집단지성 (Collective Intelligence)
• 롱테일 가설 (Long-Tail Hypotheses)
• 관계의 미학 (Aesthetic of Relationship)
• 소유의 종말 (Age of Access)
• 비정형 데이터 (Unstructured Data)
• 융합과 통섭 (Convergence and Consilience)
사회과학(Social Science)
사회
현상
1
7. 02 빅데이터 방법론
3 개념을 도출하는 과정
개념화: 개념을 도출하는 과정
• 정의: 개념을 발전시키고 명료화하는 과정. 즉, 단어나 예제로써 하나의 개념을 명확히
하고 정확한 의사전달을 위한 의미에 도달하는 과정.
• 예시:
백만 장자, 서울대 교수, 국회의원
↓
부, 명예, 권력
↓
사회적 지위
사회
현상
개념
1
2
사회과학(Social Science)
개념화
(Conceptualization)
8. 02 빅데이터 방법론
4 조작적 정의
조작화 과정
• 정의: 정량적 수치를 통해 측정할 수 있는 수준으로 모호한 개념을 이끌어 내는 과정
• 예시:
Q. 사회적 지위에 대한 조작적 정의?
A. 한 개인이 매달에 주기적으로 벌어들이는 수익금의 양!?
개념
조작
적
정의
2
3
사회과학(Social Science)
조작화
(Operationalization)
9. 02 빅데이터 방법론
5 데이터 수집
조작적으로 정의된 개념에 대한 데이터 종류
• 인간 감각의 확장 (Extension of Human Senses)
- 예: 인체의 심장 박동 센서를 통한 사람의 감정 데이터 등
• SNS (Social Network Services)
- 예: 포털이나 SNS(트위터, 페이스북), 온라인 커뮤니티의 텍스트 데이터
등
• 집단지성 (Collective Intelligence)
- 예: 책 한 권에 대한 여러 권의 번역본 텍스트 데이터 등
• 관계의 미학 (Aesthetic of Relationship)
- 예: SNS의 친구 관계, 동시 구매를 통해 연결되는 상품 간의 관계 등
- 관계에는 메타데이터를 포함
• 비정형 데이터 (Unstructured Data)
- 정형화되기 이전의 모든 로그 데이터
- 예: 로그 데이터(어플리케이션을 사용한 사용자의 모든 동선에 관한 데이
터)
사회과학(Social Science),
컴퓨터과학(Computer Science),
통계학(Statistics),
수학(Mathematics)
조작
적
정의
3
데이
터수
집
4
10. 02 빅데이터 방법론
5 데이터 수집
조작적으로 정의된 개념에 대한 데이터 수집 방법
1) 자체적인 서버 내에서의 데이터 수집
• 하둡(Hadoop): 빅데이터를 안정되고, 빠르고, 용이하게 분석하게 하는 플랫폼
• 필요한 기본 소프트웨어: JAVA Hadoop, R, R studio, MySQL, RMR, RmySQL 등
• 비정형 데이터
2) API(Application Programming Interface)를 통한 오픈(open) 데이터 수집
• 프로그래밍 언어를 사용한 데이터 크롤링 소프트웨어 작성을 통한 수집
- 사용할 수 있는 프로그래밍 언어: Ruby, Python, R, Java 등
• 공개된 API를 통해 받을 수 있는 데이터: 포털의 블로그나 카페의 텍스트 데이터, 포털
의 특정 키워드에 대한 검색 빈도 데이터, 트위터의 사용자 및 트윗에 관한 텍스트 데이
터, 페이스북의 텍스트 데이터, 트위터와 페이스북의 사용자 간 관계 데이터
3) 쉽게 수집할 수 있는 오픈 소프트웨어를 통한 자료 수집
• 네이버 트랜드, 구글 트랜드, 구글 ngram을 이용한 검색 데이터 수집
• 수집 프로그램: NodeXL, Webometric Analyst, WeboNaver, WeboGoogle,
DiscoverText
사회과학(Social Science),
컴퓨터과학(Computer Science),
통계학(Statistics),
수학(Mathematics)
조작
적
정의
3
데이
터수
집
4
11. 02 빅데이터 방법론
6 데이터 분석
텍스트 분석
1) 텍스트의 감정 분석(Textual Sentimental Analysis)
① 모델(분석 대상), Dunit(수집 문서), 룰(분석지식)
② 분석 사전(Daumsoft 의 경우, 약 1,000,000만 단어에 대한 사전 보유):
문장 분리 → 품사 태깅(Tagging) → 개체명 인식 → 패러프라이징
(Paraphrasing) → 구문 분석
③ 지식 매칭
④ 키팩트(분석 결과): 정제된 키워드 데이터를 통해 감정 분만 아니라 특정 모델
별, 브랜드별, 사이트별, 시계열 분석 가능
사회과학(Social Science),
컴퓨터과학(Computer Science),
통계학(Statistics),
수학(Mathematics)
데이
터수
집
4
데이
터분
석
5
브랜드
쿠팡
티몬
11번가
위메프
아마존
감정
쿠팡
쿠팡
쿠팡
1021
852
721
241
쿠팡
느리다
쿠팡 없다
친절한
좋다
쿠팡
쿠팡
1021
852
721
241
<그림4> 텍스트 감정 분석의 사례
12. <사진1> 텍스트 분석 사례1 – 직장인의 ‘일하다’와 관련한 키워드
출처:
Daumsoft
13. <사진2> 텍스트 분석 사례2 – 직장인의 ‘회사 회식’과 관련한 키워드
출처:
Daumsoft
14. <사진3> 텍스트 분석 사례3 – 직장인의 요일별 감성 비중 변화
출처:
Daumsoft
15. 02 빅데이터 방법론
6 데이터 분석
텍스트 분석
2) 텍스트의 의미망 연결 분석(Textual Semantic Analysis)
① 모델(분석 대상), Dunit(수집 문서), 룰(분석지식)
② 분석 사전(Daumsoft 의 경우, 약 1,000,000만 단어에 대한 사전 보유):
문장 분리 → 품사 태깅(Tagging) → 개체명 인식 → 패러프라이징
(Paraphrasing) → 구문 분석
③ 지식 매칭
④ 두 어휘 간의 연결을 지을 수 있는 범위 설정 및 네트워크 데이터 구성
⑤ 특정 어휘에 감춰진 의미 파악 및 네트워크 구조 분석을 통한 유사한 그룹 도출
사회과학(Social Science),
컴퓨터과학(Computer Science),
통계학(Statistics),
수학(Mathematics)
데이
터수
집
4
데이
터분
석
5
빠르다
<그림5> 텍스트 의미망 연결 분석의 사례
쿠팡맨 느리다
쿠팡
배송
친절한
좋다
상품
없다 위메프
브랜드
16. 02 빅데이터 방법론
6 데이터 분석
네트워크 분석
1) 사회 연결망 분석(Social Network Analysis) – 유사성 분석
① 모델(분석 대상)에서 관계 유형을 발견
② 일반적으로 사용되는 정형 데이터를 매트릭스 형 관계 데이터로 재구성
③ 네트워크 구조적 동일성을 지닌 노드들을 자동 알고리즘에 따라 그룹화시켜줌
④ 관계의 속성에 따라 그룹이 가진 의미를 발견
사회과학(Social Science),
컴퓨터과학(Computer Science),
통계학(Statistics),
수학(Mathematics)
데이
터수
집
4
데이
터분
석
5
<그림6> 한 사용자가 듣는 가수들 간의 연결을 통한 네트워크 분석의 사례
출처: Slow News, ‘음악시장과 메타데이터: 아이튠즈의 퇴조 vs. 스
포티파이의 성장’, retrieved from http://slownews.kr/30565
17. <그림6> 한 사용자가 듣는 가수들 간의 연결을 통한 네트워크 분석의 사례
출처: Slow News, ‘음악시장과 메타데이터: 아이튠즈의 퇴조 vs. 스포티파이의 성장’, retrieved from http://slownews.kr/30565
18. <사진4> 텍스트 분석 사례4 – 애니팡 분석 사례1
출처: Treum, ‘[트리움의 의미망분석] 요즘 뜨는 애니팡 게임에 ‘숨겨진 코드’, retrieved
from http://blog.treum.com/72
19. <사진5> 텍스트 분석 사례5 – 애니팡 분석 사례2
출처: Treum, ‘[트리움의 의미망분석] 요즘 뜨는 애니팡 게임에 ‘숨겨진 코드’, retrieved
from http://blog.treum.com/72
20. 02 빅데이터 방법론
6 데이터 분석
데이터 시각화(Data Visualization 혹은 Information Visualization)
• 데이터를 정보로 변환하여 유용하게 사용하게 만드는 한 방법
• Sensemaking(데이터에 의미와 통찰력을 부여하는 과정) 의 과정
• Think Visually!
• 컴퓨터를 사용하여 인지를 넓힐 수 있도록 데이터를 상호작용이 가능한 시각화 하는 것
• 외부인지보조(External Cognition Aid)
사회과학(Social Science),
컴퓨터과학(Computer Science),
통계학(Statistics),
수학(Mathematics)
데이
터수
집
4
데이
터분
석
5
<그림7> 런던 지하철 과거(좌)와 현재(우)의 시각화 자료
출처: Visual Loop, ‘Vintage Infodesign’,
retrieved from
http://visualoop.com/11575/vintage-infodesign-
33
출처: Cartography Topics and Projects, retrieved
from
http://mapmaker.rutgers.edu/355/links.html
21. 02 빅데이터 방법론
7 데이터 결과 도출 및 해석, 예측
결론 도출 및 인사이트 발견, 예측
• 도출된 모든 정보는 연구자의 판단에 의해 맡겨짐
• 데이터는 좋은 의사결정을 내리는데 보조 도구일 뿐 최종 판단은 사람에 의해 이루어짐
사회과학(Social Science),
컴퓨터과학(Computer Science),
통계학(Statistics),
수학(Mathematics)
데이
터분
석
5
결론
6 도출
“사람들은 자기 식대로 사물을 추론한다. 그 사물의 목적을 지워버린다.”
in <The Tragedy of Julius Caesar>, by 셰익스피어
7 예측