4. 01 데이터 스토리텔링
숫자 그 이상
1. 통계와 시각화는 아무 의미 없는 날것의 숫자와 문자, 그 이상을 찾는 도구이다.
2. 데이터에는 의미, 진실, 아름다움이 있다.
3. 하나의 숫자는 한 사람이다 : 데이터를 이런 관점으로 봐야 한다.
5. 1 저널리즘
차트, 그래프 디자인은 단순히 통계 수치를 눈에 보이도록 만드는 일이 아니라
데이터의 이야기를 설명하는 일이다.
중요한 영역은 강조하고, 기호와 색상은 범례와 점을 이용해 주의 깊게 해설하여
독자들이 데이터의 이야기를 쉽게 이해할 수 있도록 만들어야 한다.
01 데이터 스토리텔링
6. 2 예술
- 사람들의 감정 표현을 인터랙티브하게 탐색하는 온라인 작업
데이터와 시각화는 항상 냉정하고 굳건한 사실, 분석적인 통찰이 아닐 수도 있다.
그보다는 감정적인 시선, 감정적인 이야기 전달, 공감을 불러 일으키는 데이터에 가까울 수도 있다.
01 데이터 스토리텔링
7. 3 오락 스프레드시트와 쉼표로 구분된 텍스트 파일 외에 사진이나 상태 업데이트도 데이터의 일종이다.
ex) 페이스북 : 사용자의 업데이트를 분석하여 그 해의 가장 행복한 날을 찾아서 보여줌
ex) 오케이큐피드 : 사용자들이 입력한 인적사항을 분석하여 흔한 거짓말을 밝혀냄
- 사람들이 자신의 키를 약 2인치 가량 크게 과장한다는 사실을 밝혀냄
01 데이터 스토리텔링
8. 4 설득 데이터 시각화는 사태의 시급함을 알리거나 행동을 촉구하려는 목적을 위해 사용되기도 한다.
데이터 그 자체가 흥미로운 이야기를 만들어 내지는 않기 때문에
데이터를 어떻게 디자인해서 전달하느냐가 중요하다.
ex) 한스 로슬링 : 자신의 이야기를 입증하기 위한 재료로 데이터 시각화를 사용함
01 데이터 스토리텔링
9. 01 데이터 스토리텔링
디자인
1 상징
독자가 쉽게 해석할 수 있는 상징을 만들어야 한다.
각 상징마다 라벨, 범례, 키워드 등을 이용하여 해설하는 것이 좋다.
- 전 세계의 국가별 파이어폭스 사용량 : 이 그래픽만 봤을 때는 진한 파란색이 수치가 더 높은건지 낮은건지 알수가 없기 때문에
범례를 이용하여 진한 파란색이 수치가 더 높은것임을 해설 해주어야 한다.
10. 2 축과 라벨
축에도 반드시 라벨이 있어야 한다. 라벨이 없는 그래프는 의미가 없다.
한 점이 어느 정도 수치를 표시하는지를 알려주기 위해서는 꼭 라벨이 필요하다.
3 출처의 표시
데이터가 어디에서 비롯되었는지를 꼭 표시해야 한다.
출처를 표시하면 다른 사람이 사실 관계를 확인할 수 있기 때문에 그래픽에 신뢰성을 더해준다.
4 받아들이는 사람을 위한 배려
그래픽의 대상이 되는 사람의 입장에서 깊이 생각해야 한다.
상황에 따라 단순하게 만들어야 할 수도 있고, 복잡하게 만들어야 할 수도 있다.
01 데이터 스토리텔링
12. 02 데이터 다루기
데이터 수집 방법
1 다른 사람에게 받기
일반적으로 데이터는 다른 사람이나 조직으로부터 받게 된다.
하지만 이 과정에서 입력 실수가 있지는 않은지, 데이터의 출처는 어디인지,
어떻게 수집 되었는지, 무엇에 관한 것인지를 확인해야 한다.
13. 2 데이터 찾기
1) 검색 엔진 : 구글 / 울프람알파(Wolfram Alpha) 이용
- 울프람알파 http://wolframalpha.com
울프람알파 검색 엔진은 기초적인 통계 자료를 찾을 때 특히 유용!
02 데이터 다루기
14. 2) 직접 문의 : 연구 논문 / 뉴욕 타임즈 데이터 출처 이용
3) 대학 : 고가의 데이터 아카이브를 보유하고 있는 대학 도서관이 많음
- 데이터 & 스토리 라이브러리 http://lib.stat.cmu.edu/DASL
기본적인 통계 방법론을 설명하는 데이터 파일과 스토리 라이브러리 / 카네기 멜론 대학
02 데이터 다루기
15. 02 데이터 다루기
- 버클리 데이터 연구소 http://www.lib.berkeley.edu/libraries/data-lab
버클리 캘리포니아 주립대학 도서관 시스템의 한 부분
16. - UCLA 통계 데이터셋 http://lib.berkeley.edu/libraries/data-lab
통계학부에서 연구 실습과 숙제에 활용하는 데이터
02 데이터 다루기
17. 02 데이터 다루기
4) 데이터 어플리케이션
- 프리베이스 http://freebase.com
사람, 장소, 사물에 대한 대부분의 데이터를 구할 수 있는 커뮤니티
필요한 데이터는 다운로드하거나, 자신의 어플리케이션에 연결해서 사용 가능
- 인포침스 http://infochimps.org
유/무료 데이터를 거래하는 데이터 마켓, 일부 데이터는 API로 가져올 수 있도록 제공
- 아마존 공공 데이터 http://aws.amazon.com
대규모 과학 데이터 보유
- 위키피디아 http://wikipedia.org
커뮤니티를 기바느올 운영되는 백과사전 시스템
수많은 소규모 데이터가 HTML 표 형식으로 정리되어 있음
18. 02 데이터 다루기
3 주제별로 데이터 찾기
1) 지리학
- 타이거 http://census.gov/geo/www/tiger
도로, 철강, 강, 우편번호를 가장 상세하게 표현한 데이터 / 미국 통계청에서 제공
- 오픈스트리트맵 http://openstreetmap.org
커뮤니티의 노력으로 만드는 데이터
- 지오커먼스 http://geocommons.com
데이터와 지도 소프트웨어를 모두 제공
- 플리커 모양파일 http://flickr.com/services/api
플리커 사용자가 만든 지도 경계 자료
19. 2) 스포츠
- 베스킷볼 레퍼런스 http://basketball-reference.com
자세한 NBA 경기별 데이터를 제공
- 베이스볼 데이터뱅크 http://baseball-databank.org
야구에 관한 전체 데이터를 다운로드 받을 수 있음
- 데이터베이스풋볼 http://databasefootball.com
NFL 미식 축구 경기 테이터를 팀, 선수, 시즌별로 찾을 수 있음
02 데이터 다루기
20. 02 데이터 다루기
3) 세계
- 글로벌 헬스 팩트 http://globalhealthfacts.org
전 세계의 국가별 보건 관련 데이터
- 유엔데이터 http://data.un.org
다양한 출처로부터 전 세계의 데이터를 종합해서 보유
- 국제보건기구 http://who.int/research
사망률, 기대 수명 등의 다양한 보건 관련 데이터를 보유
- OECD 통계 http://stats.oecd.org
경제 지표 데이터의 주 출처
21. 02 데이터 다루기
데이터 형식화
1 데이터 형식
데이터 형식화란 데이터를 컴퓨터가 이해할 수 있는 형식으로 만드는 것이다.
데이터 형식은 사용 목적과 시각화 도구에 따라 다르다.
구분 텍스트 : 데이터의 줄바꿈으로 행을, 구분자로 열을 구분하는 텍스트 데이터로
가장 널리 이용되는 방식이다. 엑셀이나 구글 문서를 포함한 대부분의 스프레드시트에서
불러올 수 있으며, 반대로 스프레드시트의 데이터를 구분 데이터로 저장할 수도 있다.
CSV (Comma separated values) 파일은 쉼표로 구분,
TSV (Tab saparated values) 파일은 탭으로 구분
구분자는 공백(Space), 세미콜론(;), 콜론(:), 슬래시(/) 그 어떤 것이라도 가능하지만
쉼표와 탭 구분자가 가장 보편적으로 쓰인다.
22. 02 데이터 다루기
2 형식화 도구
구글 리파인 : 값에 따라 쉽게 정렬할 수 있고, 편한 검색 기능을 제공한다.
Mr. Data Converter : 엑셀로 갖고 있는 데이터를 다른 형식으로 변환 할 수 있다.
Mr. People : 사람 이름을 추출하는 기능을 제공한다.
스프레드 시트 : 단순한 정렬이나 몇 개의 개별 데이터를 수정하는 정도의 작업에 적합하다.
3 프로그램으로 형식화하기
스크립트에서 몇가지 코드만으로도 데이터를 전환할 수 있다.
24. 03 도구의 선택
데이터 분석이나 시각화에 어떤 도구를 쓰십니까?
정적인 데이터 그래픽을 만들고자 하면 R과 일러스트레이터를, 웹 애플리케이션에 붙일
인터랙티브 도구를 만들고자 하면 자바스크립트와 플래시를 사용할 수 있다.
적합한 도구는 달성하고자 하는 목표가 무엇인가에 따라 달라진다.
26. 04 시간 시각화
무엇을 볼 것인가
시계열 데이터 (Time series data)
시계열 데이터는 어디에나 있다. 사람들의 생각도 바뀌고, 인구 분포도 변하며,
사업은 확장한다. 이런 변화가 얼마나 있었는지 측정해서 기록하면 시계열 데이터가 된다.
시계열 데이터는 변화를 표현하기 때문에 트렌드를 찾을 수 있다.
증가하는가? 감소하는가? 계절에 따른 변화가 있는가?
이런 패턴을 찾으려면 개별적인 데이터보다 전체 그림을 볼 수 있어야 한다.
27. 04 시간 시각화
오바마 집권 이후의 고용률 변화
부시 행정부가 끝나는 시점에서 실직률이
급격히 늘어났다가, 오바마 집권 이후
줄어드는 현상을 볼 수 있다.
2001년부터 2010년까지의 고용률 변화
위의 차트만 보면 오바마의 새 행정부가 고용 상태에
확실히 긍정적인 영향을 가져온 듯 느껴지지만,
좀 더 긴 시간의 단위에서 보면 위의 차트와는 다른
차이를 느낄 수 있다.
-> 큰 그림을 그려보는 것은 항상 중요하다.
29. 분포 데이터
1. 분포 데이터의 구분 단위는 시간이 아닌 분류, 세부 분류, 가짓수
2. 분포 데이터에서 말하는 가짓수란 가능한 선택이나 결과물
최대 / 최소 / 전체 분포
: 설문 조사 결과 중 가장 많은 사람이 적어준 응답이 최대,
가장 적은 사람이 선택한 응답은 최소
분포 정도
: 한 설문 문항에서 어떤 답을 선택한 사람들은 다른 답을 선택한 사람들에 비해
얼마나 많은가?
05 분포 시각화
30. 05 분포 시각화
분포 시각화의 형식
1 파이 차트
파이 차트는 원형을 각도를 기준으로 자른
조각으로 표현되고, 하나의 조각은 전체의
한 부분을 나타낸다.
모든 조각을 합친 결과는 반드시 100%가
되어야 한다.
한 파이를 너무 많은 조각으로 자르지
않도록 유념해야 한다.
더 큰 조각은 짙은 색상, 작은 조각은 옅은
색상을 이용하여 강조의 효과를 낼 수 있다.
-
-
-
-
31. 2 도넛 차트
파이 차트와 마찬가지로 수치를 각도로 표시한다. 도넛 차트는 중심에 구멍이 뚫려 있기 때문에
각도보단 길이로 값의 차이를 인식하게 된다.
05 분포 시각화
32. 3 누적 막대 그래프
05 분포 시각화
- 버락 오바마 지지율 : 인터랙션 기능이 포함된 누적 막대 그래프
1. 마우스 커서를 올렸을 때 응답 수를 표시
2. 마우스 커서의 위치에 따라 찬성, 반대, 무응답의 분류별로 하이라이트 해서 보여줌
33. 정리
분포 데이터의 가장 주요한 차이는, 분포 데이터는 전체의 부분을 나타낸다는 것이다.
분포 데이터는 개별적인 값에도 의미가 있지만,
모든 값의 합 또는 부분의 세부 부분으로서의 의미도 갖는다.
- 수치가 몇 개에 불과한다면? 파이 차트
- 여러 개의 수치 자료와 많은 분류가 있다면? 누적 막대 그래프
- 분류가 많은 경우에는 파이 차트, 도넛 차트를 사용하지 않는 것이 좋다.
05 분포 시각화
35. 06 관계 시각화
상관관계
한가지 요소의 변화가 어떤 방법으로 다른 요소의 변화를 불러일으킨다는 뜻으로,
상관관계를 알면 한 수치의 변화를 통해 다른 수치의 변화를 예측할 수 있다.
1. 양의 상관관계 : 점이 오른쪽 위로 올라가는 추세 ex) 사람의 키와 몸무게
2. 음의 상관관계 : 점이 오른쪽 아래로 떨어지는 추세
3. 상관관계 없음 : 점의 배치에 패턴이 없음
36. 06 관계 시각화
버블 차트
원으로 데이터 수치를 표현할 때는,
반지름 / 지름 / 둘레가 아닌 면적을 기준으로 표현한다.
37. 분포
1. 평균
모든 데이터의 값의 합을 데이터의 개수로 나눈 값
2. 중앙값
데이터를 가장 큰 값에서 가장 작은 값 까지 정렬 했을 때, 한 가운데에 있는 값
3. 최빈값
데이터에서 가장 자주 등장하는 값
06 관계 시각화
40. 07 비교 시각화
히트맵
일반적인 값을 표현하는 표 대신,
색상으로 값들의 높고 낮은 관계를 한눈에 파악할 수 있는 표로 나타내는 것
히트맵의 장점은 전체 데이터를 한눈에 볼 수 있다는 것이다.
41. 체르노프 페이스
하나의 대상을 전체적으로 조망하기 보다는,
몇 가지 기준으로 쪼개어 보고 싶은 경우에 사용
큰 값은 큰 머리 모양이나 큰 눈으로, 작은 값은 이목구비 모양으로 표현된다.
07 비교 시각화
- NBA 경기 기록
얼굴의 높이 : 출장 게임 수 / 얼굴의 너비 : 게임 출장 시간 / 얼굴 윤곽 : 게임당 득점
입모양(곡률) : 필드슛 성공률 / 눈의 높이 : 자유투 성공 / 눈의 너비 : 자유투 시도
43. 08 공간 시각화
지도
지도는 공간 시각화의 대표적인 예로,
지도의 좌표는 한 도시와 다른 도시의 실제 연결 관계를 나타낸다.
지도를 만들기 위해서는 위도와 경도 자료를 얻어야 하며,
따라서 주소를 입력하면 주소에 해당하는 위도와 경도 데이터를 반환하는 서비스인
지오코딩 서비스가 필요하다.
지오코딩 도구
1. Geocoder.us : 주소를 복사해서 입력하면 위도와 경도를 복사할 수 있는
직관적인 인터페이스 제공 / API도 함께 제공
2. Gorissen.info/Pierre/maps : 구글맵 매쉬업 프로젝트의 하나 /
구글 지도에서 특정 위치를 클릭하면 그 위치의 위도와 경도를 알려줌
3. Geopy : 파이썬용 지오코딩 도구 모음 / 다양한 지오코딩 API를
하나로 묶어 활용할 수 있도록 제공
45. 3 코로플레스 지도
08 공간 시각화
영역별로 색상으로 구분한 지도로, 어떤 수치에 따라 지정한 색상 스케일로 영역을 색칠해서 표현한다.
1. 연속적인 데이터 : 옅은 색에서 짙은 색의 스펙트럼으로 표현
2. 분절적인 데이터 (찬성/반대, 이상/이하) : 상반되는 2개의 색상 이용
3. 데이터가 여러 분류를 표현 할 경우 : 각 분류에 대해 단일한 색상 배정
46. 08 공간 시각화
- 미국 2004 ~ 2006년의 실업률
-> 공간 시각화 (지도) 를 통해서도 시간별 패턴을 쉽고 한 눈에 알아볼 수 있도록 표현할 수 있다.
48. 09 목적에 맞는 디자인
1. 데이터를 눈 앞에 두게 되면, 곧장 디자인 단계로 뛰어들지 말 것
- 그 숫자가 어디에서 비롯됐는지 밝혀내고, 어떻게 추정됐는지, 그 수치가 합당한지 확인
- 각 수치가 나타내는 의미를 알아야 하고, 이상한 부분이 없는지 확인
- 언제나 데이터 출처 확인
-> 데이터에 대해 알 수 있는 모든 것을 익힌 다음에야 그래픽 디자인을 할 수 있다.
2. 데이터 디자이너의 역할은 자신이 알고 있는 바를 다른 사람들과 소통하는 것
- 독자는 설명이 없으면 디자이너가 당연하게 알고 있는 사실을 떠올리지 못함
- 제목과 최소한의 설명을 도입 부분에 적어둘 것