1. 이 슬라이드는
박한우 & Loet Leydesdorff (2004, 10월). 한국어의 내용분석
을 위한 KrKwic 프로그램의 이해와 적용: Daum.net에서 제공
된 지역혁신에 관한 뉴스를 대상으로, Journal of The Korean
Data Analysis Society, 6권 5호, 1377-1388.
을 기초로 연구자들이 학술적 목적으로 KrKwic 툴을 쉽게
사용할 수 있도록 만든 매뉴얼임.
* KrKwic 소프트웨어에 대한 모든 책임은 이용자에게 있습니다.
* This slide was made by Han Woo Park and his students to help
researchers and students use the KrKwic. Please cite Park’s works
using the KrKwic.
•이 매뉴얼을 이용할 때에는 다음과 같이 밝혀 주기바람.
박한우 편 (2014). KrKwic을 이용한 한국어 의미 네트워크 분석.
•경산: 영남대학교. :
http://www.slideshare.net/hanpark/krkwicnovember2006
2. Software Output
* 사용상 유의사항
학술논문 이외의 기업 컨설팅, 용역과 계약 연구
(한국연구재단 지원과제 포함) 등 재원이 있는 연구과제에서
사용 사례가 많아지고 있습니다.
프로그래머를 고용하여 개발하기 바랍니다.
소프트웨어 산업이 죽고 있습니다.
또한 관련 개발자의 논문 반드시 인용 바랍니다.
교묘하게 인용을 회피하는 경우도 종종 있네요.
Krkwic
3. KrKwic 동의서 작성
URL :KrKwic 사용에 대하여
https://docs.google.com/forms/d/
1zJcFVQEF0JZML0bq-
gnQNNyzc1LfD_rzbzE2nEjCh_Y/vie
wform
KrKwic 사용 전 반드시
위의 URL에 방문하여
툴 사용동의서 작성
4. SoftwareKrkwic? Output
* Krkwic이란?
Korean Key Words In Context
Loet Leydesdorff 교수(네덜란드 암스테르담 대학)의
메시지 내용분석 소프트웨어인 Full Text 를
한국어로 작성된 메시지 내용분석을
위하여 변형한 프로그램.
(박한우&Laydesdorff,2004)
5. 필수 인용 논문
매뉴얼 성격의 다음 논문
박한우 & Loet Leydesdorff (2004, 10월
). 한국어의 내용분석을 위한 KrKwic 프
로그램의 이해와 적용: Daum.net에서
제공된 지역혁신에 관한 뉴스를 대상으
로, Journal of The Korean Data
Analysis Society, 6권 5호, 1377-1388.
6.
7. 해외 저널에 발행된 논문
Chung, C. J., & Park, H. W. (2010). Textual Analysis of a Political Message: The Inaugural Addresses
of Two Korean Presidents. Social Science Information. 49 (2), 215-239.
Park, S. J., Lim, Y. S., Sams, S., Sang, M. N., & Park, H. W. @ (2011). Networked Politics on
Cyworld: The Text and Sentiment of Korean Political Profiles, Social Science Computer Review*, 29
(3). 288-299
Park, H. W. @ (2012). Examining academic Internet use using a combined method. Quality &
Quantity*. 46 (1), 251-266, DOI: 10.1007/s11135-010-9344-6
Cho, S.E., & Park, H. W. @ (2012). Government Agencies’ Innovative Use of the Internet: The Case
of the Twitter Activity of South Korea’s Ministry for Food, Agriculture, Forestry and Fisheries.
Scientometrics*. 90 (1), 9-23. A special issue on Triple-Helix and Innovation in Asia using
Scientometrics, Webometrics, Informetrics
Cho, S. E., Choi. M. G., Park, H. W. @ (2012 forthcoming). Government-civic group conflicts and
communication strategies: A text analysis of TV debates on Korea’s Import of U.S. Beef. Journal of
Contemporary Eastern Asia, 11 (1).
8. 국내 저널에 발행된 논문
박한우와 Loet Leydesdorff (2004, 10월). 한국어의 내용분석을 위한 KrKwic프로그램의 이해와 적용:
Daum.net에서 제공된 지역혁신에 관한 뉴스를 대상으로, Journal of The Korean Data Analysis Society,
6권 5호, 1377-1388.
남인용, 박한우 (2007년 2월), 대권 예비후보자 관련 신문기사의 네트워크 분석과 홍보전략, 한국정당학회
보, 6권 1호,
박한우, 이연옥 (2009년 4월). 복합적 텍스트 분석을 이용한 포털 댓글에 관한 연구 -17대 대통령 선거 기
간 미디어 ‘다음’에 게시된 광운대 BBK 동영상. Journal of the Korean Data Analysis Society, 11권, 2
호 (B), 731-744.
Chung, C. J., Gruzd, A., & Park, H. W. (2010). Developing an e-research Tool for Humanities and
Social Sciences: Korean Internet Network Miner on Blogosphere. 인문연구. 60권, 429~446. 영어논문
임. 정정주, Gruzd, A.,박한우 (2010). 인문사회과학과 e-리서치: 한글 블로그 공간 분석을 위한 도구 개발
). 인문연구. 60권, 429~446
박한우 (2010년 12월). e-사이언스 시대의 인문사회학 연구하기-인터넷 연구방법을 중심으로. 사회과학
연구. 30권, 2호, 195-211.
조인호, 박지영, 박한우. (2011). 한국에서 나타난 마이크로 블로깅과 정치현상 사이의 상호작용-서울시
장 예비후보 토론회를 중심으로. 동아인문학, 19호. 323-359.
윤호영, 박한우 (2011). 한국 정치인들의 트위터 활용방식-정치인 트위터 메시지 및 이름언급 연결망 분석
. 동아인문학, 20호, 1-25.
9. <기타 관련 자료>
과학동아 2011년
동아일보 2008년 11월 10일
관련 구글 검색 (새로운 브라우저에서
열기를 하세요)
10. 자주 발생하는 오류들
1. C:/ 바로 밑에 KrKwic 폴더를 만들었는가?
2. KrKwic 폴더에 3개의 응용프로그램 KrKwic/KRWords, KrTitle,
KrText를 설치했는가?
3. 주요단어목록 파일이름을 words 로 했는가?
4. 분석하려는 파일이름을 text.txt 로 했는가?
5. 분석을 할 때마다 결과파일들을 따로 정리하고, 폴더를 깨끗이 하
고 있는가?
11. 자주 발생하는 오류
프로그램이 꼭 C드라이브 바로 아래에서만 돌아가는 것이 아니라, 실행할때마다
처리되는 연결경로가 달라질 수 있기 때문에 이런 문제가 발생할 수 있다고 하네요.
결론적으로 다시 정리드리면.. 저는 C드라이브 아래에서 실행했을 때 아웃풋 생성
이 안됐었습니다.
두가지 방법으로 해결했는데요,
하나는 D드라이브 바로 아래에 "dev"라는 이름으로 폴더를 만들고, (원래 이게 프로
그램 실행시 자동으로 생성되어야 한다고 krtext프로그램과 인풋파일들을 넣고 실행
해보니 아웃풋이 제대로 생성되었습니다. 두번째 방법은, C드라이브에 새폴더를 만
들고, 그 안에 또 'dev' 폴더를 만들고 위와 같은 방법으로 하니 제대로 돌아갔습니
다.
프로그램 실행 연결경로를 알아봐주는 "process monitor" 라는 프로그램을 써서 알
아냈습니다.
박세정 (미국 조지아주립대 박사과정)
12. SoftwareKrkwic? Output
* Krkwic?
- 사회 네트워크의 내용분석
- 오픈 사이언스 정신에 입각한
유일한 한글 Sementic Network Analysis
- 커뮤니케이션 메시지의 의미는 “자주 사용되는 단어”에
있다.
- 단어 간 관계망은 “매스+커뮤니케이션”
- 컴퓨터 소프트웨어를 이용한 내용분석 프로그램은
대부분 영어권을 위한 것 등의 한계 극복 목적
13. 전통적 내용분석의 문제점
기존 방법의 한계점 (Danowski, 1993)
- 연구자가 임의로 만든 분석항목에 너무 의존적
- 개념적으로 조잡하고
- 노동 비용 등이 비교적 많이 들며
- 외적(external) 타당성이 제한되어 있으며
- 연구자의 성향에 영향을 받는 이데올로기적
14. 컴퓨터 내용분석의 등장
컴퓨터 소프트웨어를 이용한 내용분석
- 컴퓨터 내용분석 프로그램의 목록
http://academic.csuohio.edu/kneuendorf/content/cpuca/ccap.htm
- 그러나, 대부분이 영어권를 위한 것
- 한국어를 위한 KLiwc 등이 있으나 어떤 (문법적
또는 심리적) 범주체계에 따라 단어들을 분류하
거나 한국어의 전산처리 방식에 초점을 둠
15. SoftwareKrkwic? Output
* Krkwic?
-Krkwic은 도스버전/윈도우버전 두 가지이며
-KrKwic 도스버전은 32-64 비트 호환 버전(베타버전)
윈도우버전은 현재 테스팅 중(2014.5)
-32비트 버전에서 단어빈도를 계산하는 작은 KrKwic 소프트웨
어는
64비트 버전에서는 KRWords 로 이름이 변경되어 있음.
16. SoftwareKrkwic? Output
* Krkwic?
KrKwic 아웃풋 파일은 Pajek 에서 가장 잘 작동합니다.
http://mrvar.fdv.uni-lj.si/pajek/default.htm
UciNet 에서는 간혹 충돌이 일어나므로, 변환을 잘 해야 합니다.
https://sites.google.com/site/ucinetsoftware/downloads
17. Krkwi
c?
OutputSortware
*Krtext
Krtitle로 처리하기에
분량이 비교적 많은
메시지를 독립적인
파일로서 취급하여 분석
*Krtitle
비교적 짧은 메시지 분석
Ex)논문,웹사이트,기사 등
의 제목과 요약문/주관식
응답, 광고 카피, 일상대화
등
*Krwords
메시지 구성 단어 빈도 분
석
->핵심어,중요이슈 파악
3개의 하위 소프트웨어로 구
성
Krkwic 도스버전기
준
18. Krkwi
c?
OutputSortware
* 의미망 분석 과정
1. 분석 원하고자 하는 메시지 수집하여 텍스트 파일 형태로
만듬
(파일형식 : txt, 저장형식 : ANSI, 파일명:text(default))
Krkwic 도스버전기
준
25. Krkwi
c?
OutputSortware
* 의미망 분석 과정
5. 단어의 정제과정
대상-대상을-대상으로-대상은 등,
한국국제협력단-KOICA 등
여러가지 이유로 같은 의미지만 다른 단어로 처리된
단어들을 각각 치환해주어야 함.
최대한 정확도를 기하는 방향으로 단어 빈도를 파악하기
위해
연구자의 분석 목적에 부합하도록 정제하는 과정
Krkwic 도스버전기
준
27. 단 어 빈 도 목 록 을 이 용 하 여
메시지의 핵심어를 파악하고 의미망
작성에 필요한 단어들를 선정함.
실제 분석 과정에서는 몇 번의
데이터 정제 작업을 거쳐야 함.
28. Krkwi
c?
OutputSortware
* 의미망 분석 과정
6. 단어간의 관계분석(WORDS.TXT 파일 만들기)
WRDFRQ파일로부터 얻은 단어들을 연구자의 목적에 맞
게
유의미하다고 생각하는 단어를 추합하여 텍스트 파일 생성
(파일형식 : txt, 저장형식 : ANSI, 파일명:Words(default))
Krkwic 도스버전기
준
단어빈도 3까지만,
특이성이 없는 <있다. , 및,
등> 의 단어는 삭제함
31. Krkwi
c?
OutputSortware
* 의미망 분석 과정
6. 단어간의 관계분석 (Krtitle 실행)
Krkwic 도스버전기
준
3. 참고: 분석하고자 하는 단어의 개수, 빈도가 높을 수록 시간이 오래 걸림.
이 화면이 나왔다면 프로그램이 작동중이므로 오류라 당황하지 않으셔도 됩
니다
32. Krkwi
c?
OutputSortware
* 의미망 분석 과정
7. Krtitle 실행 후 결과파일 생성
Krkwic 도스버전기
준
*Coocc(co-occurunce)file
: 단어X단어, 1-mode matirx
단어들이 메시지에 동시에 출현한
빈도
*Matrix file
: 메시지X단어, 2-mode matirx
메시지에서 단어가 출현한 빈도
*Cosine file
: 단어X단어, Cosine Matrix
단어 간의 거리
33. Krkwi
c?
OutputSortware
* 의미망 분석 과정
7. Krtitle 실행 후 결과파일 생성
Krkwic 도스버전기
준
←Coocc.dat
One-mode matrix의
가로,세로 행렬의 라벨
과
Matrix의 값을 알 수 있
음 ↑Coocc.dbf
One-mode matrix의
Matrix의 각 행과 열 별로
값이 나타남
34. Krkwi
c?
OutputSortware
※Krkwic Software 사용 시 주의사항
- Krkwic은 도스버전, 윈도우버전 두가지 버전 존재.
- 도스버전은 32비트, 64비트 버전- 컴퓨터 사양에 맞추어서
다운로드 및 사용권장
- 소프트웨어 설치 위치는
컴퓨터의 C:drive의 하위폴더- 폴더명 ‘dev’ 권장
- Krkwic 윈도우버전은 단어 정제 과정 등에서 편의성이 있
으나
현재 Krkwic 도스버전이 사용하기에 더 안정적이라고 함
35. SoftwareKrkwi
c?
Output
* 네트워크의 시각화
8. Krtitle과 Krwords를 이용하여 얻은 결과물을 이용하여
연구자가 분석한 텍스트, 단어 의미망을 시각화하여 가시성
을 높임
주로 이용하는 프로그램은
UCInet-Netdraw, Pajek, NodeXL이 있음.
수업시간에서 학우분들이 가장 다루기 어려워 했던
노드엑셀에서 그래프 그리는 방법!을 중심으로 살펴보겠습니다:-)
36. SoftwareKrkwi
c?
Output
* 네트워크의 시각화
9. 단어간의 관계를 알아보기 위해서
단어X단어의 One-mode Matrix필요
- Coocc파일을 통해 얻은 라벨과 행렬 값을 이용
해서
행과 열에 동일한 라벨을 입력해줌.
- 행렬 값은 빈칸없이 모두 값을 가지도록 함
(같은 라벨이 만나며 생기는 빈칸은 0으로 채움)
- 노드엑셀에서 불러올 수 있도록 따로 저장한 후
Import하기 위해 창은 실행시켜 둠
39. SoftwareKrkwi
c?
Output
* 의미망 분석 , 시각화
10. 노드엑셀에서 그래프 그리기
… …
One-mode matirx를 불러오면
기본값으로 Vertix1(행),
Vertex2(열)
그리고 Edge Weight가 표시됨
->
문서동작창
: Show Graph
기본값 상태 그대로 Show Graph하
면
문서동작 창에 Directed Graph표시
40. SoftwareKrkwi
c?
Output
* 의미망 분석 , 시각화
10. 노드엑셀에서 그래프 그리기
단어간의 연결만 나타내는
Undirected Graph이므로
Type : Undireted 선택
그래프에 Vertex의 각 단어를
표시하고 싶다면
리본메뉴 Autofill Columns 클릭
Vertex탭에서 Vertex Label을
Vertex로 선택후 Autofill!
옵션변경은 바로 옆에 있는
각각의 Options 이용
42. SoftwareKrkwi
c?
Output
* 네트워크의 시각화
10. 노드엑셀에서 그래프 그리기
• 이 같은 옵션들을 이용하여 빈도가 높은 단어들을
크게 표시하여 가시성을 높이는 방법 등이 있음.
• 이러한 방법들을 심화하여 연결성, 매개성, 중심성 등
을
계산하여 연구 목적에 맞게 각 값 별로 가중치를 부여
하여
가시성을 높일 수 있음.
• 연구 목적에 따라 Grouping이 필요하다면 그룹을 나
누어 가시성을 높이는 방법 등 다양한 방법이 존재함.
43. 구글에서 UciNet으로 검색하거나
아래 URL에서 다운로드 가능
https://sites.google.com/site/ucinetsoftware/downloads
45. SoftwareKrkwi
c?
Output
* 네트워크의 시각화
11. UCInet-Netdraw에서 그래프 그리기
- 위 같이 엑셀버튼을 눌러 새로 뜨는 워크시트에 직접 값을 입력해도 되고
이미 매트릭스가 만들어진 경우에는
File -> Ucinet DL txt file ->Network(1-mode)를 이용하여 불러와도 됨.
- UCInet에서 다시 저장한 파일은 확장자가 .##h 혹은 .##d로 인 파일로 바뀜
- UCInet 6.0의 경우 엑셀파일 중 확장자.xls 파일을 지원하지 않기 때문에
UCInet을 한 번 거쳐 .wks로 끝나는 확장자 파일을 다시 저장해야 함.
47. SoftwareKrkwi
c?
Output
* 네트워크의 시각화
11. UCInet-Netdraw에서 그래프 그리기
아까 저장한(.##h 혹
은 .##d)
파일 오픈한 후
오픈 데이터 파일에서
확장자
UCInet(.##h , .##d)을
선택하여 실행
->시각화 된 그래프가 나타남
48. Pajek 은 구글에서 검색하거나 다음에서 다운로드 가능
http://mrvar.fdv.uni-lj.si/sola/info4/programe.htm
49. SoftwareKrkwi
c?
Output
* 의미망 분석 , 시각화
11. Pajek에서 그래프 그리기
시각화 하고자 하는 파일을
불러오면 됨.
저의 경우에는 Pajek사용에 익숙하지 않아
서 그대로 불러오니까 계속 오류가 나더라
구요.
엑셀의 데이터를 Pajek의 데이터 파일로
변환하는 txt2pajek이라는 프로그램을 사
용하여 변환 후 불러와서 시각화하였습니
다.
50. SoftwareKrkwi
c?
Output
- NodeXL : 기존의 엑셀 템플릿을 이용하므로 네트워크의 시각화가 편
리
- Netdraw : 가장 많이 사용되고 있으며 UCInet과 연동하여 사용
- Pajek : 커다란 데이터 분석에 용이하며
가장 다양한 분석이 가능한 분석 그리고 및 시각화 프로그램
네트워크 시각화 도구로 소개한 세 가지 NodeXL, Netdraw, Pajek은
수업시간에 다루어 주신 내용으로 구성한 것입니다. 이 외에도 다양한 도구들이 있습
니다.
* 앞서 설명한 이같은 모든 과정은 :
연구현상에 대한 네트워크 데이터를 수집하고 그에 따른 적절한 표
현을
통해 네트워크의 기본적 구조나 형태의 도출 가능.
이에 대한 해석을 통해 목적에 맞는 관계성의 특성을 파악하여
다양한 현상에 영향을 미쳤거나, 미치게 될 패턴/특징들을 분석가능.