SlideShare une entreprise Scribd logo
1  sur  49
Télécharger pour lire hors ligne
네비게이션 검색 통합 Project - 기술기획안 
검색서비스개발팀 
민병국 
2009.11.13
2009-11-13 네비게이션검색통합 - Pilot 기술문서 2 
개념설명 – 융합(Fusion) cf. 통합(Integration) 
• 
Collection Fusion 
• 
Data Fusion 
웹사이트 
Data 
웹사이트 Data 
로컬 
Data 
로컬 Data 
Merge 
웹사이트 
검색엔진 
웹사이트 검색엔진 
로컬 
검색엔진 
로컬 검색엔진 
Mapping Data 
프론트 엔진&UI 
프론트 엔진&UI 
Link 
Meta Data 
사용자 
컬렉션 배치 -선택,정렬 컬렉션 연결 - 2단계쿼리 
통합DB - 수작업 - 정확성高 - 비용高 - 범위제한 
Vertical 검색 
Horizontal 검색 
Vertical 검색 
1. 
검색결과의 의미적 구조화 
2. 
검색결과의 선택/정렬 
3. 
검색결과의 통합
2009-11-13 네비게이션검색통합 - Pilot 기술문서 3 
목차 
• 
프로젝트 개요 
• 
검색 통합의 목적 
– 
통검쿼리 분석 
• 
Pilot 1차 버전 리뷰 및 문제점 
• 
토픽맵 소개 및 모델링 예제 
– 
토픽/연계/어커런스, 토픽병합 
– 
토픽맵의 검색엔진 적용시 모델 샘플: 삼성전자 
• 
Pilot 2차 버전 계획 및 설계 
삼성 
1942 
기업인 
카트 
1994 
게이머
2009-11-13 네비게이션검색통합 - Pilot 기술문서 4 
프로젝트 개요 
• 
쿼리 통합 대응 
– 
바로가기, 사이트(&디렉토리), 로컬, 웹, 블로그, 카페 
• 
중복 검색결과 제거 
– 
검색결과 통합 과정에서 중복 URL 제거 
• 
검색결과 통합의 의미적 구조화 
– 
낮은 수준의 의미적 연결 
• 
검색결과의 정확도(Precision) 향상 
– 
연관검색 첨가, 스트링 매칭의 매칭 오류 감소 
ex) Query ‘훼미리마트’  명가패밀리마트, 모나와 훼미리마트타이쿤
검색 통합의 방향 
• 
통합검색쿼리 분석
2009-11-13 네비게이션검색통합 - Pilot 기술문서 6 
통검쿼리 상위 리뷰(1/2) 
• 
2008.5.8일자 1-150위 (40634회~870회) 
– 
논문: 질의유형에 맞추어 검색효율을 높이려는 연구, Kang and Kim, 2003 
• 
쿼리를 3가지 유형으로 분류하여 특성 분석: 네비게이션/정보/트랜잭션 
구분 
개수 
쿼리 
사이트 찾기 (네비게이션) 
99 
네이버/ 사이월드/ 옥션/ 야후/ 국민은행/ 온에어/ g마켓/ 와와디스켓/ 우리은행/ 엣홈 / 더쇼룸 / 파일코리아 / 지마켓 / 신한은행 / 집코리아 / cgv / 인터파크 / 다음 / 네이트 / 구글 / 넷마블 / 이로모 / 네이트온 / 한게임 / 농협인터넷뱅킹 / kbs / 농협 / 세이클럽 / 서든어택 / mbc / 위디스크 / 판도라tv / 엠파스 / 아이템매니아 / 삼성카드 / 던파 / 팍스넷 / 보배드림 / 아이템베이 / 롯데닷컴 / 파란 / 파일노리 / 하나은행 / 대한항공 / 워크넷 / sbs / 신한카드 / 롯데시네마 / 멜론 / 현대카드 / 곰플레이어 / 피망 / 국민은행인터넷뱅킹 / 와우인벤 / 기업은 행 / 스포츠조선 / 미래에셋증권 / 다나와 / ktf / 삼성전자 / 버디버디 / 알바몬 / 교보문고 / 외 환은행 / 이랜드노동조합 / 이랜드일반노동조합 / 십이지천2 / gs홈쇼핑 / 와우메카 / 현대자 동차 / 동양종금 / 메이플스토리 / 판도라 / 아고라 / 조선일보 / 사람인 / 스포츠서울 / 소리바 다 / sk텔레콤 / 국세청 / 롯데카드 / 부동산114 / 리니지 / 롯데백화점 / 모키 / 싸이월드미니 홈피 / 클럽박스 / t월드 / 홀인원비뇨기과 / 이마트 / 벅스뮤직 / 롯데홈쇼핑 / 신한은행인터넷 뱅킹 / 엠파일 / 교차로 / 애니콜 / 벼룩시장 
정보 찾기 (뉴스,질의응답) 
26 
야마다유 / 문지은 / 이명박 / 조경태 / 이명박탄핵 / 지수원 / 광우병 / 오구리순 / 이계진 / 소 녀시대 / 박용하 / 후(신인가수) / 빅뱅 / 쇠고기청문회 / 박선주 / 김시향 / 다나카미호 / 화분 (알렉스노래) / 송윤아 / 어버이날 / 정운천 / 창업 / 진중권 / 이토히데아키 / 청문회 / 알렉스 
서비스 찾기 (트랜잭션) 
25 
이명박탄핵서명 / 아이언맨 / 환율 / 지하철노선도 / 스피드레이서 / 옥션정보유출확인방법 / 날씨 / 온에어18회 / 영화 / 100분토론 / 지도 / 웹하드 / 블리치169화 / 로또당첨번호 / stx팬 오션 / 삼성중공업 / 아현동마님 / 아빠셋엄마하나 / 일지매 / 너는내운명 / 탄핵서명 / 블리치 168화 / 곰플레이어최신버전다운로드 / 우편번호검색 / 로또 /
2009-11-13 네비게이션검색통합 - Pilot 기술문서 7 
쿼리의 목적 – 사이트/정보/서비스 
• 
Q:네이버 
– 
사이트 찾기 
• 
Naver 사이트 
• 
Naver 하부사이트 
• 
NHN 사이트 
– 
정보 찾기 
• 
기업개요, 주식시세 
• 
백과사전, 위키 
• 
사옥위치/지도, 주소 
• 
대표전화, 서비스상담 
• 
이미지, 동영상CF 
• 
뉴스 
– 
서비스 찾기 
• 
메일 
• 
검색 
• 
카페 
• 
블로그 
• 
미투데이 
• 
Q:이효리 
– 
사이트 찾기 
• 
이효리 팬홈페이지 
• 
이효리 팬카페 
• 
이효리 소속사 사이트 
– 
정보 찾기 
• 
프로필, 위키 
• 
TV방송, 콘서트, 앨범 
• 
사진, 동영상, 음악 
• 
뉴스 
– 
서비스 찾기 
• 
음악 들어보기 
• 
Q:홍대 클럽 
– 
사이트 찾기 
• 
홍대 클럽 사이트 
– 
정보 찾기 
• 
홍대지역 클럽위치/지 도 
• 
홍대클럽관련 뉴스 
• 
홍대클럽관련 블로그/ 후기/추천글 
• 
홍대클럽 사진/동영상 
• 
홍대클럽 이벤트/공연 
– 
서비스 찾기 
• 
홍대 클럽 카페 가입 
• “쿼리 is a 주제”인 경우 
• 사이트 정보가 (1) 중복없이 (2) 연 
관성 있게 정리되어 (3)빠짐없이 출 
력되길 바람. 이런 경우 상하좌우 주 
제로 1 Depth의 의미확장 필요. 
•“쿼리 is a 주제”인경우 
• 사이트 정보가 (1) 중복없이 (2) 연 관성 있게 정리되어 (3)빠짐없이 출 력되길 바람. 이런 경우 상하좌우 주 제로 1 Depth의 의미확장 필요. 
• “쿼리 belongs to 주제”인 경우 
• 쿼리에 관한 주제를 가장 많이 찾 
을 수 있는 사이트를 원함. 불충분한 
내용의 사이트는 사양. 예) 이효리가 
곁다리로 출연한 가수C양의 콘서트 
(x) 
•“쿼리 belongs to 주제”인경우 
• 쿼리에 관한 주제를 가장 많이 찾 을 수 있는 사이트를 원함. 불충분한 내용의 사이트는 사양. 예) 이효리가 곁다리로 출연한 가수C양의 콘서트 (x) 
• “쿼리 locateIn and hasType 주제” 
인 경우 
• 사이트 정보가 (1) 주제의 속성을 
만족하며 (2) 제시된 속성과 연관있 
는 내용만 출력되길 바람, 예) 홍대 
가 아닌 지역의 클럽, 홍대의 술집(x) 
•“쿼리locateIn and hasType 주제” 인경우 
• 사이트 정보가 (1) 주제의 속성을 만족하며 (2) 제시된 속성과 연관있 는 내용만 출력되길 바람, 예) 홍대 가 아닌 지역의 클럽, 홍대의 술집(x)
2009-11-13 네비게이션검색통합 - Pilot 기술문서 8 
네비게이션 쿼리의 예 - 범어사 
• 
범어사(梵魚寺) 
– 
금정산에있는절.678 년 신라 문무왕 시절에 의 상에 의해서 지어짐. 후 에 조계종으로 합쳐진 화 엄종의 10대 사찰 안에 속했음. 
• 
범어사 
– 
위치: 부산 금정구 
– 
건물: 사찰 
– 
종교: 불교 
– 
관광지: 보물 
– 
정보자원: 블로그/카페/ 사진/동영상/사이트 등.. 
X 
X 
X 
X
2009-11-13 네비게이션검색통합 - Pilot 기술문서 9 
사이트 쿼리 통합의 구축 방안 
• 
Bottom-up 
– 
신규 컬렉션 생성 
• 
Top-down 
– 
메타 데이터 생성 
• 
현행 자원 이용 
– 
웹사이트 검색 개편 
– 
바로가기 모음 
※ 더 큰걸 바라보면 어떨까??
Pilot 1차 버전 리뷰 & 문제점 
• 
1차 기획 내용 
• 
1차 개발 내용 
• 
데이터 샘플 
• 
문제점
2009-11-13 네비게이션검색통합 - Pilot 기술문서 11 
Pilot – 1차 버전 – 기획 
• 
핵심 아이디어 
– 
노출 타입별 멀티 컬렉션 검색 
• 
사이트 통합화면 노출 타입 
– 
기본타입 
• 
대표사이트 + 하위사이트 
• 
바로가기 + 스폰서링크 + 사이트 
– 
검색포털타입: 네이버, 네이트, 야후, 구글, 빙 등.. 
• 
대표사이트 + 하위사이트 
• 
바로가기 + 스폰서링크 + 사이트 
– 
대표번호 타입: 프랜차이즈, 통신사, 금융 등.. 
• 
대표사이트 + 전화번호 + 하위사이트 
• 
대표사이트 + 전화번호 + 하위사이트 + 지도(지점안내) 
• 
바로가기 + 스폰서링크 + 대표사이트 + 전화번호 + 하위 사이트 
– 
개별전화번호 타입: 대표번호가 없는 경우, 요식업, 학원 등.. 
• 
대표사이트 + 하위사이트 + 지도(지점안내&전화번호) 
• 
바로가기 + 스폰서링크 + 대표사이트 + 하위사이트 + 지도(지점안내&전화번호) 
– 
지점 타입: 백화점, 영화관, 마트 등.. 
• 
대표사이트 + 하위사이트 + <숨김/펼침>지점안내 
• 
바로가기 + 스폰서링크 + 대표사이트 + 하위사이트 + <숨김/펼침>지점안내 
– 
1:1 타입: 사이트&지역정보가 유일한 쿼리 
• 
사이트+지역정보+(길찾기)+(대중교통정보) 
• 
동일명칭 사이트 다수
2009-11-13 네비게이션검색통합 - Pilot 기술문서 12 
Pilot – 1차 버전 – 개발 
1. 
쿼리 입력 
- 
등록된 모든 컬렉션에 고정검색 
2. 
바로가기 검색 
- 
Exact 키워드(자원) 검색 
- 
siteseq 출력 
3. 
웹사이트 검색(메타데이터) 
- 
docid = siteseq 를 검색 
- 
사이트의 dirseq 출력 
4. 
디렉토리 검색(연관사이트) 
- 
dirseq를 통해 같은 트리의 사이 트검색 : 내부(하위) 또는 연관 : <dirseq>&<키워드> 조건검색 
- 
다수의 docid 출력 
5. 
메타데이터로 추가 검색 
- 
로컬 대상 ‘키워드’ 검색 
6. 
검색결과 통합 및 UI 포장 출력 
- 
랭킹 없음 
10.31.254.121 (웹서버/Python) 
10.10.40.246 (웹서버/Python) 
바로가기 (10.30.40.172) 
2 
웹사이트 (10.20.253.180) 
3 
디렉토리 (211.115.77.9) 
4 
로컬 + etc 
5 
통합검색결과 
query 
siteseq 
docid 
dirseq 
dirseq 
docid 
※ 비고: 빨간네모는 입력, 파란네모는 출력을 의미 점선은 Request(요청), 실선은 Response(응답)을 의미 
1 
6 
Pilot-1차 버전 검색 Flow
2009-11-13 네비게이션검색통합 - Pilot 기술문서 13 
Talkro Schema – 웹사이트 
^[START] 
^[path_dir_rank] 4907 318 35 2 
^[issue_score] 10337789 
^[recommand_yn] N 
^[new_yn] N 
^[rank_score_rank] 11071 
^[popular_star_count] 1 
^[siteurl1_hilight] http://www.dell.co.kr/ 
^[siteurl1_disp] http://www.dell.co.kr/ 
^[idpath] 110 164 126 199386 
^[dirseq] 199386 
^[history_yn] Y 
^[clickkeyvalue] dell%5.0491 dellcomputer%0.6376 delllaptop%0.1952 dellpc%0.9299 dellserver%1.3823 dell노트북%3.8187 dell서 버%2.6518 dell워크스테이션%1.0196 dell컴퓨터%4.4954 workstation%0.3224 workstation노트북%0.0564 www.dell.co.kr%0.1723 노트북델%1.3202 노트북워크스테이션%0.3612 델%5.111 델pc%1.4088 델노트북%3.2425 델서 버%1.1732 델서버컴퓨터%0.0246 델서버판매%0.3189 델워크스테이션%0.5552 델컴퓨터%6.4329 ((중략)) 
^[path_ko_title] 비즈니스, 쇼핑^컴퓨터, 인터넷^하드웨어^델 컴퓨터 
^[detail_dead_yn] Y^N 
^[siteurl1_link] http://www.dell.co.kr/ 
^[week_uv] 5213 
^[hiddentitle_index] dell|dellcomputer|dell노트북|dell컴퓨터|델|델pc|델노트북|한국델컴퓨터| 
^[clickkey] dell dellcomputer delllaptop dellpc dellserver dell노트북 dell서버 dell워크스테이션 dell컴퓨터 workstation workstation노트 북 www.dell.co.kr 노트북델 노트북워크스테이션 델 델pc 델노트북 델서버 델서버컴퓨터 델서버판매 델워크스테이션 델컴퓨터 ((중 략)) 
^[manualkey] 미니넷북 
^[sitedesc] 데스크탑, 미니 노트북, 넷북, 워크스테이션, 서버, 스토리지, PC 판매. 
^[fchar_eng] 0델컴퓨터 
^[sitetitle_index] 델컴퓨터 
^[rank_score] 475.415633097346 
^[manualkeyvalue] 미니넷북%3 
^[official_yn] N 
^[url_name] dell dell.co.kr www.dell.co.kr http://www.dell.co.kr http://www.dell.co.kr/ http://www.dell.co.kr http://www.dell.co.kr/ 
^[sitetitle_load] 델컴퓨터 
^[siteseq] 588427 
^[localmap_yn_locate_xy] N 
^[rank_score_rank_variation] 2527 
^[dirflag] 0 
^[END] 
1 1 keyword[0] 델컴퓨터 & title[0] 델컴퓨터 & url[0] http://www.dell.co.kr/ & linkurl[0] http://www.dell.co.kr/ & siteseq[0] 588427 & 
<< 바로가기>>
2009-11-13 네비게이션검색통합 - Pilot 기술문서 14 
Talkro Schema – 디렉토리 
^[start] 
^[dirseq] 199386 
^[kotitle_index] 델 컴퓨터 
^[kotitle_rank] 델컴퓨터 
^[entitle] Dell Computer 
^[keyword] dell컴퓨터 
^[adult_yn] N 
^[dir_cnt] 0 
^[site_cnt] 3 
^[site_dir_cnt] 3 
^[manualkey] 
^[manualkeyvalue] 
^[path_dirseq] 110 164 126 199386 
^[path_kotitle] 비즈니스, 쇼핑|컴퓨터, 인터넷|하드웨어|델 컴퓨터 
^[path_entitle] Business_Shopping|Computers_Internet|Hardware|Dell_Computer 
^[shortpath_dirseq] 164 126 199386 
^[shortpath_kotitle] 컴퓨터, 인터넷|하드웨어|델 컴퓨터 
^[rank_score_sum] 139387 
^[dir_level] 4 
^[end] 
바로가기 
바로가기 
웹사이트 
웹사이트 
디렉토리 
디렉토리 
로컬 
로컬 
siteseq 
dirseq 
키워드 
<< ‘델컴퓨터’ 연결구조 >> 
※스트링매칭의 검색 이라 무엇이나올지 보 장할 수 없다. 
※고정된id로 보장된 결과가 나오지만 연결 구조가 주제별로 기준 이 이질적이거나 짬뽕.
2009-11-13 네비게이션검색통합 - Pilot 기술문서 15 
Talkro Schema – 로컬 
^[START] 
^[DOCID] P782652 
^[NEW_DOCID] 9728531 
^[CORP_O_INDEX] 델컴퓨터코리아(주) 
^[CORP_NS_INDEX1] 델컴퓨터코리아(주) 
^[CORP_NS_INDEX2] 델컴퓨터코리아(주) 
^[CORP_SYN_INDEX] 
^[MANUAL_KEYWORD] 
^[CORP_NS_LEN] 26 
^[HOMEPAGE] 
^[POINT_X] 506675 
^[POINT_Y] 1107648 
^[ADDRESS] 서울서초구서초동 1339-9 
^[HOUSE_M_YN] N 
^[HOUSE_NUM1] 1339 
^[HOUSE_NUM1_SORT] 1339 
^[HOUSE_NUM2] 9 
^[ZIPCODE] 137-070 
^[PHONE_DISPLAY] 02-2194-6000 
^[PHONE_INDEX] 02-2194-6000,2194-6000 
^[PHONE_SYN_DISPLAY] 
^[PHONE_SYN_INDEX] 
^[PHONE_YN] Y 
^[LCODE_DEPTH1] II 
^[LCODE_DEPTH2] I1014 
^[LCODE_DEPTH3] I10140300 
^[LNAME_DEPTH1] 서울 
^[LNAME_DEPTH2] 서초구 
^[LNAME_DEPTH3] 서초동 
^[LNAME_DEPTH2_UP] 
^[LNAME_DEPTH3_UP] 서초동 
^[CATE_ID_DEPTH1] 7 
^[CATE_ID_DEPTH2] 147 
^[CATE_ID_DEPTH3] 215 
^[CATE_NAME_DEPTH1] 서비스,산업 
^[CATE_NAME_DEPTH2] 정보통신,IT 
^[CATE_NAME_DEPTH3] 소프트웨어 
^[CATE_SYN_DEPTH1] C7; 서비스,산업; 기타업종; 기타업종일반; 서비스; 산업; 
^[CATE_SYN_DEPTH2] C147; 정보통신,IT; 정보통신; IT; 
^[CATE_SYN_DEPTH3] C215; 소프트웨어; 그래픽; CAD; CAM; 캐드; 캠; CAD학원; 맥스; 맥스학원; 캐드전문학원; 캐드학원; 비즈니스소프트웨어; 경영소프트웨어; 소프트웨어; 소프트웨어개발; 소프트웨어게임판매; 전산개발; 프로그램개발; 회계소프트웨어; 재무소프트웨어; 
.. (( 계속 )) .. 
^[LAST_CATE_DEPTH] 3 
^[LAST_CATE_ID] 215 
^[LAST_CATE_NAME] 소프트웨어 
^[CP] P 
^[SOURCE] koid 
^[SOURCE_ID] 
^[THUMNAIL] 
^[TVSHOW_NAME] 
^[TVSHOW_ID] 
^[STAR] 0 
^[COUNT_RATING] 0 
^[COMMENT] 
^[REPLY_CONTENTS] 
^[REPLY_COUNT] 0 
^[REVIEW_ID] 
^[REVIEW_CONTENTS] 
^[REVIEW_URL] 
^[REVIEW_COUNT] 0 
^[BLOG_REVIEW_COUNT] 0 
^[COUNT_READ] 219 
^[PHOTO_COUNT] 0 
^[REP_MENU] 
^[PRICE] 
^[PRICE_ID] 
^[PRICE_1] 0 
^[PRICE_2] 0 
^[PRICE_3] 0 
^[BRAND] 
^[MODDTTM] 20090918201336 
^[LOCAL_PRIORITY] 1 
^[DOC_PRIORITY] B 
^[SP_CATEGORY_YN] N 
^[CORP_SCORE] 100199 
^[ADULT_FLAG] 0 
^[THUMNAIL_YN] N 
^[END] 
델델컴컴퓨퓨터터코코리리아아㈜㈜ 
델컴퓨터-강원.원주 
델컴퓨터-강원.원주 
델컴퓨터-충북.진천 
델컴퓨터-충북.진천 
델컴퓨터-경기.안양 
델컴퓨터-경기.안양 
델컴퓨터제천OA전산 
-충북.제천 
델컴퓨터제천OA전산 -충북.제천 
델컴퓨터-충북.제천 
델컴퓨터-충북.제천 
델컴퓨터장락점-충북.제천 
델컴퓨터장락점-충북.제천 
델컴퓨터코리아A/S(서비스) 
델컴퓨터코리아A/S(서비스) 
… 
<< 1-Level 트리구조 >>
2009-11-13 네비게이션검색통합 - Pilot 기술문서 16 
Pilot – 1차 버전 – 문제점 
• 
빈약한 랭킹요소 
– 
사이트 
• 
키워드, 사이트 랭킹 
• 
데이터 구조 중심의 검색 결과  사용자관심중심필요 
– 
바로가기/사이트/지역정보 등 개별적인 랭킹과 관심사항이 다름 
– 
통합된 관점에서의 랭킹 필요 
• 
ex) 훼미리마트 vs 명가 훼미리마트, 모나와 훼미리마트타이쿤 
• 
메타데이터의 불완전성 
– 
DirSeq가 서로 다른 기준으로 분류되어 있음 
• 
ex) 훼미리마트  편의점 vs 삼성전자 서비스센터  삼성전자 
– 
ID 방식의 연결값이 없으면 스트링매칭이 되어 불완전 검색 노출 
• 
데이터 가공비용 
– 
siteseq(=docid), dirseq 등 필드의 명칭과 값범위, 값기준이 다름 
– 
새로운 연결관계를 문서데이터 상에서 구축시 문서크기에 비용 비례
토픽맵 소개 및 검색엔진으로의 적용 
• 
토픽맵 개념 
• 
토픽/연계/어커런스 
• 
토픽맵 병합 
• 
토픽맵 데이터모델 
• 
검색엔진 적용방안 – 초간단 버전
2009-11-13 네비게이션검색통합 - Pilot 기술문서 18 
지식층 
정보층 
토픽맵 – ISO국제표준 지식표현모델 
• 
이중구조 
– 
지식층(Knowledge Layer) 
• 
지식의 구조 표현 
– 
정보층(Information Layer) 
• 
지식의 구조와 연관된 컨텐츠의 위치 정보 
• 
구성요소 
– 
토픽(Topic) 
• 
Type, Name 
– 
어커런스(Occurrence) 
• 
Type, Name 
– 
관계(Association) 
• 
Type 
박유전 
서편제 
동편제 
순창 
wasBorn 
doSinging 
doSinging 
이미지 
웹문서 
DB자료 
뉴스 
동영상 
이미지 
음악 
지도
2009-11-13 네비게이션검색통합 - Pilot 기술문서 19 
토픽맵 – 개요(1) 
• 
토픽(Topic) 
– 
주제 혹은 개념을 표현 (기존 분류체계의 subject와 유사) 
– 
하나의 이상의 이름 부여 가능 
• 
base name, display name, sort name 
– 
토픽 타입(Type): 유사 의미를 갖는 인스턴스들을 묶는 역할 
• 
토픽 is-a 토픽타입: 토픽타입은 토픽(instance)의 클래스(class) 
• 
ex) ‘범어사’의 토픽타입  건물, 지명, 사진, 웹사이트, 전화번호, 지도 
• 
어커런스(Occurrence) 
– 
토픽의 관점에서 토픽에 해당하는 자원을 연결 
– 
ex) ‘범어사’: 문서(리뷰/블로그/카페글), 이미지, 지도 
• 
썸네일: http://imgsrc.search.daum-img.net/special_search/special/0711/071109212606_2 
• 
URL: http://www.beomeosa.co.kr 
• 
Daum지도: http://local.daum.net/place/place_view.daum?place_id=P38909 
• 
블로그(리뷰): http://www.internetmap.kr/1122
2009-11-13 네비게이션검색통합 - Pilot 기술문서 20 
토픽맵 – 개요(2) 
• 
연계(Association) 
– 
토픽과 토픽을 연결시켜 주는 관계를 표현  토픽맵 형성 
– 
어떤 토픽 간의 관계도 설정할 수 있음 
• 
cf. 시소러스: BT(상위),RT(연관),NT(하위)  의미확장 
– 
ex) 삼성전자 – <가전제품/브랜드> - 애니콜, 하우젠, 지펠 다음 - <웹서비스/내부사이트> - TV팟, 뉴스, 카페, 검색 cf. 다음 - <null> - 다음소프트: Empty Assoication(Wrong!!) 
• 
토픽맵의 병합(Merge) 
– 
토픽맵 간의 의미 분석 결과에 따라 매핑률(%)을 적용함으로써 유사한 토픽들을 병합 (토픽맵의 병합/토픽의 병합) 
– 
병합규칙: 주제 식별자가 같거나 룰(rule)을 따르면 두 토픽을 병합(중복제거) 
• 
rule: IF title(토픽A) = title(토픽B) or url(토픽A) = url(토픽B) then  mergeMap(토픽A,토픽B) 
• 
ex) IF url(삼성전자@사이트) = url(삼성전자@웹문서) then mergeMap(삼성전자) 
– 
XML 기반의 토픽맵은 추론이 가능: 연계에 의한 토픽 탐색 
• 
cf. 일반 검색엔진에서 토픽 탐색은 구조적으로 1-Level 만 가능(제한사항)  검색엔진에 적합한 모델링 필요
2009-11-13 네비게이션검색통합 - Pilot 기술문서 21 
토픽맵 – 기술언어 XTM
2009-11-13 네비게이션검색통합 - Pilot 기술문서 22 
토픽맵 – 데이터모델 예제 
• 
보건산업기술분류체계의 토픽맵 명세서 설계 
– 
<논문> 효율적 지식공유를 위한 토픽맵 기반의 지식맵 서비스 모형 개발, pp.89-90 
Type 
Description 
Business Reference Model 
보건복지분야의 정부기능분류모델. 상하/하위 레벨관계는 PartOf으로 함. 
Department 
행정부처 
Health Industry Technology Classification 
보건산업기술분류체계 
Knowledge Document 
업무지식의 지식표현. 더블린코어의 데이터 요소를 어커런스로 정의함. 
Language 
업무지식의 언어 형태를 표현 
Team 
행정부처의 부서 
Person 
Team의 구성원 
Rights 
업무지식의 권한관리를 표현 
Type 
Description 
Belongs to 
보건산업기술분류체계와 업무지식과의 관계 
Has language 
업무지식과 언어와의 상관관계를 표현 
Has right 
업무지식과 권한관계를 설명 
Has role 
정의된 연계에 대한 토픽간의 관계를 정의 
Has type 
업무지식의 형태와의 관계를 정의 
Is Conducted by 
구성원과 정부기능분류모델의 수행관계 표현 
Is Controlled by 
정부기능분류모델을 컨트롤 함. 
Is Produced by 
구성원에 의한 업무지식 생성관계를 정의 
Is Published by 
업무지식의 출처 관계를 정의 
Is Managed by 
정부기능분류체계의 관계를 정의 
Superclass/subclass 
Superclass/subclass 
works in 
works in 
Type 
DataType 
Size 
Description 
Title 
String 
50 
표제 
Subject 
String 
50 
주제 
description 
String 
50 
설명 
Relation 
String 
50 
관계 
Coverage 
String 
50 
내용범위 
Identifier 
String 
50 
식별자 
Publisher 
String 
50 
발행처 
Source 
String 
50 
출처 
Language 
String 
50 
언어 
Creator 
String 
50 
제작자 
Contributor 
String 
50 
기타제작자 
Right 
String 
50 
권한관리 
Type 
String 
50 
자료유형 
Format 
String 
50 
표현양식 
Date 
Date 
date 
Date 
■ Occurrence Type 명세서 
■ Topic Type 명세서 
■ Association Type 명세서
2009-11-13 네비게이션검색통합 - Pilot 기술문서 23 
쿼리 – 주제(Topic) – 문서 
• 
2-Phase 검색 구조 
– 
1단계: 토픽맵검색 
• 
TopicType: 토픽맵 범위 
• 
Association: 연계토픽 한정자(토픽맵) 
• 
Occurrence: 문서집합 한정자(토픽) 
– 
2단계: 컬렉션별 문서검색 
• 
기존 검색: 키워드 + 조건 
• 
랭킹요소 
– 
로그/Hit 
• 
쿼리와 토픽이 가까운 정도를 클릭비 율로 반영 
• 
UserAct_Tag%가중치 방식 
– 
필드/태그 
• 
양질의 문서가 주어진 토픽에 얼마나 충실한가를 반영 
• 
만족되는 필드의 수와 필드별 검색 정 확도 
杔億 
棸沕免䌀䌬䍇䍈䍁䌻䌥䌹䍈䌁 
劐塴愩況 
AAssssoocciiaattiioonn 
Occurrence 
Occurrence 
冬栘䫈廌梈 
로그/Hit 
필드/태그 
<랭킹요소> 
<랭킹요소> 
바로가기, 웹사이트 (디렉토리), 로컬, 블 로그, 카페
2009-11-13 네비게이션검색통합 - Pilot 기술문서 24 
지식표현모델 – 시소러스 vs 토픽맵 
• 
토픽(Topic) 
– 
삼성전자 
– 
삼성전자 다운로드센터 
– 
삼성전자 서비스센터 
– 
삼성전자 반도체 
– 
애니콜 
– 
지펠 
– 
하우젠 
• 
관계(Association): 시소러스 
– 
연관 사이트(&동의/유사) 
– 
하위 사이트(좁은) 
– 
상위 사이트(넓은) 
• 
대상물(Occurrence) 
– 
URL 
– 
컬렉션 문서 URL 
• 
바로가기, 사이트, 로컬 
• 
웹문서 
• 
블로그, 카페명 
삼성전자 
삼성전자 서비스센터 
삼성전자 반도체 
애니콜 
삼성전자 다운로드센터 
http://삼성전자 
URL 
지펠 
하우젠 
http://삼성전자/다운로드센터 
http://삼성전자-서비스센터 
http://애니콜 
http://지펠 
http://하우젠 
http://삼성전자-반도체 
URL 
URL 
URL 
URL 
URL 
URL 
사이트 
로컬 
웹문서 
바로가기 
블로그 
카페 
RT 
NT 
BT 
RT 
NT 
BT 
토픽타입: 사이트
2009-11-13 네비게이션검색통합 - Pilot 기술문서 25 
웹사이트 토픽타입 – 초간단 버전의 토픽맵 
• 
삼성전자 
– 
토픽Type: web (※전체Type: web/person/place/brand/group) 
– 
연계Type 
• 
<web> super/sub 
– 
Topic of sub(삼성전자): 삼성전자 다운로드센터, 삼성전자 서비스센터 
• 
<brand> product/maker 
– 
Topic of product(삼성전자): 삼성전자 반도체, 애니콜, 지펠, 하우젠 
• 
<person> actor 
– 
Topic of actor(삼성전자): 이건희(삼성), 이재용(삼성), cf. ‘이부진’(장녀) – ‘이건희’와만관계있음 
• 
<place> head/branch 
– 
Topic of head(삼성전자): 삼성전자본사(강남역) 
– 
Topic of branch(삼성전자): 삼성전자 서비스센터(…), 삼성플라자(…) 
– 
어커런스Type 
• 
컬렉션_쿼리URL: 하나 이상 이상 가능 
– 
이건희인물^http://search.daum.net/search?w=tot&q=%B1%E2%BE%F7%C0%CE%20%C0%CC%B0%C7%C8%F1&ppkey=25368 
– 
삼성전자 사이트^http://search.daum.net/search?w=dir&m=site&lpp=10&q=%BB%EF%BC%BA%C0%FC%C0%DA 
• 
연관태그: 연결되는 토픽, ex) tag(이건희) 삼성%.99,기업가%.56,1942생%.35 
• 
topicID, 썸네일, 명칭_display, 명칭_base, 명칭_sort 
삼성전자 
web 
sub 
삼성전자 다운로드센터 
삼성전자 
web 
sub 
삼성전자 서비스센터 
삼성전자 
web 
product 
삼성전자 반도체 
삼성전자 
web 
product 
애니콜 
web 
web 
brand 
brand 
삼성전자 
web 
actor 
이건희 
person 
토픽_p 
p_Typ 
ass 
토픽_n 
n_Typ 
<< association 검색>> 
삼성전자 
애니콜 
s서비스 
삼성본사 
이건희 
tBase 
113113 
113114 
113115 
113116 
113117 
tID 
전자, 대기업 
삼성전자, 핸드폰 
삼성전자, 서비스센터 
서울 서초구, 강남역 
삼성, 기업가, 1942생 
tAss 
web 
brand 
web 
place 
person 
tTyp 
사이트_http://.. 
tLink 
사이트_http://.. 
사이트_http://.. 
로컬_http://.. 
인물_http://.. 
<< topic 검색>>
Pilot 2차 버전 설계 & 개발 계획 
• 
Pilot 2차 개발범위 
• 
Pilot 2차 버전의 동작 Flow 
• 
랭킹요소 – 로그, 태그
2009-11-13 네비게이션검색통합 - Pilot 기술문서 27 
개발범위 
• 
Task1: View 파트 
– 
쿼리별 토픽타입 설정 
– 
토픽타입별 출력 Template 
– 
노출대상의 조정 정책 
• 
ex) ‘인물’ 쿼리Type에서 로컬은 1개, 또는 정확도 0.9점 이상만 출력 
• 
Task2: Control 파트 
– 
2 Phase Retrieval 로직 구현 
– 
검색결과 중복제거 
– 
랭킹: 클릭점수 + 태그매칭점수 
• 
Task3: Model 파트 
– 
Topic, Association, Occurrence 타입 설계 
– 
초기 토픽맵으로 스키마 구성 
– 
검색엔진 설치 및 태그/링크 데 이터 수동구축 
검색결과 UI & 토픽타입 설정 
토픽맵 데이터 모델링 & 태그/링크 수동구축 
2PR 통합랭킹 & 중복제거 
+ 토픽타입별 
기획요소 
토픽타입별 기획요소 
+ 텍스트마이닝 
(자동태깅) 
텍스트마이닝 (자동태깅) 
+ 쿼리 주제연관도 
(로그분석) 
쿼리 주제연관도 (로그분석) 
Task: 1 
Task: 3 
Task: 2
2009-11-13 네비게이션검색통합 - Pilot 기술문서 28 
Pilot – 2차 버전 – 토픽맵 검색 
1. 
쿼리 입력 
2. 
토픽맵 검색(메타데이터,clues) 
3. 
웹사이트 검색 
4. 
디렉토리 검색 
5. 
로컬 검색 
6. 
검색결과 통합 및 UI 포장 출력 
- 
중복결과 제거 
- 
통합랭킹 적용 
- 
토픽타입별 노출 Template 
10.31.254.121 (웹서버/Python) 
10.10.40.246 (웹서버/Python) 
웹사이트 (10.20.253.180) 
3 
디렉토리 (211.115.77.9) 
4 
로컬 (spb-local-idx01) 
5 
토픽맵 검색 
2 
통합검색결과 
※ 비고: 빨간네모는 실제데이터, 파란네모는 메타데이터를 의미 점선은 Request(요청), 실선은 Response(응답)을 의미 
1 
6 
Pilot-2차 버전 검색 Flow 
토픽Type결정 (Template) 
컬렉션 쿼리Template 확장쿼리용 clues 
토픽 병합(rule) &중복제거 
Assocation 조건을 만족시키는 Occurrencs만검색
2009-11-13 네비게이션검색통합 - Pilot 기술문서 29 
Pilot – 2차 – Data Flow 
web_삼성전자 
wiki_삼성전자 
sub사이트 
브랜드사이트 
person _이건희 
로컬 _본사 
로컬_지점 (서비스/플라자) 
삼성전자 
web 
sub 
삼성전자 다운로드센터 
삼성전자 
web 
sub 
삼성전자 서비스센터 
삼성전자 
web 
product 
삼성전자 반도체 
삼성전자 
web 
product 
애니콜 
web 
web 
brand 
brand 
삼성전자 
web 
actor 
이건희 
person 
토픽_p 
p_Typ 
ass 
토픽_n 
n_Typ 
<< association 검색>> 
삼성전자 
애니콜 
s서비스 
삼성본사 
이건희 
tBase 
113113 
113114 
113115 
113116 
113117 
tID 
전자, 대기업 
삼성전자, 핸드폰 
삼성전자, 서비스센터 
서울 서초구, 강남역 
삼성, 기업가, 1942생 
tAss 
web 
brand 
web 
place 
person 
tTyp 
사이트_http://.. 
tLink 
사이트_http://.. 
사이트_http://.. 
로컬_http://.. 
인물_http://.. 
<< topic 검색>> 
토픽맵 검색 & 중복제거 
사이트 
컬렉션 
사이트 컬렉션 
로컬 
컬렉션 
로컬 컬렉션 
블로그 
컬렉션 
블로그 컬렉션 
카페 
컬렉션 
카페 컬렉션 
토픽Type별 Template & 노출정책 
네비게이션검색 통합 결과 
tLink 
tLink 
tLink 
tLink
2009-11-13 네비게이션검색통합 - Pilot 기술문서 30 
자동태깅 – 방법1: 쿼리로그를 이용한 매칭 
• 
문서에 Hit 된 상위비율의 쿼리를 UserAct_Tag로 배정 
– 
ex) 카페명, 웹사이트 
WeightedSumCafe : 101.026848 SCORE_CAFE : 0.847400 RANK_KCAFE : 0.017986 SCORE_SPAM : 0.000000 COUNT_MEMBER : 42548 REGDT : 20031229 DOCID : j9zS TITLE_INDEX : 효리투게더 TITLE_NGRAM : 효리 리투 투게 게더 효리투 리투게 투게더 효리투게 리투게더 효리투게더 RANK_CAFE : 141 ADMINTAG_TAB : 이효리 USERTAG_TAB : 이효리 효리 효리투게더 이효리앨범 패떴 패밀리가떴다 순창고추장 처음처럼 중국현대자동차 인터파크 USERACT_TAB : 이효리팬카페 USER_SCORE : 효리투게더%.874469 이효리%.496596 효 리%.380031 이효리팬카페%.186413 패밀리가떴다%.13245 USERTAG_MI : 처음처럼%.5631256 효리%.5273429 이효 리%.4691802 패밀리가떴다%.4650547 순창고추 장%.3671090 효리투게더%.3278147 인터파크%.3276483 패떴%.3069022 GRP_CODE : hyolee79 
<< 카페명문서>> 
<< 쿼리 - 키워드 >> 
<< 클릭– 로그>> (키워드-사이트별 선호비율)
2009-11-13 네비게이션검색통합 - Pilot 기술문서 31 
자동태깅 – 방법2: 문서내 단어클러스터링 
• 
실험데이터: 네이버 사이트 Description내 단어 
– 
단어군 상위 10,000개선정(최상위 빈도 30개단어제외) 
– 
동시출현 단어쌍 개수: 2,276,992 개 
자동차 
기아자동차 
명차 
기아 
대우자동차 
마티즈 
칼로스 
차량관리 
신차 
… 
보트 
비행기 
헬기 
rc 
프라모델 
모형 
요금표 
장기대여 
차종 
고속도로 
편의시설 
휴게소 
도로안내 
휴식공간 
고무부품 
부품 
joint 
hose 
서스펜션 
배기 
튜닝 
에어댐 
시트 
타이어 
경정비 
구조변경 
Density=6.4030 
Density=6.6675 
Density=7.0744 
Density=4.1253 
Density=2.0325 
Density=1.5840 
※참조: 민병국-석사논문-2007년-단어연관그래프&단어클러스터링
Pilot 2차 개발 계획서 
• 
관련사례 
• 
관련연구 
• 
참고논문
2009-11-13 네비게이션검색통합 - Pilot 기술문서 33 
Pilot 2차 – 시스템 구조도 
통검플랫폼 
쿼리타입별 UI Template 
검색결과 XML Data 
2-1. 대상쿼리선정 2-2. 출력형태기획 
통합랭킹/중복제거 
<request> HTTP, GET <= 쿼리 <response> HTTP, XML 
토픽맵DB 질의&분석 
컬렉션별 질의&병합 
토픽맵 검색엔진 
버클리 DB & XML 
버클리 DB & XML 
5-1. 모델링요소 
웹사이트 
로컬 
그밖에 컬렉션 
5-2. 데이터구축 
1. 통검플 작업 
3. 필터링/랭킹 
4. 주제연관도 
<request> HTTP, GET <response> HTTP, XML 
<request> HTTP, GET <response> HTTP, XML 
MOA-1 시스템 
MOA-2 시스템
2009-11-13 네비게이션검색통합 - Pilot 기술문서 34 
Pilot 2차 – 작업 사항 
1. 
통검플랫폼팀 작업 
• 
[1] 테스트 통검포맷 UI 입히기 
• 
담당: 통검플랫폼팀 1인 
2. 
통검기획팀 작업 
• 
[2-1] 개발대상 쿼리 선정 
• 
[2-2] 쿼리타입별 검색결과 Template(항목/배치) 디자인 
• 
담당: 통검기획팀 1인 
3. 
검색서비스개발팀 작업 
• 
[3] MOA-1 시스템: 2단계 통합검색, 랭킹, 필터링, 중복제거 
• 
기존 Pilot-1 코드 이용 + 추가 작업 
• 
[4] MOA-2 시스템: XML 기반의 토픽맵 엔진 
• 
SSE 이용 + 링크탐색로직 작업 
• 
[5] 토픽맵 모델링 및 데이터 구축 
• 
담당: 검색서비스개발팀 3인 
※ 지정된 담당자: [3]김성덕, [5]민병국
2009-11-13 네비게이션검색통합 - Pilot 기술문서 35 
Pilot 2차 – 개발 방법론 
• 
XP 개발 방법론 
– 
기획/설계-코딩의 Pair Programming 
– 
스토리카드의 은유적 서술  스파이크  메일/게시판  개발작업 
– 
테스트 위주의 개발(TDD)  짧은 릴리즈  반복적 개발 
기술기획/ 
스파이크기술/ 테스트설계 
코드작성 /테스트 
확인테스트/ 
추가요구기술 
코드작성/ 병합/테스트 
필요시 분업 /모듈코딩 
Next 기술기획 
확인테스트 
/릴리즈 
개발중심/빠른릴리즈(2~3일) 
반복
2009-11-13 네비게이션검색통합 - Pilot 기술문서 36 
토픽맵 설계 – ex) 삼성전자 
토픽 
/어커런스 
관계 (연관성) 
토픽맵 (토픽+관계)
2009-11-13 네비게이션검색통합 - Pilot 기술문서 37 
Pilot 2차 – MOA-1 필터링/랭킹 로직 
1. 
컬렉션별 검색 (r_size만큼) 
2. 
컬렉션별 기준으로 문서의 rankScore 계산 (assAnd, AssOr) 
3. 
컬렉션별로 문서를 정렬 후 짜르기 (w_size만큼) 
4. 
모든 컬렉션 문서를 다 합친 후 중복제거 (sortName 우선순위) 
5. 
전체를 대상으로 다시 rankScore 기준으로 정렬 
6. 
통합랭킹XML 포맷으로출력 
쿼리 입력 
Default 검색 (사이트중심) 
토픽 검색 
Default 검색 (로컬중심) 
TopicMap 검색 (메타데이터) 
dom-moa.py /sax-moa.py 
dom-type1.py 바로가기,사이트 웹문서 
dom-type2.py 바로가기,로컬 사이트 
exist 
not exist
2009-11-13 네비게이션검색통합 - Pilot 기술문서 38 
통합랭킹 XML 포맷 – 구조형/리스트형 
구조형 
리스트형
2009-11-13 네비게이션검색통합 - Pilot 기술문서 39 
topicmap result – 수작업 샘플
2009-11-13 네비게이션검색통합 - Pilot 기술문서 40 
default topic – TYPE1(사이트중심)
2009-11-13 네비게이션검색통합 - Pilot 기술문서 41 
default topic – TYPE2(로컬중심)
2009-11-13 네비게이션검색통합 - Pilot 기술문서 42 
여기까지… 
들어 주셔서 
감사해 요^^
참고자료 – 주제검색관련사례 
• 
관련사례 
• 
관련연구 
• 
참고논문
2009-11-13 네비게이션검색통합 - Pilot 기술문서 44 
참고: 네이트 - 한장검색 
• 
Qry: 몰디브여행 
– 
http://search.nate.com/search/all.html?z=A&s=&tq=&sc=&afc=&q=%B8%F4%B5%F0%BA%EA%BF%A9%C7%E0 
• 몰디브 +- 지도(위치) +- 여행Q&A +- 항공권예약 +- 환율계산 +- 여행 +- 명소 +- 후기 +- 숙소 +- 음식 +- 사진 
• 
추천여행 
• 
스폰서링크
2009-11-13 네비게이션검색통합 - Pilot 기술문서 45 
참고: 구글 - 토픽검색 
• 
Qry: 이영애 
– 
http://www.google.co.kr/topicsearch?q=이영애&hl=ko&btnG=토픽+검색 
• 이영애 +- 귀국 +- 결혼식, 목격 +- 신랑, 남편 +- 대장금 +- 미국, 영어
2009-11-13 네비게이션검색통합 - Pilot 기술문서 46 
참고: 강남구청 - 추론검색 
• 
혼인 
– 
민원안내 
• 
혼인신고 
• 
혼인취소 
– 
민원서식 
– 
민원FAQ 
– 
담당업무 
• 
공통 
– 
담당자, 전화번호 
• 
동사무서별 
– 
개포3동, 대치1동, 도곡2동 
• 
담당부서별 
– 
민원여권과
2009-11-13 네비게이션검색통합 - Pilot 기술문서 47 
참고: 다음 - 영화검색 
• 
Qry: 지아이조 
– 
http://movie.daum.net/search.do?type=all&q=지아이조 
• 지아이조 +- 영화 +- 이미지 +- 동영상 +- 뉴스&매거진 +- 네티즌리뷰 +- 게시판
2009-11-13 네비게이션검색통합 - Pilot 기술문서 48 
관련연구: 용어 상하위 관계 자동구축 방안 
• 
온톨로지의 구축과 학습: 상하위 관계 
– 
용어의 전문성: Spec(t|D) 
• 
가정: 어떤 용어가 도메인 전문적인 정보를 많이 포함하고 있을 때 전문성이 높고, 반대로 일상적인 용어일수록 전문성이 낮다 
• 
용어의 정의 
– 
X = Y + 차별적 의미특징 …(ISO 704) 
X: 정의될 용어, Y: X에 대한 상위개념 
• 
전문성Spec(t|D)를용어t가관찰되는사건x의정보량I(x)로표현 
– 
D는 t의 도메인 
– 
용어간 의미 유사도 
• 
용어의 특징 집합 사이의 포함 관계의 정도를 정량적으로 표현한 것 
• 
두 특징 집합의 일치관계, 포함관계, 부분일치 관계, 불포함 관계를 표현 
– 
계층구조 구축 
• 
용어 t1, t2에서 Spec(t1|D) < Spec(t2|D) 일 때, 용어 t1을 용어 t2의 상위관계로 배치 
)(log)()|(xpxIDtSpec 
<논문> Measuring the Specificity of Terms for Automatic Hierarchy Construction, Pum-Mo Ryu & Key-Sun Choi (2004)
2009-11-13 네비게이션검색통합 - Pilot 기술문서 49 
참고논문 
• 
개념적 맵들의 특성분석을 통한 스토리텔링의 시각화에 관한 연구 – 이지수(2008) 
• 
효율적 지식공유를 위한 토픽맵 기반의 지식맵 서비스 모형 개발 – 김성현(2006) 
• 
토픽맵을 이용한 시소러스의 구조화 연구 – 남영준(2005) 
• 
시소러스와 토픽맵의 연관성 연구 – 남영준(2005) 
• 
토픽맵 기반의 기록정보 검색시스템 구축에 관한 연구 – 권창호(2009) 
• 
The TAO of Topic Maps – Steve Pepper(2000) 
• 
XML Topic Maps and Semantic Web Mining – Benedicte Le Grand, Michel Soto(2001) 
• 
Ontology driven websites with Topic Maps TUTORIAL – Jose Carlos Ramalho, Giovani Rubert Librelotto, Pedro Rangel Henriques(2003) 
• 
Tontology-driven topic maps – Bernard Vatant(2003) 
• 
온톨로지 언어의 비교 연구: W3C OWL과 ISO 토픽맵을 중심으로 – 오삼균(2004)

Contenu connexe

Similaire à 네비게이션 검색 통합 - 민병국(2009)

26607797800 b2-b로_복권_솔루션_제작_및_판매,b2c로_복권사이트_운영하는_업체의_outbound복권서비스_제휴제안서
 26607797800 b2-b로_복권_솔루션_제작_및_판매,b2c로_복권사이트_운영하는_업체의_outbound복권서비스_제휴제안서 26607797800 b2-b로_복권_솔루션_제작_및_판매,b2c로_복권사이트_운영하는_업체의_outbound복권서비스_제휴제안서
26607797800 b2-b로_복권_솔루션_제작_및_판매,b2c로_복권사이트_운영하는_업체의_outbound복권서비스_제휴제안서
saymi76 lee
 
우리에게 플랫폼이란 Print
우리에게 플랫폼이란   Print우리에게 플랫폼이란   Print
우리에게 플랫폼이란 Print
Young Sung Son
 

Similaire à 네비게이션 검색 통합 - 민병국(2009) (20)

시원한성사(2)
시원한성사(2)시원한성사(2)
시원한성사(2)
 
포털 2009년 동향 및 2010년 전망
포털 2009년 동향 및 2010년 전망포털 2009년 동향 및 2010년 전망
포털 2009년 동향 및 2010년 전망
 
20190120 ces2019
20190120 ces201920190120 ces2019
20190120 ces2019
 
우리동네 무비스팟
우리동네 무비스팟우리동네 무비스팟
우리동네 무비스팟
 
2015 Business Platform Day
2015 Business Platform Day2015 Business Platform Day
2015 Business Platform Day
 
2020년 6월 6일 개발 이야기 정리
2020년 6월 6일 개발 이야기 정리2020년 6월 6일 개발 이야기 정리
2020년 6월 6일 개발 이야기 정리
 
26607797800 b2-b로_복권_솔루션_제작_및_판매,b2c로_복권사이트_운영하는_업체의_outbound복권서비스_제휴제안서
 26607797800 b2-b로_복권_솔루션_제작_및_판매,b2c로_복권사이트_운영하는_업체의_outbound복권서비스_제휴제안서 26607797800 b2-b로_복권_솔루션_제작_및_판매,b2c로_복권사이트_운영하는_업체의_outbound복권서비스_제휴제안서
26607797800 b2-b로_복권_솔루션_제작_및_판매,b2c로_복권사이트_운영하는_업체의_outbound복권서비스_제휴제안서
 
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining [Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
 
(팝콘사) 입사지원자를 위한 회사소개 - 개발직, 사무직
(팝콘사) 입사지원자를 위한 회사소개 - 개발직, 사무직(팝콘사) 입사지원자를 위한 회사소개 - 개발직, 사무직
(팝콘사) 입사지원자를 위한 회사소개 - 개발직, 사무직
 
Fraud Detection - online game 과 결제를 중심으로
Fraud Detection - online game 과 결제를 중심으로Fraud Detection - online game 과 결제를 중심으로
Fraud Detection - online game 과 결제를 중심으로
 
음성인식 기반의 지역 캐릭터 시스템
음성인식 기반의 지역 캐릭터 시스템음성인식 기반의 지역 캐릭터 시스템
음성인식 기반의 지역 캐릭터 시스템
 
V1.0 ux 디자인 주차친구 문성호_20121130
V1.0 ux 디자인 주차친구 문성호_20121130V1.0 ux 디자인 주차친구 문성호_20121130
V1.0 ux 디자인 주차친구 문성호_20121130
 
우리에게 플랫폼이란 Print
우리에게 플랫폼이란   Print우리에게 플랫폼이란   Print
우리에게 플랫폼이란 Print
 
소셜 인바운드 마케팅 캠페인 샘플 보고서
소셜 인바운드 마케팅 캠페인 샘플 보고서소셜 인바운드 마케팅 캠페인 샘플 보고서
소셜 인바운드 마케팅 캠페인 샘플 보고서
 
왜 레진코믹스는 구글앱엔진을 선택했나
왜 레진코믹스는 구글앱엔진을 선택했나왜 레진코믹스는 구글앱엔진을 선택했나
왜 레진코믹스는 구글앱엔진을 선택했나
 
Moonos cnc 회사소개서_v5
Moonos cnc 회사소개서_v5Moonos cnc 회사소개서_v5
Moonos cnc 회사소개서_v5
 
MoonosCNC Introduction
MoonosCNC IntroductionMoonosCNC Introduction
MoonosCNC Introduction
 
MoonosCNC Inc Introduce
MoonosCNC Inc Introduce MoonosCNC Inc Introduce
MoonosCNC Inc Introduce
 
[Company b] 스타트업 해외진출 실전 및 마케팅 전략 shawn_2017.10.29_v1.1
[Company b] 스타트업 해외진출 실전 및 마케팅 전략 shawn_2017.10.29_v1.1[Company b] 스타트업 해외진출 실전 및 마케팅 전략 shawn_2017.10.29_v1.1
[Company b] 스타트업 해외진출 실전 및 마케팅 전략 shawn_2017.10.29_v1.1
 
해외민간네트워크(이암허브)
해외민간네트워크(이암허브)해외민간네트워크(이암허브)
해외민간네트워크(이암허브)
 

Plus de 병국 민

Plus de 병국 민 (6)

Survey - 카페 추천 기술기획 (2014-02-10)
Survey - 카페 추천 기술기획 (2014-02-10)Survey - 카페 추천 기술기획 (2014-02-10)
Survey - 카페 추천 기술기획 (2014-02-10)
 
쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213
쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213
쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213
 
민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)
민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)
민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)
 
[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)
 
[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼
[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼
[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼
 
[2007] 논문발표 민병국-단어연관그래프를 이용한 단어 의미의 자동...
[2007] 논문발표 민병국-단어연관그래프를 이용한 단어 의미의 자동...[2007] 논문발표 민병국-단어연관그래프를 이용한 단어 의미의 자동...
[2007] 논문발표 민병국-단어연관그래프를 이용한 단어 의미의 자동...
 

네비게이션 검색 통합 - 민병국(2009)

  • 1. 네비게이션 검색 통합 Project - 기술기획안 검색서비스개발팀 민병국 2009.11.13
  • 2. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 2 개념설명 – 융합(Fusion) cf. 통합(Integration) • Collection Fusion • Data Fusion 웹사이트 Data 웹사이트 Data 로컬 Data 로컬 Data Merge 웹사이트 검색엔진 웹사이트 검색엔진 로컬 검색엔진 로컬 검색엔진 Mapping Data 프론트 엔진&UI 프론트 엔진&UI Link Meta Data 사용자 컬렉션 배치 -선택,정렬 컬렉션 연결 - 2단계쿼리 통합DB - 수작업 - 정확성高 - 비용高 - 범위제한 Vertical 검색 Horizontal 검색 Vertical 검색 1. 검색결과의 의미적 구조화 2. 검색결과의 선택/정렬 3. 검색결과의 통합
  • 3. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 3 목차 • 프로젝트 개요 • 검색 통합의 목적 – 통검쿼리 분석 • Pilot 1차 버전 리뷰 및 문제점 • 토픽맵 소개 및 모델링 예제 – 토픽/연계/어커런스, 토픽병합 – 토픽맵의 검색엔진 적용시 모델 샘플: 삼성전자 • Pilot 2차 버전 계획 및 설계 삼성 1942 기업인 카트 1994 게이머
  • 4. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 4 프로젝트 개요 • 쿼리 통합 대응 – 바로가기, 사이트(&디렉토리), 로컬, 웹, 블로그, 카페 • 중복 검색결과 제거 – 검색결과 통합 과정에서 중복 URL 제거 • 검색결과 통합의 의미적 구조화 – 낮은 수준의 의미적 연결 • 검색결과의 정확도(Precision) 향상 – 연관검색 첨가, 스트링 매칭의 매칭 오류 감소 ex) Query ‘훼미리마트’  명가패밀리마트, 모나와 훼미리마트타이쿤
  • 5. 검색 통합의 방향 • 통합검색쿼리 분석
  • 6. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 6 통검쿼리 상위 리뷰(1/2) • 2008.5.8일자 1-150위 (40634회~870회) – 논문: 질의유형에 맞추어 검색효율을 높이려는 연구, Kang and Kim, 2003 • 쿼리를 3가지 유형으로 분류하여 특성 분석: 네비게이션/정보/트랜잭션 구분 개수 쿼리 사이트 찾기 (네비게이션) 99 네이버/ 사이월드/ 옥션/ 야후/ 국민은행/ 온에어/ g마켓/ 와와디스켓/ 우리은행/ 엣홈 / 더쇼룸 / 파일코리아 / 지마켓 / 신한은행 / 집코리아 / cgv / 인터파크 / 다음 / 네이트 / 구글 / 넷마블 / 이로모 / 네이트온 / 한게임 / 농협인터넷뱅킹 / kbs / 농협 / 세이클럽 / 서든어택 / mbc / 위디스크 / 판도라tv / 엠파스 / 아이템매니아 / 삼성카드 / 던파 / 팍스넷 / 보배드림 / 아이템베이 / 롯데닷컴 / 파란 / 파일노리 / 하나은행 / 대한항공 / 워크넷 / sbs / 신한카드 / 롯데시네마 / 멜론 / 현대카드 / 곰플레이어 / 피망 / 국민은행인터넷뱅킹 / 와우인벤 / 기업은 행 / 스포츠조선 / 미래에셋증권 / 다나와 / ktf / 삼성전자 / 버디버디 / 알바몬 / 교보문고 / 외 환은행 / 이랜드노동조합 / 이랜드일반노동조합 / 십이지천2 / gs홈쇼핑 / 와우메카 / 현대자 동차 / 동양종금 / 메이플스토리 / 판도라 / 아고라 / 조선일보 / 사람인 / 스포츠서울 / 소리바 다 / sk텔레콤 / 국세청 / 롯데카드 / 부동산114 / 리니지 / 롯데백화점 / 모키 / 싸이월드미니 홈피 / 클럽박스 / t월드 / 홀인원비뇨기과 / 이마트 / 벅스뮤직 / 롯데홈쇼핑 / 신한은행인터넷 뱅킹 / 엠파일 / 교차로 / 애니콜 / 벼룩시장 정보 찾기 (뉴스,질의응답) 26 야마다유 / 문지은 / 이명박 / 조경태 / 이명박탄핵 / 지수원 / 광우병 / 오구리순 / 이계진 / 소 녀시대 / 박용하 / 후(신인가수) / 빅뱅 / 쇠고기청문회 / 박선주 / 김시향 / 다나카미호 / 화분 (알렉스노래) / 송윤아 / 어버이날 / 정운천 / 창업 / 진중권 / 이토히데아키 / 청문회 / 알렉스 서비스 찾기 (트랜잭션) 25 이명박탄핵서명 / 아이언맨 / 환율 / 지하철노선도 / 스피드레이서 / 옥션정보유출확인방법 / 날씨 / 온에어18회 / 영화 / 100분토론 / 지도 / 웹하드 / 블리치169화 / 로또당첨번호 / stx팬 오션 / 삼성중공업 / 아현동마님 / 아빠셋엄마하나 / 일지매 / 너는내운명 / 탄핵서명 / 블리치 168화 / 곰플레이어최신버전다운로드 / 우편번호검색 / 로또 /
  • 7. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 7 쿼리의 목적 – 사이트/정보/서비스 • Q:네이버 – 사이트 찾기 • Naver 사이트 • Naver 하부사이트 • NHN 사이트 – 정보 찾기 • 기업개요, 주식시세 • 백과사전, 위키 • 사옥위치/지도, 주소 • 대표전화, 서비스상담 • 이미지, 동영상CF • 뉴스 – 서비스 찾기 • 메일 • 검색 • 카페 • 블로그 • 미투데이 • Q:이효리 – 사이트 찾기 • 이효리 팬홈페이지 • 이효리 팬카페 • 이효리 소속사 사이트 – 정보 찾기 • 프로필, 위키 • TV방송, 콘서트, 앨범 • 사진, 동영상, 음악 • 뉴스 – 서비스 찾기 • 음악 들어보기 • Q:홍대 클럽 – 사이트 찾기 • 홍대 클럽 사이트 – 정보 찾기 • 홍대지역 클럽위치/지 도 • 홍대클럽관련 뉴스 • 홍대클럽관련 블로그/ 후기/추천글 • 홍대클럽 사진/동영상 • 홍대클럽 이벤트/공연 – 서비스 찾기 • 홍대 클럽 카페 가입 • “쿼리 is a 주제”인 경우 • 사이트 정보가 (1) 중복없이 (2) 연 관성 있게 정리되어 (3)빠짐없이 출 력되길 바람. 이런 경우 상하좌우 주 제로 1 Depth의 의미확장 필요. •“쿼리 is a 주제”인경우 • 사이트 정보가 (1) 중복없이 (2) 연 관성 있게 정리되어 (3)빠짐없이 출 력되길 바람. 이런 경우 상하좌우 주 제로 1 Depth의 의미확장 필요. • “쿼리 belongs to 주제”인 경우 • 쿼리에 관한 주제를 가장 많이 찾 을 수 있는 사이트를 원함. 불충분한 내용의 사이트는 사양. 예) 이효리가 곁다리로 출연한 가수C양의 콘서트 (x) •“쿼리 belongs to 주제”인경우 • 쿼리에 관한 주제를 가장 많이 찾 을 수 있는 사이트를 원함. 불충분한 내용의 사이트는 사양. 예) 이효리가 곁다리로 출연한 가수C양의 콘서트 (x) • “쿼리 locateIn and hasType 주제” 인 경우 • 사이트 정보가 (1) 주제의 속성을 만족하며 (2) 제시된 속성과 연관있 는 내용만 출력되길 바람, 예) 홍대 가 아닌 지역의 클럽, 홍대의 술집(x) •“쿼리locateIn and hasType 주제” 인경우 • 사이트 정보가 (1) 주제의 속성을 만족하며 (2) 제시된 속성과 연관있 는 내용만 출력되길 바람, 예) 홍대 가 아닌 지역의 클럽, 홍대의 술집(x)
  • 8. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 8 네비게이션 쿼리의 예 - 범어사 • 범어사(梵魚寺) – 금정산에있는절.678 년 신라 문무왕 시절에 의 상에 의해서 지어짐. 후 에 조계종으로 합쳐진 화 엄종의 10대 사찰 안에 속했음. • 범어사 – 위치: 부산 금정구 – 건물: 사찰 – 종교: 불교 – 관광지: 보물 – 정보자원: 블로그/카페/ 사진/동영상/사이트 등.. X X X X
  • 9. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 9 사이트 쿼리 통합의 구축 방안 • Bottom-up – 신규 컬렉션 생성 • Top-down – 메타 데이터 생성 • 현행 자원 이용 – 웹사이트 검색 개편 – 바로가기 모음 ※ 더 큰걸 바라보면 어떨까??
  • 10. Pilot 1차 버전 리뷰 & 문제점 • 1차 기획 내용 • 1차 개발 내용 • 데이터 샘플 • 문제점
  • 11. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 11 Pilot – 1차 버전 – 기획 • 핵심 아이디어 – 노출 타입별 멀티 컬렉션 검색 • 사이트 통합화면 노출 타입 – 기본타입 • 대표사이트 + 하위사이트 • 바로가기 + 스폰서링크 + 사이트 – 검색포털타입: 네이버, 네이트, 야후, 구글, 빙 등.. • 대표사이트 + 하위사이트 • 바로가기 + 스폰서링크 + 사이트 – 대표번호 타입: 프랜차이즈, 통신사, 금융 등.. • 대표사이트 + 전화번호 + 하위사이트 • 대표사이트 + 전화번호 + 하위사이트 + 지도(지점안내) • 바로가기 + 스폰서링크 + 대표사이트 + 전화번호 + 하위 사이트 – 개별전화번호 타입: 대표번호가 없는 경우, 요식업, 학원 등.. • 대표사이트 + 하위사이트 + 지도(지점안내&전화번호) • 바로가기 + 스폰서링크 + 대표사이트 + 하위사이트 + 지도(지점안내&전화번호) – 지점 타입: 백화점, 영화관, 마트 등.. • 대표사이트 + 하위사이트 + <숨김/펼침>지점안내 • 바로가기 + 스폰서링크 + 대표사이트 + 하위사이트 + <숨김/펼침>지점안내 – 1:1 타입: 사이트&지역정보가 유일한 쿼리 • 사이트+지역정보+(길찾기)+(대중교통정보) • 동일명칭 사이트 다수
  • 12. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 12 Pilot – 1차 버전 – 개발 1. 쿼리 입력 - 등록된 모든 컬렉션에 고정검색 2. 바로가기 검색 - Exact 키워드(자원) 검색 - siteseq 출력 3. 웹사이트 검색(메타데이터) - docid = siteseq 를 검색 - 사이트의 dirseq 출력 4. 디렉토리 검색(연관사이트) - dirseq를 통해 같은 트리의 사이 트검색 : 내부(하위) 또는 연관 : <dirseq>&<키워드> 조건검색 - 다수의 docid 출력 5. 메타데이터로 추가 검색 - 로컬 대상 ‘키워드’ 검색 6. 검색결과 통합 및 UI 포장 출력 - 랭킹 없음 10.31.254.121 (웹서버/Python) 10.10.40.246 (웹서버/Python) 바로가기 (10.30.40.172) 2 웹사이트 (10.20.253.180) 3 디렉토리 (211.115.77.9) 4 로컬 + etc 5 통합검색결과 query siteseq docid dirseq dirseq docid ※ 비고: 빨간네모는 입력, 파란네모는 출력을 의미 점선은 Request(요청), 실선은 Response(응답)을 의미 1 6 Pilot-1차 버전 검색 Flow
  • 13. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 13 Talkro Schema – 웹사이트 ^[START] ^[path_dir_rank] 4907 318 35 2 ^[issue_score] 10337789 ^[recommand_yn] N ^[new_yn] N ^[rank_score_rank] 11071 ^[popular_star_count] 1 ^[siteurl1_hilight] http://www.dell.co.kr/ ^[siteurl1_disp] http://www.dell.co.kr/ ^[idpath] 110 164 126 199386 ^[dirseq] 199386 ^[history_yn] Y ^[clickkeyvalue] dell%5.0491 dellcomputer%0.6376 delllaptop%0.1952 dellpc%0.9299 dellserver%1.3823 dell노트북%3.8187 dell서 버%2.6518 dell워크스테이션%1.0196 dell컴퓨터%4.4954 workstation%0.3224 workstation노트북%0.0564 www.dell.co.kr%0.1723 노트북델%1.3202 노트북워크스테이션%0.3612 델%5.111 델pc%1.4088 델노트북%3.2425 델서 버%1.1732 델서버컴퓨터%0.0246 델서버판매%0.3189 델워크스테이션%0.5552 델컴퓨터%6.4329 ((중략)) ^[path_ko_title] 비즈니스, 쇼핑^컴퓨터, 인터넷^하드웨어^델 컴퓨터 ^[detail_dead_yn] Y^N ^[siteurl1_link] http://www.dell.co.kr/ ^[week_uv] 5213 ^[hiddentitle_index] dell|dellcomputer|dell노트북|dell컴퓨터|델|델pc|델노트북|한국델컴퓨터| ^[clickkey] dell dellcomputer delllaptop dellpc dellserver dell노트북 dell서버 dell워크스테이션 dell컴퓨터 workstation workstation노트 북 www.dell.co.kr 노트북델 노트북워크스테이션 델 델pc 델노트북 델서버 델서버컴퓨터 델서버판매 델워크스테이션 델컴퓨터 ((중 략)) ^[manualkey] 미니넷북 ^[sitedesc] 데스크탑, 미니 노트북, 넷북, 워크스테이션, 서버, 스토리지, PC 판매. ^[fchar_eng] 0델컴퓨터 ^[sitetitle_index] 델컴퓨터 ^[rank_score] 475.415633097346 ^[manualkeyvalue] 미니넷북%3 ^[official_yn] N ^[url_name] dell dell.co.kr www.dell.co.kr http://www.dell.co.kr http://www.dell.co.kr/ http://www.dell.co.kr http://www.dell.co.kr/ ^[sitetitle_load] 델컴퓨터 ^[siteseq] 588427 ^[localmap_yn_locate_xy] N ^[rank_score_rank_variation] 2527 ^[dirflag] 0 ^[END] 1 1 keyword[0] 델컴퓨터 & title[0] 델컴퓨터 & url[0] http://www.dell.co.kr/ & linkurl[0] http://www.dell.co.kr/ & siteseq[0] 588427 & << 바로가기>>
  • 14. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 14 Talkro Schema – 디렉토리 ^[start] ^[dirseq] 199386 ^[kotitle_index] 델 컴퓨터 ^[kotitle_rank] 델컴퓨터 ^[entitle] Dell Computer ^[keyword] dell컴퓨터 ^[adult_yn] N ^[dir_cnt] 0 ^[site_cnt] 3 ^[site_dir_cnt] 3 ^[manualkey] ^[manualkeyvalue] ^[path_dirseq] 110 164 126 199386 ^[path_kotitle] 비즈니스, 쇼핑|컴퓨터, 인터넷|하드웨어|델 컴퓨터 ^[path_entitle] Business_Shopping|Computers_Internet|Hardware|Dell_Computer ^[shortpath_dirseq] 164 126 199386 ^[shortpath_kotitle] 컴퓨터, 인터넷|하드웨어|델 컴퓨터 ^[rank_score_sum] 139387 ^[dir_level] 4 ^[end] 바로가기 바로가기 웹사이트 웹사이트 디렉토리 디렉토리 로컬 로컬 siteseq dirseq 키워드 << ‘델컴퓨터’ 연결구조 >> ※스트링매칭의 검색 이라 무엇이나올지 보 장할 수 없다. ※고정된id로 보장된 결과가 나오지만 연결 구조가 주제별로 기준 이 이질적이거나 짬뽕.
  • 15. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 15 Talkro Schema – 로컬 ^[START] ^[DOCID] P782652 ^[NEW_DOCID] 9728531 ^[CORP_O_INDEX] 델컴퓨터코리아(주) ^[CORP_NS_INDEX1] 델컴퓨터코리아(주) ^[CORP_NS_INDEX2] 델컴퓨터코리아(주) ^[CORP_SYN_INDEX] ^[MANUAL_KEYWORD] ^[CORP_NS_LEN] 26 ^[HOMEPAGE] ^[POINT_X] 506675 ^[POINT_Y] 1107648 ^[ADDRESS] 서울서초구서초동 1339-9 ^[HOUSE_M_YN] N ^[HOUSE_NUM1] 1339 ^[HOUSE_NUM1_SORT] 1339 ^[HOUSE_NUM2] 9 ^[ZIPCODE] 137-070 ^[PHONE_DISPLAY] 02-2194-6000 ^[PHONE_INDEX] 02-2194-6000,2194-6000 ^[PHONE_SYN_DISPLAY] ^[PHONE_SYN_INDEX] ^[PHONE_YN] Y ^[LCODE_DEPTH1] II ^[LCODE_DEPTH2] I1014 ^[LCODE_DEPTH3] I10140300 ^[LNAME_DEPTH1] 서울 ^[LNAME_DEPTH2] 서초구 ^[LNAME_DEPTH3] 서초동 ^[LNAME_DEPTH2_UP] ^[LNAME_DEPTH3_UP] 서초동 ^[CATE_ID_DEPTH1] 7 ^[CATE_ID_DEPTH2] 147 ^[CATE_ID_DEPTH3] 215 ^[CATE_NAME_DEPTH1] 서비스,산업 ^[CATE_NAME_DEPTH2] 정보통신,IT ^[CATE_NAME_DEPTH3] 소프트웨어 ^[CATE_SYN_DEPTH1] C7; 서비스,산업; 기타업종; 기타업종일반; 서비스; 산업; ^[CATE_SYN_DEPTH2] C147; 정보통신,IT; 정보통신; IT; ^[CATE_SYN_DEPTH3] C215; 소프트웨어; 그래픽; CAD; CAM; 캐드; 캠; CAD학원; 맥스; 맥스학원; 캐드전문학원; 캐드학원; 비즈니스소프트웨어; 경영소프트웨어; 소프트웨어; 소프트웨어개발; 소프트웨어게임판매; 전산개발; 프로그램개발; 회계소프트웨어; 재무소프트웨어; .. (( 계속 )) .. ^[LAST_CATE_DEPTH] 3 ^[LAST_CATE_ID] 215 ^[LAST_CATE_NAME] 소프트웨어 ^[CP] P ^[SOURCE] koid ^[SOURCE_ID] ^[THUMNAIL] ^[TVSHOW_NAME] ^[TVSHOW_ID] ^[STAR] 0 ^[COUNT_RATING] 0 ^[COMMENT] ^[REPLY_CONTENTS] ^[REPLY_COUNT] 0 ^[REVIEW_ID] ^[REVIEW_CONTENTS] ^[REVIEW_URL] ^[REVIEW_COUNT] 0 ^[BLOG_REVIEW_COUNT] 0 ^[COUNT_READ] 219 ^[PHOTO_COUNT] 0 ^[REP_MENU] ^[PRICE] ^[PRICE_ID] ^[PRICE_1] 0 ^[PRICE_2] 0 ^[PRICE_3] 0 ^[BRAND] ^[MODDTTM] 20090918201336 ^[LOCAL_PRIORITY] 1 ^[DOC_PRIORITY] B ^[SP_CATEGORY_YN] N ^[CORP_SCORE] 100199 ^[ADULT_FLAG] 0 ^[THUMNAIL_YN] N ^[END] 델델컴컴퓨퓨터터코코리리아아㈜㈜ 델컴퓨터-강원.원주 델컴퓨터-강원.원주 델컴퓨터-충북.진천 델컴퓨터-충북.진천 델컴퓨터-경기.안양 델컴퓨터-경기.안양 델컴퓨터제천OA전산 -충북.제천 델컴퓨터제천OA전산 -충북.제천 델컴퓨터-충북.제천 델컴퓨터-충북.제천 델컴퓨터장락점-충북.제천 델컴퓨터장락점-충북.제천 델컴퓨터코리아A/S(서비스) 델컴퓨터코리아A/S(서비스) … << 1-Level 트리구조 >>
  • 16. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 16 Pilot – 1차 버전 – 문제점 • 빈약한 랭킹요소 – 사이트 • 키워드, 사이트 랭킹 • 데이터 구조 중심의 검색 결과  사용자관심중심필요 – 바로가기/사이트/지역정보 등 개별적인 랭킹과 관심사항이 다름 – 통합된 관점에서의 랭킹 필요 • ex) 훼미리마트 vs 명가 훼미리마트, 모나와 훼미리마트타이쿤 • 메타데이터의 불완전성 – DirSeq가 서로 다른 기준으로 분류되어 있음 • ex) 훼미리마트  편의점 vs 삼성전자 서비스센터  삼성전자 – ID 방식의 연결값이 없으면 스트링매칭이 되어 불완전 검색 노출 • 데이터 가공비용 – siteseq(=docid), dirseq 등 필드의 명칭과 값범위, 값기준이 다름 – 새로운 연결관계를 문서데이터 상에서 구축시 문서크기에 비용 비례
  • 17. 토픽맵 소개 및 검색엔진으로의 적용 • 토픽맵 개념 • 토픽/연계/어커런스 • 토픽맵 병합 • 토픽맵 데이터모델 • 검색엔진 적용방안 – 초간단 버전
  • 18. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 18 지식층 정보층 토픽맵 – ISO국제표준 지식표현모델 • 이중구조 – 지식층(Knowledge Layer) • 지식의 구조 표현 – 정보층(Information Layer) • 지식의 구조와 연관된 컨텐츠의 위치 정보 • 구성요소 – 토픽(Topic) • Type, Name – 어커런스(Occurrence) • Type, Name – 관계(Association) • Type 박유전 서편제 동편제 순창 wasBorn doSinging doSinging 이미지 웹문서 DB자료 뉴스 동영상 이미지 음악 지도
  • 19. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 19 토픽맵 – 개요(1) • 토픽(Topic) – 주제 혹은 개념을 표현 (기존 분류체계의 subject와 유사) – 하나의 이상의 이름 부여 가능 • base name, display name, sort name – 토픽 타입(Type): 유사 의미를 갖는 인스턴스들을 묶는 역할 • 토픽 is-a 토픽타입: 토픽타입은 토픽(instance)의 클래스(class) • ex) ‘범어사’의 토픽타입  건물, 지명, 사진, 웹사이트, 전화번호, 지도 • 어커런스(Occurrence) – 토픽의 관점에서 토픽에 해당하는 자원을 연결 – ex) ‘범어사’: 문서(리뷰/블로그/카페글), 이미지, 지도 • 썸네일: http://imgsrc.search.daum-img.net/special_search/special/0711/071109212606_2 • URL: http://www.beomeosa.co.kr • Daum지도: http://local.daum.net/place/place_view.daum?place_id=P38909 • 블로그(리뷰): http://www.internetmap.kr/1122
  • 20. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 20 토픽맵 – 개요(2) • 연계(Association) – 토픽과 토픽을 연결시켜 주는 관계를 표현  토픽맵 형성 – 어떤 토픽 간의 관계도 설정할 수 있음 • cf. 시소러스: BT(상위),RT(연관),NT(하위)  의미확장 – ex) 삼성전자 – <가전제품/브랜드> - 애니콜, 하우젠, 지펠 다음 - <웹서비스/내부사이트> - TV팟, 뉴스, 카페, 검색 cf. 다음 - <null> - 다음소프트: Empty Assoication(Wrong!!) • 토픽맵의 병합(Merge) – 토픽맵 간의 의미 분석 결과에 따라 매핑률(%)을 적용함으로써 유사한 토픽들을 병합 (토픽맵의 병합/토픽의 병합) – 병합규칙: 주제 식별자가 같거나 룰(rule)을 따르면 두 토픽을 병합(중복제거) • rule: IF title(토픽A) = title(토픽B) or url(토픽A) = url(토픽B) then  mergeMap(토픽A,토픽B) • ex) IF url(삼성전자@사이트) = url(삼성전자@웹문서) then mergeMap(삼성전자) – XML 기반의 토픽맵은 추론이 가능: 연계에 의한 토픽 탐색 • cf. 일반 검색엔진에서 토픽 탐색은 구조적으로 1-Level 만 가능(제한사항)  검색엔진에 적합한 모델링 필요
  • 21. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 21 토픽맵 – 기술언어 XTM
  • 22. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 22 토픽맵 – 데이터모델 예제 • 보건산업기술분류체계의 토픽맵 명세서 설계 – <논문> 효율적 지식공유를 위한 토픽맵 기반의 지식맵 서비스 모형 개발, pp.89-90 Type Description Business Reference Model 보건복지분야의 정부기능분류모델. 상하/하위 레벨관계는 PartOf으로 함. Department 행정부처 Health Industry Technology Classification 보건산업기술분류체계 Knowledge Document 업무지식의 지식표현. 더블린코어의 데이터 요소를 어커런스로 정의함. Language 업무지식의 언어 형태를 표현 Team 행정부처의 부서 Person Team의 구성원 Rights 업무지식의 권한관리를 표현 Type Description Belongs to 보건산업기술분류체계와 업무지식과의 관계 Has language 업무지식과 언어와의 상관관계를 표현 Has right 업무지식과 권한관계를 설명 Has role 정의된 연계에 대한 토픽간의 관계를 정의 Has type 업무지식의 형태와의 관계를 정의 Is Conducted by 구성원과 정부기능분류모델의 수행관계 표현 Is Controlled by 정부기능분류모델을 컨트롤 함. Is Produced by 구성원에 의한 업무지식 생성관계를 정의 Is Published by 업무지식의 출처 관계를 정의 Is Managed by 정부기능분류체계의 관계를 정의 Superclass/subclass Superclass/subclass works in works in Type DataType Size Description Title String 50 표제 Subject String 50 주제 description String 50 설명 Relation String 50 관계 Coverage String 50 내용범위 Identifier String 50 식별자 Publisher String 50 발행처 Source String 50 출처 Language String 50 언어 Creator String 50 제작자 Contributor String 50 기타제작자 Right String 50 권한관리 Type String 50 자료유형 Format String 50 표현양식 Date Date date Date ■ Occurrence Type 명세서 ■ Topic Type 명세서 ■ Association Type 명세서
  • 23. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 23 쿼리 – 주제(Topic) – 문서 • 2-Phase 검색 구조 – 1단계: 토픽맵검색 • TopicType: 토픽맵 범위 • Association: 연계토픽 한정자(토픽맵) • Occurrence: 문서집합 한정자(토픽) – 2단계: 컬렉션별 문서검색 • 기존 검색: 키워드 + 조건 • 랭킹요소 – 로그/Hit • 쿼리와 토픽이 가까운 정도를 클릭비 율로 반영 • UserAct_Tag%가중치 방식 – 필드/태그 • 양질의 문서가 주어진 토픽에 얼마나 충실한가를 반영 • 만족되는 필드의 수와 필드별 검색 정 확도 杔億 棸沕免䌀䌬䍇䍈䍁䌻䌥䌹䍈䌁 劐塴愩況 AAssssoocciiaattiioonn Occurrence Occurrence 冬栘䫈廌梈 로그/Hit 필드/태그 <랭킹요소> <랭킹요소> 바로가기, 웹사이트 (디렉토리), 로컬, 블 로그, 카페
  • 24. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 24 지식표현모델 – 시소러스 vs 토픽맵 • 토픽(Topic) – 삼성전자 – 삼성전자 다운로드센터 – 삼성전자 서비스센터 – 삼성전자 반도체 – 애니콜 – 지펠 – 하우젠 • 관계(Association): 시소러스 – 연관 사이트(&동의/유사) – 하위 사이트(좁은) – 상위 사이트(넓은) • 대상물(Occurrence) – URL – 컬렉션 문서 URL • 바로가기, 사이트, 로컬 • 웹문서 • 블로그, 카페명 삼성전자 삼성전자 서비스센터 삼성전자 반도체 애니콜 삼성전자 다운로드센터 http://삼성전자 URL 지펠 하우젠 http://삼성전자/다운로드센터 http://삼성전자-서비스센터 http://애니콜 http://지펠 http://하우젠 http://삼성전자-반도체 URL URL URL URL URL URL 사이트 로컬 웹문서 바로가기 블로그 카페 RT NT BT RT NT BT 토픽타입: 사이트
  • 25. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 25 웹사이트 토픽타입 – 초간단 버전의 토픽맵 • 삼성전자 – 토픽Type: web (※전체Type: web/person/place/brand/group) – 연계Type • <web> super/sub – Topic of sub(삼성전자): 삼성전자 다운로드센터, 삼성전자 서비스센터 • <brand> product/maker – Topic of product(삼성전자): 삼성전자 반도체, 애니콜, 지펠, 하우젠 • <person> actor – Topic of actor(삼성전자): 이건희(삼성), 이재용(삼성), cf. ‘이부진’(장녀) – ‘이건희’와만관계있음 • <place> head/branch – Topic of head(삼성전자): 삼성전자본사(강남역) – Topic of branch(삼성전자): 삼성전자 서비스센터(…), 삼성플라자(…) – 어커런스Type • 컬렉션_쿼리URL: 하나 이상 이상 가능 – 이건희인물^http://search.daum.net/search?w=tot&q=%B1%E2%BE%F7%C0%CE%20%C0%CC%B0%C7%C8%F1&ppkey=25368 – 삼성전자 사이트^http://search.daum.net/search?w=dir&m=site&lpp=10&q=%BB%EF%BC%BA%C0%FC%C0%DA • 연관태그: 연결되는 토픽, ex) tag(이건희) 삼성%.99,기업가%.56,1942생%.35 • topicID, 썸네일, 명칭_display, 명칭_base, 명칭_sort 삼성전자 web sub 삼성전자 다운로드센터 삼성전자 web sub 삼성전자 서비스센터 삼성전자 web product 삼성전자 반도체 삼성전자 web product 애니콜 web web brand brand 삼성전자 web actor 이건희 person 토픽_p p_Typ ass 토픽_n n_Typ << association 검색>> 삼성전자 애니콜 s서비스 삼성본사 이건희 tBase 113113 113114 113115 113116 113117 tID 전자, 대기업 삼성전자, 핸드폰 삼성전자, 서비스센터 서울 서초구, 강남역 삼성, 기업가, 1942생 tAss web brand web place person tTyp 사이트_http://.. tLink 사이트_http://.. 사이트_http://.. 로컬_http://.. 인물_http://.. << topic 검색>>
  • 26. Pilot 2차 버전 설계 & 개발 계획 • Pilot 2차 개발범위 • Pilot 2차 버전의 동작 Flow • 랭킹요소 – 로그, 태그
  • 27. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 27 개발범위 • Task1: View 파트 – 쿼리별 토픽타입 설정 – 토픽타입별 출력 Template – 노출대상의 조정 정책 • ex) ‘인물’ 쿼리Type에서 로컬은 1개, 또는 정확도 0.9점 이상만 출력 • Task2: Control 파트 – 2 Phase Retrieval 로직 구현 – 검색결과 중복제거 – 랭킹: 클릭점수 + 태그매칭점수 • Task3: Model 파트 – Topic, Association, Occurrence 타입 설계 – 초기 토픽맵으로 스키마 구성 – 검색엔진 설치 및 태그/링크 데 이터 수동구축 검색결과 UI & 토픽타입 설정 토픽맵 데이터 모델링 & 태그/링크 수동구축 2PR 통합랭킹 & 중복제거 + 토픽타입별 기획요소 토픽타입별 기획요소 + 텍스트마이닝 (자동태깅) 텍스트마이닝 (자동태깅) + 쿼리 주제연관도 (로그분석) 쿼리 주제연관도 (로그분석) Task: 1 Task: 3 Task: 2
  • 28. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 28 Pilot – 2차 버전 – 토픽맵 검색 1. 쿼리 입력 2. 토픽맵 검색(메타데이터,clues) 3. 웹사이트 검색 4. 디렉토리 검색 5. 로컬 검색 6. 검색결과 통합 및 UI 포장 출력 - 중복결과 제거 - 통합랭킹 적용 - 토픽타입별 노출 Template 10.31.254.121 (웹서버/Python) 10.10.40.246 (웹서버/Python) 웹사이트 (10.20.253.180) 3 디렉토리 (211.115.77.9) 4 로컬 (spb-local-idx01) 5 토픽맵 검색 2 통합검색결과 ※ 비고: 빨간네모는 실제데이터, 파란네모는 메타데이터를 의미 점선은 Request(요청), 실선은 Response(응답)을 의미 1 6 Pilot-2차 버전 검색 Flow 토픽Type결정 (Template) 컬렉션 쿼리Template 확장쿼리용 clues 토픽 병합(rule) &중복제거 Assocation 조건을 만족시키는 Occurrencs만검색
  • 29. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 29 Pilot – 2차 – Data Flow web_삼성전자 wiki_삼성전자 sub사이트 브랜드사이트 person _이건희 로컬 _본사 로컬_지점 (서비스/플라자) 삼성전자 web sub 삼성전자 다운로드센터 삼성전자 web sub 삼성전자 서비스센터 삼성전자 web product 삼성전자 반도체 삼성전자 web product 애니콜 web web brand brand 삼성전자 web actor 이건희 person 토픽_p p_Typ ass 토픽_n n_Typ << association 검색>> 삼성전자 애니콜 s서비스 삼성본사 이건희 tBase 113113 113114 113115 113116 113117 tID 전자, 대기업 삼성전자, 핸드폰 삼성전자, 서비스센터 서울 서초구, 강남역 삼성, 기업가, 1942생 tAss web brand web place person tTyp 사이트_http://.. tLink 사이트_http://.. 사이트_http://.. 로컬_http://.. 인물_http://.. << topic 검색>> 토픽맵 검색 & 중복제거 사이트 컬렉션 사이트 컬렉션 로컬 컬렉션 로컬 컬렉션 블로그 컬렉션 블로그 컬렉션 카페 컬렉션 카페 컬렉션 토픽Type별 Template & 노출정책 네비게이션검색 통합 결과 tLink tLink tLink tLink
  • 30. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 30 자동태깅 – 방법1: 쿼리로그를 이용한 매칭 • 문서에 Hit 된 상위비율의 쿼리를 UserAct_Tag로 배정 – ex) 카페명, 웹사이트 WeightedSumCafe : 101.026848 SCORE_CAFE : 0.847400 RANK_KCAFE : 0.017986 SCORE_SPAM : 0.000000 COUNT_MEMBER : 42548 REGDT : 20031229 DOCID : j9zS TITLE_INDEX : 효리투게더 TITLE_NGRAM : 효리 리투 투게 게더 효리투 리투게 투게더 효리투게 리투게더 효리투게더 RANK_CAFE : 141 ADMINTAG_TAB : 이효리 USERTAG_TAB : 이효리 효리 효리투게더 이효리앨범 패떴 패밀리가떴다 순창고추장 처음처럼 중국현대자동차 인터파크 USERACT_TAB : 이효리팬카페 USER_SCORE : 효리투게더%.874469 이효리%.496596 효 리%.380031 이효리팬카페%.186413 패밀리가떴다%.13245 USERTAG_MI : 처음처럼%.5631256 효리%.5273429 이효 리%.4691802 패밀리가떴다%.4650547 순창고추 장%.3671090 효리투게더%.3278147 인터파크%.3276483 패떴%.3069022 GRP_CODE : hyolee79 << 카페명문서>> << 쿼리 - 키워드 >> << 클릭– 로그>> (키워드-사이트별 선호비율)
  • 31. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 31 자동태깅 – 방법2: 문서내 단어클러스터링 • 실험데이터: 네이버 사이트 Description내 단어 – 단어군 상위 10,000개선정(최상위 빈도 30개단어제외) – 동시출현 단어쌍 개수: 2,276,992 개 자동차 기아자동차 명차 기아 대우자동차 마티즈 칼로스 차량관리 신차 … 보트 비행기 헬기 rc 프라모델 모형 요금표 장기대여 차종 고속도로 편의시설 휴게소 도로안내 휴식공간 고무부품 부품 joint hose 서스펜션 배기 튜닝 에어댐 시트 타이어 경정비 구조변경 Density=6.4030 Density=6.6675 Density=7.0744 Density=4.1253 Density=2.0325 Density=1.5840 ※참조: 민병국-석사논문-2007년-단어연관그래프&단어클러스터링
  • 32. Pilot 2차 개발 계획서 • 관련사례 • 관련연구 • 참고논문
  • 33. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 33 Pilot 2차 – 시스템 구조도 통검플랫폼 쿼리타입별 UI Template 검색결과 XML Data 2-1. 대상쿼리선정 2-2. 출력형태기획 통합랭킹/중복제거 <request> HTTP, GET <= 쿼리 <response> HTTP, XML 토픽맵DB 질의&분석 컬렉션별 질의&병합 토픽맵 검색엔진 버클리 DB & XML 버클리 DB & XML 5-1. 모델링요소 웹사이트 로컬 그밖에 컬렉션 5-2. 데이터구축 1. 통검플 작업 3. 필터링/랭킹 4. 주제연관도 <request> HTTP, GET <response> HTTP, XML <request> HTTP, GET <response> HTTP, XML MOA-1 시스템 MOA-2 시스템
  • 34. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 34 Pilot 2차 – 작업 사항 1. 통검플랫폼팀 작업 • [1] 테스트 통검포맷 UI 입히기 • 담당: 통검플랫폼팀 1인 2. 통검기획팀 작업 • [2-1] 개발대상 쿼리 선정 • [2-2] 쿼리타입별 검색결과 Template(항목/배치) 디자인 • 담당: 통검기획팀 1인 3. 검색서비스개발팀 작업 • [3] MOA-1 시스템: 2단계 통합검색, 랭킹, 필터링, 중복제거 • 기존 Pilot-1 코드 이용 + 추가 작업 • [4] MOA-2 시스템: XML 기반의 토픽맵 엔진 • SSE 이용 + 링크탐색로직 작업 • [5] 토픽맵 모델링 및 데이터 구축 • 담당: 검색서비스개발팀 3인 ※ 지정된 담당자: [3]김성덕, [5]민병국
  • 35. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 35 Pilot 2차 – 개발 방법론 • XP 개발 방법론 – 기획/설계-코딩의 Pair Programming – 스토리카드의 은유적 서술  스파이크  메일/게시판  개발작업 – 테스트 위주의 개발(TDD)  짧은 릴리즈  반복적 개발 기술기획/ 스파이크기술/ 테스트설계 코드작성 /테스트 확인테스트/ 추가요구기술 코드작성/ 병합/테스트 필요시 분업 /모듈코딩 Next 기술기획 확인테스트 /릴리즈 개발중심/빠른릴리즈(2~3일) 반복
  • 36. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 36 토픽맵 설계 – ex) 삼성전자 토픽 /어커런스 관계 (연관성) 토픽맵 (토픽+관계)
  • 37. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 37 Pilot 2차 – MOA-1 필터링/랭킹 로직 1. 컬렉션별 검색 (r_size만큼) 2. 컬렉션별 기준으로 문서의 rankScore 계산 (assAnd, AssOr) 3. 컬렉션별로 문서를 정렬 후 짜르기 (w_size만큼) 4. 모든 컬렉션 문서를 다 합친 후 중복제거 (sortName 우선순위) 5. 전체를 대상으로 다시 rankScore 기준으로 정렬 6. 통합랭킹XML 포맷으로출력 쿼리 입력 Default 검색 (사이트중심) 토픽 검색 Default 검색 (로컬중심) TopicMap 검색 (메타데이터) dom-moa.py /sax-moa.py dom-type1.py 바로가기,사이트 웹문서 dom-type2.py 바로가기,로컬 사이트 exist not exist
  • 38. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 38 통합랭킹 XML 포맷 – 구조형/리스트형 구조형 리스트형
  • 39. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 39 topicmap result – 수작업 샘플
  • 40. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 40 default topic – TYPE1(사이트중심)
  • 41. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 41 default topic – TYPE2(로컬중심)
  • 42. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 42 여기까지… 들어 주셔서 감사해 요^^
  • 43. 참고자료 – 주제검색관련사례 • 관련사례 • 관련연구 • 참고논문
  • 44. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 44 참고: 네이트 - 한장검색 • Qry: 몰디브여행 – http://search.nate.com/search/all.html?z=A&s=&tq=&sc=&afc=&q=%B8%F4%B5%F0%BA%EA%BF%A9%C7%E0 • 몰디브 +- 지도(위치) +- 여행Q&A +- 항공권예약 +- 환율계산 +- 여행 +- 명소 +- 후기 +- 숙소 +- 음식 +- 사진 • 추천여행 • 스폰서링크
  • 45. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 45 참고: 구글 - 토픽검색 • Qry: 이영애 – http://www.google.co.kr/topicsearch?q=이영애&hl=ko&btnG=토픽+검색 • 이영애 +- 귀국 +- 결혼식, 목격 +- 신랑, 남편 +- 대장금 +- 미국, 영어
  • 46. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 46 참고: 강남구청 - 추론검색 • 혼인 – 민원안내 • 혼인신고 • 혼인취소 – 민원서식 – 민원FAQ – 담당업무 • 공통 – 담당자, 전화번호 • 동사무서별 – 개포3동, 대치1동, 도곡2동 • 담당부서별 – 민원여권과
  • 47. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 47 참고: 다음 - 영화검색 • Qry: 지아이조 – http://movie.daum.net/search.do?type=all&q=지아이조 • 지아이조 +- 영화 +- 이미지 +- 동영상 +- 뉴스&매거진 +- 네티즌리뷰 +- 게시판
  • 48. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 48 관련연구: 용어 상하위 관계 자동구축 방안 • 온톨로지의 구축과 학습: 상하위 관계 – 용어의 전문성: Spec(t|D) • 가정: 어떤 용어가 도메인 전문적인 정보를 많이 포함하고 있을 때 전문성이 높고, 반대로 일상적인 용어일수록 전문성이 낮다 • 용어의 정의 – X = Y + 차별적 의미특징 …(ISO 704) X: 정의될 용어, Y: X에 대한 상위개념 • 전문성Spec(t|D)를용어t가관찰되는사건x의정보량I(x)로표현 – D는 t의 도메인 – 용어간 의미 유사도 • 용어의 특징 집합 사이의 포함 관계의 정도를 정량적으로 표현한 것 • 두 특징 집합의 일치관계, 포함관계, 부분일치 관계, 불포함 관계를 표현 – 계층구조 구축 • 용어 t1, t2에서 Spec(t1|D) < Spec(t2|D) 일 때, 용어 t1을 용어 t2의 상위관계로 배치 )(log)()|(xpxIDtSpec <논문> Measuring the Specificity of Terms for Automatic Hierarchy Construction, Pum-Mo Ryu & Key-Sun Choi (2004)
  • 49. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 49 참고논문 • 개념적 맵들의 특성분석을 통한 스토리텔링의 시각화에 관한 연구 – 이지수(2008) • 효율적 지식공유를 위한 토픽맵 기반의 지식맵 서비스 모형 개발 – 김성현(2006) • 토픽맵을 이용한 시소러스의 구조화 연구 – 남영준(2005) • 시소러스와 토픽맵의 연관성 연구 – 남영준(2005) • 토픽맵 기반의 기록정보 검색시스템 구축에 관한 연구 – 권창호(2009) • The TAO of Topic Maps – Steve Pepper(2000) • XML Topic Maps and Semantic Web Mining – Benedicte Le Grand, Michel Soto(2001) • Ontology driven websites with Topic Maps TUTORIAL – Jose Carlos Ramalho, Giovani Rubert Librelotto, Pedro Rangel Henriques(2003) • Tontology-driven topic maps – Bernard Vatant(2003) • 온톨로지 언어의 비교 연구: W3C OWL과 ISO 토픽맵을 중심으로 – 오삼균(2004)