토픽맵 검색은 온톨로지 검색의 이전 단계의 검색 지능화 방법이며, 언어의 중의성을 극복하고 지식을 체계화한 토픽맵의 구조대로 검색 결과를 보여주도록 하는 방법을 말한다.
인터넷상에서 검색은 정보의 정확성만큼 질문자의 질문의도를 맞춰야 검색이 정확하다고 평가를 한다. 질문자의 의도를 모를 경우에는 검색운영자가 제시하는 체계를 기준으로 검색 결과를 출력하게 되는데 이때 적용할 수 있는 기술이다.
검색을 하는 목적은 네이게이션을 위한 경우가 가장 많으며, 물리적 위치 말고도 인터넷상의 서비스 위치를 질의한다. 이 때 단어의 중의성이 큰 장애가 되며, 단어 자체뿐 아니라 질문 자체가 문서의 부분이름을 지칭하며 들어오는 경우에도 중의성은 존재한다. 예를 들어, 삼성전자 서비스센터는 인터넷도 있지만, 서울/부산/인천 등 대도시에도 여러곳에 위치한다. 서비스센터의 제공분야나 그외 매뉴얼에 대한 내용도 있을 것이다. 이를 토픽맵을 이용하여 정제하여 출력한다면 매우 손쉽게 이용할 수 있을 것이다.
1. 네비게이션 검색 통합 Project - 기술기획안
검색서비스개발팀
민병국
2009.11.13
2. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 2
개념설명 – 융합(Fusion) cf. 통합(Integration)
•
Collection Fusion
•
Data Fusion
웹사이트
Data
웹사이트 Data
로컬
Data
로컬 Data
Merge
웹사이트
검색엔진
웹사이트 검색엔진
로컬
검색엔진
로컬 검색엔진
Mapping Data
프론트 엔진&UI
프론트 엔진&UI
Link
Meta Data
사용자
컬렉션 배치 -선택,정렬 컬렉션 연결 - 2단계쿼리
통합DB - 수작업 - 정확성高 - 비용高 - 범위제한
Vertical 검색
Horizontal 검색
Vertical 검색
1.
검색결과의 의미적 구조화
2.
검색결과의 선택/정렬
3.
검색결과의 통합
3. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 3
목차
•
프로젝트 개요
•
검색 통합의 목적
–
통검쿼리 분석
•
Pilot 1차 버전 리뷰 및 문제점
•
토픽맵 소개 및 모델링 예제
–
토픽/연계/어커런스, 토픽병합
–
토픽맵의 검색엔진 적용시 모델 샘플: 삼성전자
•
Pilot 2차 버전 계획 및 설계
삼성
1942
기업인
카트
1994
게이머
4. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 4
프로젝트 개요
•
쿼리 통합 대응
–
바로가기, 사이트(&디렉토리), 로컬, 웹, 블로그, 카페
•
중복 검색결과 제거
–
검색결과 통합 과정에서 중복 URL 제거
•
검색결과 통합의 의미적 구조화
–
낮은 수준의 의미적 연결
•
검색결과의 정확도(Precision) 향상
–
연관검색 첨가, 스트링 매칭의 매칭 오류 감소
ex) Query ‘훼미리마트’ 명가패밀리마트, 모나와 훼미리마트타이쿤
7. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 7
쿼리의 목적 – 사이트/정보/서비스
•
Q:네이버
–
사이트 찾기
•
Naver 사이트
•
Naver 하부사이트
•
NHN 사이트
–
정보 찾기
•
기업개요, 주식시세
•
백과사전, 위키
•
사옥위치/지도, 주소
•
대표전화, 서비스상담
•
이미지, 동영상CF
•
뉴스
–
서비스 찾기
•
메일
•
검색
•
카페
•
블로그
•
미투데이
•
Q:이효리
–
사이트 찾기
•
이효리 팬홈페이지
•
이효리 팬카페
•
이효리 소속사 사이트
–
정보 찾기
•
프로필, 위키
•
TV방송, 콘서트, 앨범
•
사진, 동영상, 음악
•
뉴스
–
서비스 찾기
•
음악 들어보기
•
Q:홍대 클럽
–
사이트 찾기
•
홍대 클럽 사이트
–
정보 찾기
•
홍대지역 클럽위치/지 도
•
홍대클럽관련 뉴스
•
홍대클럽관련 블로그/ 후기/추천글
•
홍대클럽 사진/동영상
•
홍대클럽 이벤트/공연
–
서비스 찾기
•
홍대 클럽 카페 가입
• “쿼리 is a 주제”인 경우
• 사이트 정보가 (1) 중복없이 (2) 연
관성 있게 정리되어 (3)빠짐없이 출
력되길 바람. 이런 경우 상하좌우 주
제로 1 Depth의 의미확장 필요.
•“쿼리 is a 주제”인경우
• 사이트 정보가 (1) 중복없이 (2) 연 관성 있게 정리되어 (3)빠짐없이 출 력되길 바람. 이런 경우 상하좌우 주 제로 1 Depth의 의미확장 필요.
• “쿼리 belongs to 주제”인 경우
• 쿼리에 관한 주제를 가장 많이 찾
을 수 있는 사이트를 원함. 불충분한
내용의 사이트는 사양. 예) 이효리가
곁다리로 출연한 가수C양의 콘서트
(x)
•“쿼리 belongs to 주제”인경우
• 쿼리에 관한 주제를 가장 많이 찾 을 수 있는 사이트를 원함. 불충분한 내용의 사이트는 사양. 예) 이효리가 곁다리로 출연한 가수C양의 콘서트 (x)
• “쿼리 locateIn and hasType 주제”
인 경우
• 사이트 정보가 (1) 주제의 속성을
만족하며 (2) 제시된 속성과 연관있
는 내용만 출력되길 바람, 예) 홍대
가 아닌 지역의 클럽, 홍대의 술집(x)
•“쿼리locateIn and hasType 주제” 인경우
• 사이트 정보가 (1) 주제의 속성을 만족하며 (2) 제시된 속성과 연관있 는 내용만 출력되길 바람, 예) 홍대 가 아닌 지역의 클럽, 홍대의 술집(x)
8. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 8
네비게이션 쿼리의 예 - 범어사
•
범어사(梵魚寺)
–
금정산에있는절.678 년 신라 문무왕 시절에 의 상에 의해서 지어짐. 후 에 조계종으로 합쳐진 화 엄종의 10대 사찰 안에 속했음.
•
범어사
–
위치: 부산 금정구
–
건물: 사찰
–
종교: 불교
–
관광지: 보물
–
정보자원: 블로그/카페/ 사진/동영상/사이트 등..
X
X
X
X
9. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 9
사이트 쿼리 통합의 구축 방안
•
Bottom-up
–
신규 컬렉션 생성
•
Top-down
–
메타 데이터 생성
•
현행 자원 이용
–
웹사이트 검색 개편
–
바로가기 모음
※ 더 큰걸 바라보면 어떨까??
10. Pilot 1차 버전 리뷰 & 문제점
•
1차 기획 내용
•
1차 개발 내용
•
데이터 샘플
•
문제점
11. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 11
Pilot – 1차 버전 – 기획
•
핵심 아이디어
–
노출 타입별 멀티 컬렉션 검색
•
사이트 통합화면 노출 타입
–
기본타입
•
대표사이트 + 하위사이트
•
바로가기 + 스폰서링크 + 사이트
–
검색포털타입: 네이버, 네이트, 야후, 구글, 빙 등..
•
대표사이트 + 하위사이트
•
바로가기 + 스폰서링크 + 사이트
–
대표번호 타입: 프랜차이즈, 통신사, 금융 등..
•
대표사이트 + 전화번호 + 하위사이트
•
대표사이트 + 전화번호 + 하위사이트 + 지도(지점안내)
•
바로가기 + 스폰서링크 + 대표사이트 + 전화번호 + 하위 사이트
–
개별전화번호 타입: 대표번호가 없는 경우, 요식업, 학원 등..
•
대표사이트 + 하위사이트 + 지도(지점안내&전화번호)
•
바로가기 + 스폰서링크 + 대표사이트 + 하위사이트 + 지도(지점안내&전화번호)
–
지점 타입: 백화점, 영화관, 마트 등..
•
대표사이트 + 하위사이트 + <숨김/펼침>지점안내
•
바로가기 + 스폰서링크 + 대표사이트 + 하위사이트 + <숨김/펼침>지점안내
–
1:1 타입: 사이트&지역정보가 유일한 쿼리
•
사이트+지역정보+(길찾기)+(대중교통정보)
•
동일명칭 사이트 다수
12. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 12
Pilot – 1차 버전 – 개발
1.
쿼리 입력
-
등록된 모든 컬렉션에 고정검색
2.
바로가기 검색
-
Exact 키워드(자원) 검색
-
siteseq 출력
3.
웹사이트 검색(메타데이터)
-
docid = siteseq 를 검색
-
사이트의 dirseq 출력
4.
디렉토리 검색(연관사이트)
-
dirseq를 통해 같은 트리의 사이 트검색 : 내부(하위) 또는 연관 : <dirseq>&<키워드> 조건검색
-
다수의 docid 출력
5.
메타데이터로 추가 검색
-
로컬 대상 ‘키워드’ 검색
6.
검색결과 통합 및 UI 포장 출력
-
랭킹 없음
10.31.254.121 (웹서버/Python)
10.10.40.246 (웹서버/Python)
바로가기 (10.30.40.172)
2
웹사이트 (10.20.253.180)
3
디렉토리 (211.115.77.9)
4
로컬 + etc
5
통합검색결과
query
siteseq
docid
dirseq
dirseq
docid
※ 비고: 빨간네모는 입력, 파란네모는 출력을 의미 점선은 Request(요청), 실선은 Response(응답)을 의미
1
6
Pilot-1차 버전 검색 Flow
16. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 16
Pilot – 1차 버전 – 문제점
•
빈약한 랭킹요소
–
사이트
•
키워드, 사이트 랭킹
•
데이터 구조 중심의 검색 결과 사용자관심중심필요
–
바로가기/사이트/지역정보 등 개별적인 랭킹과 관심사항이 다름
–
통합된 관점에서의 랭킹 필요
•
ex) 훼미리마트 vs 명가 훼미리마트, 모나와 훼미리마트타이쿤
•
메타데이터의 불완전성
–
DirSeq가 서로 다른 기준으로 분류되어 있음
•
ex) 훼미리마트 편의점 vs 삼성전자 서비스센터 삼성전자
–
ID 방식의 연결값이 없으면 스트링매칭이 되어 불완전 검색 노출
•
데이터 가공비용
–
siteseq(=docid), dirseq 등 필드의 명칭과 값범위, 값기준이 다름
–
새로운 연결관계를 문서데이터 상에서 구축시 문서크기에 비용 비례
17. 토픽맵 소개 및 검색엔진으로의 적용
•
토픽맵 개념
•
토픽/연계/어커런스
•
토픽맵 병합
•
토픽맵 데이터모델
•
검색엔진 적용방안 – 초간단 버전
18. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 18
지식층
정보층
토픽맵 – ISO국제표준 지식표현모델
•
이중구조
–
지식층(Knowledge Layer)
•
지식의 구조 표현
–
정보층(Information Layer)
•
지식의 구조와 연관된 컨텐츠의 위치 정보
•
구성요소
–
토픽(Topic)
•
Type, Name
–
어커런스(Occurrence)
•
Type, Name
–
관계(Association)
•
Type
박유전
서편제
동편제
순창
wasBorn
doSinging
doSinging
이미지
웹문서
DB자료
뉴스
동영상
이미지
음악
지도
19. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 19
토픽맵 – 개요(1)
•
토픽(Topic)
–
주제 혹은 개념을 표현 (기존 분류체계의 subject와 유사)
–
하나의 이상의 이름 부여 가능
•
base name, display name, sort name
–
토픽 타입(Type): 유사 의미를 갖는 인스턴스들을 묶는 역할
•
토픽 is-a 토픽타입: 토픽타입은 토픽(instance)의 클래스(class)
•
ex) ‘범어사’의 토픽타입 건물, 지명, 사진, 웹사이트, 전화번호, 지도
•
어커런스(Occurrence)
–
토픽의 관점에서 토픽에 해당하는 자원을 연결
–
ex) ‘범어사’: 문서(리뷰/블로그/카페글), 이미지, 지도
•
썸네일: http://imgsrc.search.daum-img.net/special_search/special/0711/071109212606_2
•
URL: http://www.beomeosa.co.kr
•
Daum지도: http://local.daum.net/place/place_view.daum?place_id=P38909
•
블로그(리뷰): http://www.internetmap.kr/1122
20. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 20
토픽맵 – 개요(2)
•
연계(Association)
–
토픽과 토픽을 연결시켜 주는 관계를 표현 토픽맵 형성
–
어떤 토픽 간의 관계도 설정할 수 있음
•
cf. 시소러스: BT(상위),RT(연관),NT(하위) 의미확장
–
ex) 삼성전자 – <가전제품/브랜드> - 애니콜, 하우젠, 지펠 다음 - <웹서비스/내부사이트> - TV팟, 뉴스, 카페, 검색 cf. 다음 - <null> - 다음소프트: Empty Assoication(Wrong!!)
•
토픽맵의 병합(Merge)
–
토픽맵 간의 의미 분석 결과에 따라 매핑률(%)을 적용함으로써 유사한 토픽들을 병합 (토픽맵의 병합/토픽의 병합)
–
병합규칙: 주제 식별자가 같거나 룰(rule)을 따르면 두 토픽을 병합(중복제거)
•
rule: IF title(토픽A) = title(토픽B) or url(토픽A) = url(토픽B) then mergeMap(토픽A,토픽B)
•
ex) IF url(삼성전자@사이트) = url(삼성전자@웹문서) then mergeMap(삼성전자)
–
XML 기반의 토픽맵은 추론이 가능: 연계에 의한 토픽 탐색
•
cf. 일반 검색엔진에서 토픽 탐색은 구조적으로 1-Level 만 가능(제한사항) 검색엔진에 적합한 모델링 필요
22. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 22
토픽맵 – 데이터모델 예제
•
보건산업기술분류체계의 토픽맵 명세서 설계
–
<논문> 효율적 지식공유를 위한 토픽맵 기반의 지식맵 서비스 모형 개발, pp.89-90
Type
Description
Business Reference Model
보건복지분야의 정부기능분류모델. 상하/하위 레벨관계는 PartOf으로 함.
Department
행정부처
Health Industry Technology Classification
보건산업기술분류체계
Knowledge Document
업무지식의 지식표현. 더블린코어의 데이터 요소를 어커런스로 정의함.
Language
업무지식의 언어 형태를 표현
Team
행정부처의 부서
Person
Team의 구성원
Rights
업무지식의 권한관리를 표현
Type
Description
Belongs to
보건산업기술분류체계와 업무지식과의 관계
Has language
업무지식과 언어와의 상관관계를 표현
Has right
업무지식과 권한관계를 설명
Has role
정의된 연계에 대한 토픽간의 관계를 정의
Has type
업무지식의 형태와의 관계를 정의
Is Conducted by
구성원과 정부기능분류모델의 수행관계 표현
Is Controlled by
정부기능분류모델을 컨트롤 함.
Is Produced by
구성원에 의한 업무지식 생성관계를 정의
Is Published by
업무지식의 출처 관계를 정의
Is Managed by
정부기능분류체계의 관계를 정의
Superclass/subclass
Superclass/subclass
works in
works in
Type
DataType
Size
Description
Title
String
50
표제
Subject
String
50
주제
description
String
50
설명
Relation
String
50
관계
Coverage
String
50
내용범위
Identifier
String
50
식별자
Publisher
String
50
발행처
Source
String
50
출처
Language
String
50
언어
Creator
String
50
제작자
Contributor
String
50
기타제작자
Right
String
50
권한관리
Type
String
50
자료유형
Format
String
50
표현양식
Date
Date
date
Date
■ Occurrence Type 명세서
■ Topic Type 명세서
■ Association Type 명세서
23. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 23
쿼리 – 주제(Topic) – 문서
•
2-Phase 검색 구조
–
1단계: 토픽맵검색
•
TopicType: 토픽맵 범위
•
Association: 연계토픽 한정자(토픽맵)
•
Occurrence: 문서집합 한정자(토픽)
–
2단계: 컬렉션별 문서검색
•
기존 검색: 키워드 + 조건
•
랭킹요소
–
로그/Hit
•
쿼리와 토픽이 가까운 정도를 클릭비 율로 반영
•
UserAct_Tag%가중치 방식
–
필드/태그
•
양질의 문서가 주어진 토픽에 얼마나 충실한가를 반영
•
만족되는 필드의 수와 필드별 검색 정 확도
杔億
棸沕免䌀䌬䍇䍈䍁䌻䌥䌹䍈䌁
劐塴愩況
AAssssoocciiaattiioonn
Occurrence
Occurrence
冬栘䫈廌梈
로그/Hit
필드/태그
<랭킹요소>
<랭킹요소>
바로가기, 웹사이트 (디렉토리), 로컬, 블 로그, 카페
24. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 24
지식표현모델 – 시소러스 vs 토픽맵
•
토픽(Topic)
–
삼성전자
–
삼성전자 다운로드센터
–
삼성전자 서비스센터
–
삼성전자 반도체
–
애니콜
–
지펠
–
하우젠
•
관계(Association): 시소러스
–
연관 사이트(&동의/유사)
–
하위 사이트(좁은)
–
상위 사이트(넓은)
•
대상물(Occurrence)
–
URL
–
컬렉션 문서 URL
•
바로가기, 사이트, 로컬
•
웹문서
•
블로그, 카페명
삼성전자
삼성전자 서비스센터
삼성전자 반도체
애니콜
삼성전자 다운로드센터
http://삼성전자
URL
지펠
하우젠
http://삼성전자/다운로드센터
http://삼성전자-서비스센터
http://애니콜
http://지펠
http://하우젠
http://삼성전자-반도체
URL
URL
URL
URL
URL
URL
사이트
로컬
웹문서
바로가기
블로그
카페
RT
NT
BT
RT
NT
BT
토픽타입: 사이트
25. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 25
웹사이트 토픽타입 – 초간단 버전의 토픽맵
•
삼성전자
–
토픽Type: web (※전체Type: web/person/place/brand/group)
–
연계Type
•
<web> super/sub
–
Topic of sub(삼성전자): 삼성전자 다운로드센터, 삼성전자 서비스센터
•
<brand> product/maker
–
Topic of product(삼성전자): 삼성전자 반도체, 애니콜, 지펠, 하우젠
•
<person> actor
–
Topic of actor(삼성전자): 이건희(삼성), 이재용(삼성), cf. ‘이부진’(장녀) – ‘이건희’와만관계있음
•
<place> head/branch
–
Topic of head(삼성전자): 삼성전자본사(강남역)
–
Topic of branch(삼성전자): 삼성전자 서비스센터(…), 삼성플라자(…)
–
어커런스Type
•
컬렉션_쿼리URL: 하나 이상 이상 가능
–
이건희인물^http://search.daum.net/search?w=tot&q=%B1%E2%BE%F7%C0%CE%20%C0%CC%B0%C7%C8%F1&ppkey=25368
–
삼성전자 사이트^http://search.daum.net/search?w=dir&m=site&lpp=10&q=%BB%EF%BC%BA%C0%FC%C0%DA
•
연관태그: 연결되는 토픽, ex) tag(이건희) 삼성%.99,기업가%.56,1942생%.35
•
topicID, 썸네일, 명칭_display, 명칭_base, 명칭_sort
삼성전자
web
sub
삼성전자 다운로드센터
삼성전자
web
sub
삼성전자 서비스센터
삼성전자
web
product
삼성전자 반도체
삼성전자
web
product
애니콜
web
web
brand
brand
삼성전자
web
actor
이건희
person
토픽_p
p_Typ
ass
토픽_n
n_Typ
<< association 검색>>
삼성전자
애니콜
s서비스
삼성본사
이건희
tBase
113113
113114
113115
113116
113117
tID
전자, 대기업
삼성전자, 핸드폰
삼성전자, 서비스센터
서울 서초구, 강남역
삼성, 기업가, 1942생
tAss
web
brand
web
place
person
tTyp
사이트_http://..
tLink
사이트_http://..
사이트_http://..
로컬_http://..
인물_http://..
<< topic 검색>>
26. Pilot 2차 버전 설계 & 개발 계획
•
Pilot 2차 개발범위
•
Pilot 2차 버전의 동작 Flow
•
랭킹요소 – 로그, 태그
27. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 27
개발범위
•
Task1: View 파트
–
쿼리별 토픽타입 설정
–
토픽타입별 출력 Template
–
노출대상의 조정 정책
•
ex) ‘인물’ 쿼리Type에서 로컬은 1개, 또는 정확도 0.9점 이상만 출력
•
Task2: Control 파트
–
2 Phase Retrieval 로직 구현
–
검색결과 중복제거
–
랭킹: 클릭점수 + 태그매칭점수
•
Task3: Model 파트
–
Topic, Association, Occurrence 타입 설계
–
초기 토픽맵으로 스키마 구성
–
검색엔진 설치 및 태그/링크 데 이터 수동구축
검색결과 UI & 토픽타입 설정
토픽맵 데이터 모델링 & 태그/링크 수동구축
2PR 통합랭킹 & 중복제거
+ 토픽타입별
기획요소
토픽타입별 기획요소
+ 텍스트마이닝
(자동태깅)
텍스트마이닝 (자동태깅)
+ 쿼리 주제연관도
(로그분석)
쿼리 주제연관도 (로그분석)
Task: 1
Task: 3
Task: 2
28. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 28
Pilot – 2차 버전 – 토픽맵 검색
1.
쿼리 입력
2.
토픽맵 검색(메타데이터,clues)
3.
웹사이트 검색
4.
디렉토리 검색
5.
로컬 검색
6.
검색결과 통합 및 UI 포장 출력
-
중복결과 제거
-
통합랭킹 적용
-
토픽타입별 노출 Template
10.31.254.121 (웹서버/Python)
10.10.40.246 (웹서버/Python)
웹사이트 (10.20.253.180)
3
디렉토리 (211.115.77.9)
4
로컬 (spb-local-idx01)
5
토픽맵 검색
2
통합검색결과
※ 비고: 빨간네모는 실제데이터, 파란네모는 메타데이터를 의미 점선은 Request(요청), 실선은 Response(응답)을 의미
1
6
Pilot-2차 버전 검색 Flow
토픽Type결정 (Template)
컬렉션 쿼리Template 확장쿼리용 clues
토픽 병합(rule) &중복제거
Assocation 조건을 만족시키는 Occurrencs만검색
29. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 29
Pilot – 2차 – Data Flow
web_삼성전자
wiki_삼성전자
sub사이트
브랜드사이트
person _이건희
로컬 _본사
로컬_지점 (서비스/플라자)
삼성전자
web
sub
삼성전자 다운로드센터
삼성전자
web
sub
삼성전자 서비스센터
삼성전자
web
product
삼성전자 반도체
삼성전자
web
product
애니콜
web
web
brand
brand
삼성전자
web
actor
이건희
person
토픽_p
p_Typ
ass
토픽_n
n_Typ
<< association 검색>>
삼성전자
애니콜
s서비스
삼성본사
이건희
tBase
113113
113114
113115
113116
113117
tID
전자, 대기업
삼성전자, 핸드폰
삼성전자, 서비스센터
서울 서초구, 강남역
삼성, 기업가, 1942생
tAss
web
brand
web
place
person
tTyp
사이트_http://..
tLink
사이트_http://..
사이트_http://..
로컬_http://..
인물_http://..
<< topic 검색>>
토픽맵 검색 & 중복제거
사이트
컬렉션
사이트 컬렉션
로컬
컬렉션
로컬 컬렉션
블로그
컬렉션
블로그 컬렉션
카페
컬렉션
카페 컬렉션
토픽Type별 Template & 노출정책
네비게이션검색 통합 결과
tLink
tLink
tLink
tLink
33. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 33
Pilot 2차 – 시스템 구조도
통검플랫폼
쿼리타입별 UI Template
검색결과 XML Data
2-1. 대상쿼리선정 2-2. 출력형태기획
통합랭킹/중복제거
<request> HTTP, GET <= 쿼리 <response> HTTP, XML
토픽맵DB 질의&분석
컬렉션별 질의&병합
토픽맵 검색엔진
버클리 DB & XML
버클리 DB & XML
5-1. 모델링요소
웹사이트
로컬
그밖에 컬렉션
5-2. 데이터구축
1. 통검플 작업
3. 필터링/랭킹
4. 주제연관도
<request> HTTP, GET <response> HTTP, XML
<request> HTTP, GET <response> HTTP, XML
MOA-1 시스템
MOA-2 시스템
34. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 34
Pilot 2차 – 작업 사항
1.
통검플랫폼팀 작업
•
[1] 테스트 통검포맷 UI 입히기
•
담당: 통검플랫폼팀 1인
2.
통검기획팀 작업
•
[2-1] 개발대상 쿼리 선정
•
[2-2] 쿼리타입별 검색결과 Template(항목/배치) 디자인
•
담당: 통검기획팀 1인
3.
검색서비스개발팀 작업
•
[3] MOA-1 시스템: 2단계 통합검색, 랭킹, 필터링, 중복제거
•
기존 Pilot-1 코드 이용 + 추가 작업
•
[4] MOA-2 시스템: XML 기반의 토픽맵 엔진
•
SSE 이용 + 링크탐색로직 작업
•
[5] 토픽맵 모델링 및 데이터 구축
•
담당: 검색서비스개발팀 3인
※ 지정된 담당자: [3]김성덕, [5]민병국
35. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 35
Pilot 2차 – 개발 방법론
•
XP 개발 방법론
–
기획/설계-코딩의 Pair Programming
–
스토리카드의 은유적 서술 스파이크 메일/게시판 개발작업
–
테스트 위주의 개발(TDD) 짧은 릴리즈 반복적 개발
기술기획/
스파이크기술/ 테스트설계
코드작성 /테스트
확인테스트/
추가요구기술
코드작성/ 병합/테스트
필요시 분업 /모듈코딩
Next 기술기획
확인테스트
/릴리즈
개발중심/빠른릴리즈(2~3일)
반복
37. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 37
Pilot 2차 – MOA-1 필터링/랭킹 로직
1.
컬렉션별 검색 (r_size만큼)
2.
컬렉션별 기준으로 문서의 rankScore 계산 (assAnd, AssOr)
3.
컬렉션별로 문서를 정렬 후 짜르기 (w_size만큼)
4.
모든 컬렉션 문서를 다 합친 후 중복제거 (sortName 우선순위)
5.
전체를 대상으로 다시 rankScore 기준으로 정렬
6.
통합랭킹XML 포맷으로출력
쿼리 입력
Default 검색 (사이트중심)
토픽 검색
Default 검색 (로컬중심)
TopicMap 검색 (메타데이터)
dom-moa.py /sax-moa.py
dom-type1.py 바로가기,사이트 웹문서
dom-type2.py 바로가기,로컬 사이트
exist
not exist
47. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 47
참고: 다음 - 영화검색
•
Qry: 지아이조
–
http://movie.daum.net/search.do?type=all&q=지아이조
• 지아이조 +- 영화 +- 이미지 +- 동영상 +- 뉴스&매거진 +- 네티즌리뷰 +- 게시판
48. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 48
관련연구: 용어 상하위 관계 자동구축 방안
•
온톨로지의 구축과 학습: 상하위 관계
–
용어의 전문성: Spec(t|D)
•
가정: 어떤 용어가 도메인 전문적인 정보를 많이 포함하고 있을 때 전문성이 높고, 반대로 일상적인 용어일수록 전문성이 낮다
•
용어의 정의
–
X = Y + 차별적 의미특징 …(ISO 704)
X: 정의될 용어, Y: X에 대한 상위개념
•
전문성Spec(t|D)를용어t가관찰되는사건x의정보량I(x)로표현
–
D는 t의 도메인
–
용어간 의미 유사도
•
용어의 특징 집합 사이의 포함 관계의 정도를 정량적으로 표현한 것
•
두 특징 집합의 일치관계, 포함관계, 부분일치 관계, 불포함 관계를 표현
–
계층구조 구축
•
용어 t1, t2에서 Spec(t1|D) < Spec(t2|D) 일 때, 용어 t1을 용어 t2의 상위관계로 배치
)(log)()|(xpxIDtSpec
<논문> Measuring the Specificity of Terms for Automatic Hierarchy Construction, Pum-Mo Ryu & Key-Sun Choi (2004)
49. 2009-11-13 네비게이션검색통합 - Pilot 기술문서 49
참고논문
•
개념적 맵들의 특성분석을 통한 스토리텔링의 시각화에 관한 연구 – 이지수(2008)
•
효율적 지식공유를 위한 토픽맵 기반의 지식맵 서비스 모형 개발 – 김성현(2006)
•
토픽맵을 이용한 시소러스의 구조화 연구 – 남영준(2005)
•
시소러스와 토픽맵의 연관성 연구 – 남영준(2005)
•
토픽맵 기반의 기록정보 검색시스템 구축에 관한 연구 – 권창호(2009)
•
The TAO of Topic Maps – Steve Pepper(2000)
•
XML Topic Maps and Semantic Web Mining – Benedicte Le Grand, Michel Soto(2001)
•
Ontology driven websites with Topic Maps TUTORIAL – Jose Carlos Ramalho, Giovani Rubert Librelotto, Pedro Rangel Henriques(2003)
•
Tontology-driven topic maps – Bernard Vatant(2003)
•
온톨로지 언어의 비교 연구: W3C OWL과 ISO 토픽맵을 중심으로 – 오삼균(2004)