SlideShare une entreprise Scribd logo
1  sur  73
FAST ESP 搜索系统 技术中心 2009 年 9 月
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],讨论内容
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],讨论内容 ,[object Object],[object Object]
系统结构 Administration Services 内容聚合 web DB file 文档处理 内容 文档 索引系统 搜索系统 查询和 结果处理 用户
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],相关术语
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],讨论内容 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
获取内容( feeding content ) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Connectors ContentApi crawler File traverser Jdbc connectors 文 档 处 理 器 Fast esp 集成的 Fast 软件包 web DB file
Collections ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],pipeline web DB file crawler jdbc File Trav Collection : Documents
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Document Model
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Web 内容 ---Crawler
File Traverser 其他文件 PDF 文件 XML 文件 File Traverser Document Processing DB collection collection collection
[object Object],[object Object],[object Object],[object Object],File Traverser
JDBC Connector JDBC  Connector Document Processing DB Result Set sql 内 容 分 发 每行 1 个 文档 collection collection collection
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],讨论内容 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
文档处理系统 Document Processing  Engine 内 容 API 内 容 分 发 Search index index QR SFE collection collection collection
文档处理系统 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
内容流 Document Processing  Engin Collection 1 内 容 API 内 容 分 发 index searchApi SFE Collection n Collection 2 API 客户扩展的处理器
Document 、 Collection 、 Pipeline 、 Stage ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Document Processing Attributes Content Api Document elements Index Document fields Index profile
Document 、 Collection 、 Pipeline 、 Stage ,[object Object],Collection A Collection B
Document 、 Collection 、 Pipeline 、 Stage ,[object Object],[object Object],[object Object],[object Object],Content Doc init Doc Retri eval … Gen fixml Send To Indexer Indexing
Document 、 Collection 、 Pipeline 、 Stage ,[object Object],[object Object],[object Object],[object Object],[object Object]
Entity Extraction ,[object Object],[object Object],[object Object],[object Object],[object Object],电影 电视剧 动漫 动作 喜剧 剧情 刘德华 周星 Title :天若有情 - 主演:刘德华 Title :电视剧 - 李小龙传奇 Title : Tag: 刘德华 Title : Tag: 电视剧
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],讨论内容 ,[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],概述
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],概述
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],文档处理相关
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],文档处理相关
搜索处理系统 index 搜索 引擎 SFE Search Api Query and Result Server query 结果 Query& 参数 Query& 参数 HTTP client Text/xml 结果 Enhanced 结果 API client 结果处理 pipeline query 处理 pipeline
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Query 和结果处理相关 Prefix : fas* Full:fas*/*ash/f?st Substring=6 Query:summer D:midsummer
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Query 和结果处理相关
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Query 和结果处理相关
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Query 和结果处理相关
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],讨论内容 ,[object Object],[object Object],[object Object]
Rank Profile ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
相关术语 ( Relevancy Terminology ) For muli-term queries:the shorter the distance between query terms in a document,the higher the document’s rank value Proximity Importance of matching a query in a given document field Context Importance of geographical distance between a document’s associated latitude/longitude and a target location specified in a query Geo Assigned importance of a document , independent of the query Quality Importance of a document determined by the links to it from other documents Authority Age of a document compared to the time when the query is issued Freshness 描述 术语
相关术语 ( Relevancy Terminology ) 计算 context 和 proximity 时额外用到的统计数据。 The greater the number of query terms present in the same field of a matching document, the highter the document’s rank value Completeness The more frequent a query term occurs in the document(term frequency or TF)relative to the term’s frequency in the index(inverse document frequency or IDF),the higher the document’s rank value Frequency The earlier a query term occurs in a field,the highter the document’s rank value Position 描述 术语
相关算法 ( Relevancy Formula ) R(d,q)=S(d)+F(d,T)+D(d,q) R=query q  在 document d 中的 rank 值 S=document d 的静态 rank 值,与 query 无关 F=freshness of document d at time t D=dynamic rank
相关算法 ( Relevancy Formula ) R(d,q)=S(d)+F(d,T)+D(d,q) (boost_coefficient*w_quality/100)*static_rank_field(d) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
相关算法 ( Relevancy Formula ) R(d,q)=S(d)+F(d,T)+D(d,q) (w_freshness/100)*fn(time scale,document age) ,[object Object],[object Object],[object Object],[object Object]
相关算法 ( Relevancy Formula ) R(d,q)=S(d)+F(d,T)+D(d,q) ,[object Object],(Fn(FO)+fn(NO)+W_authority/100*fn(ExtNO)+single_boost*W_context/100*sum(W_fieldN/100)) /fn(num_matching_docs) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
相关算法 ( Relevancy Formula ) R(d,q)=S(d)+F(d,T)+D(d,q) ,[object Object],D(d,q1)+D(d,q2)+…+W_context/100*fn(common context)+fn(operator)+W_proximity/100*fn(term proximity) ,[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],讨论内容 ,[object Object],[object Object]
Fast ESP 的语言学特性 ,[object Object],[object Object],分词 Tokenization 符号标准化。 Character normalization 移除停止词 Anti-phrasing 和 stopword 语音搜索 Phonetic search Email 、人名、地名等 Entity Extraction French Open , John Lervik Proper Name  或 phrase 识别 Car—automobile Synonyms go—goes—going—went—gone Lemmatization sarsh----search spellchecking
Fast ESP 的语言学特性 增加索引时间 增加内容处理时间 增加磁盘使用 好的用户体验 坏处 好处
Fast ESP 的语言学特性 不需要重新处理文档 需要重新处理文档 增加 QPS 省 query 时间 Proper name 和  phrase recognition 不影响 index 增加 index Anti-phrasing 、 stopword Entity extraction Spell checking Tokenization Synonym Synonym Lemmatization Lemmatization Query 时使用 内容处理时使用
CJK 语言 ,[object Object],[object Object],[object Object],[object Object]
CJK 语言 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],軟體 软件 金山 詞霸 词霸 After character normalization 軟體 软件 金山 詞霸 After qt_synonym 軟體 金山 詞霸 Original Query Query keywords Stage
CJK 语言 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
CJK 语言 中华人民共和国 1.substring=1 中  华  人  民  共  和  国 2.substring=2 中华  华人  人民  民共  共和  和国 ,[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],讨论内容 ,[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],定义
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],定义
多节点体系 获取内容 文档处理子系统 索引子系统 搜索子系统 查询与结果处理 子系统 搜索用户 Admin 组件
多节点体系 - 文档处理子系统 文档处理器 文档处理器 内容分发 文档处理器 文档处理器 内容分发 ,[object Object],[object Object],[object Object],[object Object]
多节点体系 - 索引子系统 indexer indexer 内容分发 indexer 索引分发 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],indexer
多节点体系 - 索引子系统 Indexer ( master ) Indexer (  master  ) 内容分发 Indexer (  backup  ) 索引分发 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Indexer ( backup )
多节点体系 - 索引子系统 Indexer (  master  ) 内容分发 索引分发 ,[object Object],[object Object],[object Object],[object Object],[object Object],Indexer (  backup  ) Indexer (  backup  )
多节点体系 - 搜索和 QR 子系统 search R0C0 Top-level 分发 ( QR ) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],search R1C0 search R0C2 search R0C1 search R1C2 search R1C1
多节点体系 - 搜索和 QR 子系统 search R0C0 Top-level 分发 ( QR ) ,[object Object],[object Object],search R1C0 search R0C2 search R0C1 search R1C2 search R1C1 搜索用户 负载均衡
多节点体系 -index 部署 ,[object Object],[object Object],indexer Master indexer backup search search search indexer indexer indexer search search search
多节点体系 -admin 子系统 ,[object Object],[object Object],CORBA Name Service License Manager Resource Service Log Transformer Log Server Config server Cache Manager Admin Server Relbench Storage service Web server
Index Partitions 机制 ,[object Object],[object Object],[object Object],[object Object],[object Object],0 1 2 docsDistributionPst : 100 , 100 , 100  触发条件: 10000 , 1000000 2 : 6
Index Partitions 优化 ,[object Object],[object Object],[object Object],[object Object],[object Object],0 1 2
Index blacklisting ,[object Object],[object Object],[object Object]
Index blacklisting ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],0 1 2 DocumentA-2 DocumentA-1
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],讨论内容 ,[object Object],[object Object],[object Object]
部署结构 RI RS Ind RS RI RI RS RS RS RS QR Ind CP DP admin QR RT RT search10 search9 search5 search4 search3 search2 search1
部署结构 Ind DP QR QR RS RS RS RS RS RS RI RI RI Ind CP DP
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],数据源
索引字段 UGC- 现有字段: 建立专辑时使用 vuploadusername  视频上传用户 uuseeupdate 刷新时间 可以根据该字段导航 vsourcesite 来源网站 可以根据该字段导航 vtags  标签 可排序 vlength 视频长度 vplayurl  视频播放页面地址 可以根据该字段导航 vcategorys  类别 vlogo  视频图片  可排序 vtitle  视频标题 vevid 原始编码 ID vvid 原始 ID vid 唯一标识 备注 索引字段 名称
索引字段 UGC- 准备扩充字段: 建立专辑 vuploaduserid 视频上传用户 ID 计算权重。可排序 vlink 引用次数 计算权重。可排序 vcomment 评论次数 计算权重。可排序 vpageview 观看次数 计算权重。可排序 Vfav 收藏次数 可以根据该字段导航 vchannel 频道 备注 索引字段 名称
索引字段 专辑 - 现有字段: plvideocount 视频数 可以根据该字段导航 plchannel 频道 Vod 还是 ugc pltype 类别 plvideotitles 视频标题 plvideoinfo 视频信息 可以根据该字段导航 plsourcesite 来源网站 可以根据该字段导航 pltags  标签 可排序 pllength 总长度 VOD 时为文件 GUID plplayurl  第 1 个视频播放地址 可以根据该字段导航 plcategorys  类型 pllogo  图片  可排序 pltitle  标题 plbaikeid 百科 ID plid 唯一标识 备注 索引字段 名称
FAST ESP 搜索系统 技术中心 2009 年 9 月

Contenu connexe

Similaire à Fast Esp搜索系统

Information Retrieval
Information RetrievalInformation Retrieval
Information Retrievalyxyx3258
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍areyouok
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍areyouok
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍topgeek
 
第三章
第三章第三章
第三章jxhtq
 
陽明大學/FHIR 快速跳坑指南
陽明大學/FHIR 快速跳坑指南陽明大學/FHIR 快速跳坑指南
陽明大學/FHIR 快速跳坑指南Lorex L. Yang
 
文献信息组织
文献信息组织文献信息组织
文献信息组织zjxfsun
 
資料結構化社群會議簡報 V1.5 20160707
資料結構化社群會議簡報 V1.5 20160707資料結構化社群會議簡報 V1.5 20160707
資料結構化社群會議簡報 V1.5 20160707Poya Liao
 
BB04-006-02
BB04-006-02BB04-006-02
BB04-006-025045033
 
Text clustering (information retrieval, in chinese)
Text clustering (information retrieval, in chinese)Text clustering (information retrieval, in chinese)
Text clustering (information retrieval, in chinese)Yueshen Xu
 
管理資訊系統之資訊架構
管理資訊系統之資訊架構管理資訊系統之資訊架構
管理資訊系統之資訊架構5045033
 
Postgre sql intro 0
Postgre sql intro 0Postgre sql intro 0
Postgre sql intro 0March Liu
 
第五章-2
第五章-2第五章-2
第五章-2jxhtq
 
ePub Book Introduction
ePub Book IntroductionePub Book Introduction
ePub Book Introductionaecro
 
Servlet & JSP 教學手冊第二版 - 第 7 章:使用 JSTL
Servlet & JSP 教學手冊第二版 - 第 7 章:使用 JSTLServlet & JSP 教學手冊第二版 - 第 7 章:使用 JSTL
Servlet & JSP 教學手冊第二版 - 第 7 章:使用 JSTLJustin Lin
 

Similaire à Fast Esp搜索系统 (20)

资源整合与Web2.0
资源整合与Web2.0资源整合与Web2.0
资源整合与Web2.0
 
Information Retrieval
Information RetrievalInformation Retrieval
Information Retrieval
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
 
Spark tutorial
Spark tutorialSpark tutorial
Spark tutorial
 
第三章
第三章第三章
第三章
 
SharePoint平台客製與開發-2
SharePoint平台客製與開發-2SharePoint平台客製與開發-2
SharePoint平台客製與開發-2
 
陽明大學/FHIR 快速跳坑指南
陽明大學/FHIR 快速跳坑指南陽明大學/FHIR 快速跳坑指南
陽明大學/FHIR 快速跳坑指南
 
文献信息组织
文献信息组织文献信息组织
文献信息组织
 
Xapian介绍
Xapian介绍Xapian介绍
Xapian介绍
 
資料結構化社群會議簡報 V1.5 20160707
資料結構化社群會議簡報 V1.5 20160707資料結構化社群會議簡報 V1.5 20160707
資料結構化社群會議簡報 V1.5 20160707
 
BB04-006-02
BB04-006-02BB04-006-02
BB04-006-02
 
Text clustering (information retrieval, in chinese)
Text clustering (information retrieval, in chinese)Text clustering (information retrieval, in chinese)
Text clustering (information retrieval, in chinese)
 
管理資訊系統之資訊架構
管理資訊系統之資訊架構管理資訊系統之資訊架構
管理資訊系統之資訊架構
 
Postgre sql intro 0
Postgre sql intro 0Postgre sql intro 0
Postgre sql intro 0
 
第五章-2
第五章-2第五章-2
第五章-2
 
Metadata4shenzhen Final
Metadata4shenzhen FinalMetadata4shenzhen Final
Metadata4shenzhen Final
 
ePub Book Introduction
ePub Book IntroductionePub Book Introduction
ePub Book Introduction
 
Servlet & JSP 教學手冊第二版 - 第 7 章:使用 JSTL
Servlet & JSP 教學手冊第二版 - 第 7 章:使用 JSTLServlet & JSP 教學手冊第二版 - 第 7 章:使用 JSTL
Servlet & JSP 教學手冊第二版 - 第 7 章:使用 JSTL
 

Fast Esp搜索系统

  • 1. FAST ESP 搜索系统 技术中心 2009 年 9 月
  • 2.
  • 3.
  • 4. 系统结构 Administration Services 内容聚合 web DB file 文档处理 内容 文档 索引系统 搜索系统 查询和 结果处理 用户
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11. File Traverser 其他文件 PDF 文件 XML 文件 File Traverser Document Processing DB collection collection collection
  • 12.
  • 13. JDBC Connector JDBC Connector Document Processing DB Result Set sql 内 容 分 发 每行 1 个 文档 collection collection collection
  • 14.
  • 15. 文档处理系统 Document Processing Engine 内 容 API 内 容 分 发 Search index index QR SFE collection collection collection
  • 16.
  • 17. 内容流 Document Processing Engin Collection 1 内 容 API 内 容 分 发 index searchApi SFE Collection n Collection 2 API 客户扩展的处理器
  • 18.
  • 19.
  • 20.
  • 21.
  • 22.
  • 23.
  • 24.
  • 25.
  • 26.
  • 27.
  • 28. 搜索处理系统 index 搜索 引擎 SFE Search Api Query and Result Server query 结果 Query& 参数 Query& 参数 HTTP client Text/xml 结果 Enhanced 结果 API client 结果处理 pipeline query 处理 pipeline
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.
  • 34.
  • 35. 相关术语 ( Relevancy Terminology ) For muli-term queries:the shorter the distance between query terms in a document,the higher the document’s rank value Proximity Importance of matching a query in a given document field Context Importance of geographical distance between a document’s associated latitude/longitude and a target location specified in a query Geo Assigned importance of a document , independent of the query Quality Importance of a document determined by the links to it from other documents Authority Age of a document compared to the time when the query is issued Freshness 描述 术语
  • 36. 相关术语 ( Relevancy Terminology ) 计算 context 和 proximity 时额外用到的统计数据。 The greater the number of query terms present in the same field of a matching document, the highter the document’s rank value Completeness The more frequent a query term occurs in the document(term frequency or TF)relative to the term’s frequency in the index(inverse document frequency or IDF),the higher the document’s rank value Frequency The earlier a query term occurs in a field,the highter the document’s rank value Position 描述 术语
  • 37. 相关算法 ( Relevancy Formula ) R(d,q)=S(d)+F(d,T)+D(d,q) R=query q 在 document d 中的 rank 值 S=document d 的静态 rank 值,与 query 无关 F=freshness of document d at time t D=dynamic rank
  • 38.
  • 39.
  • 40.
  • 41.
  • 42.
  • 43.
  • 44. Fast ESP 的语言学特性 增加索引时间 增加内容处理时间 增加磁盘使用 好的用户体验 坏处 好处
  • 45. Fast ESP 的语言学特性 不需要重新处理文档 需要重新处理文档 增加 QPS 省 query 时间 Proper name 和 phrase recognition 不影响 index 增加 index Anti-phrasing 、 stopword Entity extraction Spell checking Tokenization Synonym Synonym Lemmatization Lemmatization Query 时使用 内容处理时使用
  • 46.
  • 47.
  • 48.
  • 49.
  • 50.
  • 51.
  • 52.
  • 53. 多节点体系 获取内容 文档处理子系统 索引子系统 搜索子系统 查询与结果处理 子系统 搜索用户 Admin 组件
  • 54.
  • 55.
  • 56.
  • 57.
  • 58.
  • 59.
  • 60.
  • 61.
  • 62.
  • 63.
  • 64.
  • 65.
  • 66.
  • 67. 部署结构 RI RS Ind RS RI RI RS RS RS RS QR Ind CP DP admin QR RT RT search10 search9 search5 search4 search3 search2 search1
  • 68. 部署结构 Ind DP QR QR RS RS RS RS RS RS RI RI RI Ind CP DP
  • 69.
  • 70. 索引字段 UGC- 现有字段: 建立专辑时使用 vuploadusername 视频上传用户 uuseeupdate 刷新时间 可以根据该字段导航 vsourcesite 来源网站 可以根据该字段导航 vtags 标签 可排序 vlength 视频长度 vplayurl 视频播放页面地址 可以根据该字段导航 vcategorys 类别 vlogo 视频图片 可排序 vtitle 视频标题 vevid 原始编码 ID vvid 原始 ID vid 唯一标识 备注 索引字段 名称
  • 71. 索引字段 UGC- 准备扩充字段: 建立专辑 vuploaduserid 视频上传用户 ID 计算权重。可排序 vlink 引用次数 计算权重。可排序 vcomment 评论次数 计算权重。可排序 vpageview 观看次数 计算权重。可排序 Vfav 收藏次数 可以根据该字段导航 vchannel 频道 备注 索引字段 名称
  • 72. 索引字段 专辑 - 现有字段: plvideocount 视频数 可以根据该字段导航 plchannel 频道 Vod 还是 ugc pltype 类别 plvideotitles 视频标题 plvideoinfo 视频信息 可以根据该字段导航 plsourcesite 来源网站 可以根据该字段导航 pltags 标签 可排序 pllength 总长度 VOD 时为文件 GUID plplayurl 第 1 个视频播放地址 可以根据该字段导航 plcategorys 类型 pllogo 图片 可排序 pltitle 标题 plbaikeid 百科 ID plid 唯一标识 备注 索引字段 名称
  • 73. FAST ESP 搜索系统 技术中心 2009 年 9 月