SlideShare une entreprise Scribd logo
1  sur  46
Télécharger pour lire hors ligne
정보검색                  제7장.
                                        비불리언 모델
INFORMATION RETRIEVAL




   강의: 정창용 (timothy97@gmail.com)
     http://www.facebook.com/hhuIR
            Korea Maritime University
                   Navis Control Inc.
Over view

 용어의 가중치
 벡터공간 모델
  벡터공간 모델과 코사인 계수
  유사계수에 의한 문헌의 순위화
  벡터공간 모델에서 가중치 평가
 확률 모델
 통계언어 모델
비불리언 모델

 비불리언 시스템
  질의를 불리언 연산자로 표현하지 않음

  문헌집단 내 모든 문헌을 대상으로 질의와의 유사도(적합성)에 따라 순
  위화하는 시스템

  유사도 계산을 위해서 용어(질의, 문헌)의 가중치가 중요
Outline

 용어의 가중치
 벡터공간 모델
  벡터공간 모델과 코사인 계수
  유사계수에 의한 문헌의 순위화
  벡터공간 모델에서 가중치 평가
 확률 모델
 통계언어 모델
용어의 가중치(Weight)

 용어의 가중치(weight)
  문헌에서 해당 용어의 중요도
 용어 가중치 부여 방법
  용어빈도 기법
    문헌에 출현한 용어의 빈도수를 기반으로 부여
  문헌빈도 기법
    여러 문헌에 출현하는 단어보다 소수의 특정 문헌에 출현하는 단어에 더 높
     은 가중치를 추는 방법
  문헌길이 정규화기법(normalization)
    문헌이 길수록 용어의 출현빈도가 높음
    문헌의 길이에 따라 용어의 가중치가 영향 받는 것을 최소화 함
tf * idf

 정의
  TF (Term Frequency) : number of occurred term in a document
  DF (Document Frequency) : number of documents where term
   occurs
  IDF (Inverse Document Frequency) : Inverse DF
  Weight = TF * IDF
    TF가 크고, DF가 작을수록 가중치는 커진다.
    전체문서에서 공통적으로 등장하는 단어들은 걸러지게 된다.
     많은 문서에서 출현하는 term은 의미가 없다는 의미

                             문서의 총 개수




                            term을 포함한 문서의 개수
용어가중치 계산

 용어빈도(Term frequency)
  b(binary)        1(출현), 0(비출현)
  n(natural)       tf
                          𝑐 ∗𝑡𝑓
  a(augmented)     𝑐+   𝑚𝑎𝑥 𝑖 𝑡𝑓
  l(logarithm)     1 + log 𝑡𝑓

   tf (term frequency): 문헌이나 질의 내 용어 t의 출현 빈도수


                         참고
용어가중치 계산              – c o n t ’d



 문헌빈도(Document frequency)
  n(no)            1
                          𝑁
  c(cosine)        log   𝑛
                          𝑁 − 𝑛(+0.5)
  p(prob idf )     log     𝑛(+0.5)


   N : DB내 레코드(문헌) 총 수
   n : DB내 용어 t가 출현하는 문헌 수
용어가중치 계산                      – c o n t ’d



 문헌길이 정규화(Document length normalization)
  n(no)               1
                           1
  c(cosine)
                               𝑤2
                                𝑖

                                                   𝑡𝑓
  a(최대 tf 정규화)         1 − 𝑤𝑖       + 𝑤𝑖 ×      max 𝑡𝑓
                                    𝑘 + 1 × 𝑡𝑓
  b(byte크기 정규화)
                                            𝑑𝑙
                       𝑘   1 − 𝑏 + 𝑏 × 𝑎𝑣𝑒𝑟𝑎𝑔𝑒 𝑑𝑙 + 𝑡𝑓

                                              1
  u(피벗고유단어 정규화)
                       1.0 − 𝑠𝑙𝑜𝑝𝑒 × 𝑝𝑖𝑣𝑜𝑡 + 𝑠𝑙𝑜𝑝𝑒 × # 𝑜𝑓 𝑢𝑛𝑖𝑞𝑢𝑒 𝑡𝑒𝑟𝑚𝑠



   dl : 문헌에 출현하는 단어 수(문헌길이) (average dl은 평균문헌길이)
   n : DB내 용어 t가 출현하는 문헌 수
용어가중치 조합 알고리즘

 문헌(혹은 질의) 내 용어빈도수(tf )만 사용
  bnn   1
  nnn   tf
  lnn   log 𝑡𝑓 + 1.0
용어가중치 조합 알고리즘         – c o n t ’d



 역문헌 빈도수(idf )만 사용
                 𝑁
  btn     log   𝑛
                 𝑁 − 𝑛 + 0.5
  bpn     log     𝑛 + 0.5
용어가중치 조합 알고리즘                       – c o n t ’d



 문헌(혹은 질의) 내 용어빈도수 × 역문헌 빈도수 사용
                      𝑁
  ntn     𝑡𝑓 × log   𝑛
                          𝑡𝑓             𝑁
  atn     0.5 + 0.5 × max        × log
                               𝑡𝑓        𝑛
                                      𝑁+1
  dtn     1 + log(1 + log 𝑡𝑓) ×
                                       𝑛
용어가중치 조합 알고리즘                           – c o n t ’d



 정규화
           log(𝑡𝑓)+1.0
  lnc
           (log 𝑡𝑓+1.0) 2
                      𝑁
             𝑡𝑓×log
  ntc                𝑛
                          𝑁 2
             𝑡𝑓×log
                          𝑛

                                     𝑁
           (log 𝑡𝑓+1.0)×log( 𝑛 )
  ltc                                       2
                                         𝑁
             log 𝑡𝑓+1.0 ×log 𝑛

                            𝑡𝑓
            0.5+0.5×
  anc
                          max 𝑡𝑓

                                𝑡𝑓   2
             0.5+0.5× max 𝑡𝑓
용어가중치 조합 알고리즘                                                 – c o n t ’d


                           𝑡𝑓        𝑁
              0.5+0.5×          ×log
 atc
                         max 𝑡𝑓      𝑛

                          𝑡𝑓    2         𝑁 2
            0.5+0.5× max 𝑡𝑓         × log 𝑛

                                  1.0 + log 𝑡𝑓
                                1.0 + log(𝑎𝑣𝑡𝑓)
 lnu     1.0 − 𝑠𝑙𝑜𝑝𝑒 × 𝑝𝑖𝑣𝑜𝑡 + 𝑠𝑙𝑜𝑝𝑒 × # 𝑜𝑓 𝑢𝑛𝑖𝑞𝑢𝑒 𝑡𝑒𝑟𝑚𝑠
                                                   𝑁
                         (1.0+log 𝑡𝑓)× log 𝑛
 ltu       1.0 − 𝑠𝑙𝑜𝑝𝑒 × 𝑝𝑖𝑣𝑜𝑡 + 𝑠𝑙𝑜𝑝𝑒 × # 𝑜𝑓 𝑢𝑛𝑖𝑞𝑢𝑒 𝑡𝑒𝑟𝑚𝑠
            1 + log(1 + log 𝑡𝑓)
 dnb                    𝑑𝑙 (𝑖𝑛 𝑏𝑦𝑡𝑒)
          0.8 + 0.2 × 𝑎𝑣𝑑𝑙 (𝑖𝑛 𝑏𝑦𝑡𝑒)

                         𝑡𝑓                             𝑁 − 𝑛 + 0.5
 npb                            𝑑𝑙             × log     𝑛 + 0.5
          2 × 0.25 + 0.75 ×     𝑎𝑣𝑑𝑙
                                        + 𝑡𝑓
Outline

 용어의 가중치
 벡터공간 모델
  벡터공간 모델과 코사인 계수
  유사계수에 의한 문헌의 순위화
  벡터공간 모델에서 가중치 평가
 확률 모델
 통계언어 모델
벡터공간 모델

 불리안 검색모델 단점
  검색문과 정확히 일치하지는 않으나 적합한 문헌을 검색하지 못함
   ▷ 부분 매칭 불가
  검색결과의 순위화 불가
  용어의 가중치를 질의어나 색인에 반영할 수 없음
   ▷ 이진(binary) 가중치 : 출현(1) or 비출현(0)


 벡터공간 모델
  Vector Model = Vector Space Model = Term Vector Model
  불리안 모델의 단점 보완
  부분 매칭(partial matching) 기법
    문헌과 질의의 유사도(similarity)를 기준으로 순위화 가능
    Cosine 유사도
벡터공간 모델        – c o n t ’d



 벡터로 표현하는 문서
  n 개의 개별용어가 출현하는 문서
   를 n-차원의 벡터 공간으로 표현
  용어(term)는 벡터 공간에서의 축
   (axe)을 의미
  문서는 벡터 공간에서 점 혹은 벡
   터이다.
  초 고차원(Very high-
   dimensional) 벡터
   웹 검색엔진에 적용 시 1000만-
   dimension 벡터로 표현
   ▶위 경우, sparse-vector: 대부분
   의 항목이 0(zero)임

   𝑑 𝑗 = (𝑤1𝑗 , 𝑤1𝑗 , ⋯ , 𝑤 𝑡𝑗 )
벡터공간 모델         – c o n t ’d



 벡터로 표현하는 질의
  Key idea 1: 질의를 같은 벡터 공간내의 벡터로 표현
  Key idea 2: 벡터 공간 내에서 질의와 문서 근접도에 따라 순위화
     근접도(proximity) = 벡터의 유사도(similarity)


 문헌과 질의의 벡터 표현
  𝑑 𝑗 = (𝑤1𝑗 , 𝑤2𝑗 , ⋯ , 𝑤 𝑡𝑗 )
  𝑞 = (𝑤1𝑞 , 𝑤2𝑞 , ⋯ , 𝑤 𝑡𝑞 )
  TF * IDF 가중치를 주로 사용
벡터공간 모델                  – c o n t ’d



 문헌 및 질의어의 벡터표현
       용어
 문헌/        1     2      3     4      5         6          7    …    n
 질의문


   term     검색    문헌    온톨로지   정보    컴퓨터       탐색         텍스트       퍼지모델


  문헌1       1     1      0     1      0         0          1         0


  문헌2       1     0      1     1      0         0          0         0


  문헌3       0.8   0      0.5   0.9    0         0          0         0


  문헌4       0.5   0.3    0.9   0.7    0         0          0         0


 검색문 1      1     0      0     1      0         0          0         0


 검색문 2      0.9   0      0     0.8    0         0          0         0
Outline

 용어의 가중치
 벡터공간 모델
  벡터공간 모델과 코사인 계수
  유사계수에 의한 문헌의 순위화
  벡터공간 모델에서 가중치 평가
 확률 모델
 통계언어 모델
거리를 이용한 유사도

 Euclidean distance
   두 문헌 d 1 (w 11 , w 12 ), d 2 (w 21 , w 22 ) 사이의 거리
    = (𝑤21 − 𝑤11 ) 2 +(𝑤22 − 𝑤12 ) 2
   거리가 가까운 두 문헌의
    유사도가 높음




 문제점과 대안
     거리가 짧으면 더욱 유사함
     방향성 고려하지 않음
     예) S(q, d 2 ) vs. S(q, d 1 )
     길이를 정규화한다.
정규화된 문헌길이 이용한 유사도

 Length Normalization
   모든 문헌 벡터의 길이가 1인 단위 벡터로 변환

  색인어       문헌 1    문헌 2       색인어        문헌 1            문헌 2

    a         5       0          a     5/8.367=0.598        0

    b         3       5          b     3/8.367=0.359   5/5.477=0.913

    c         6       2          c     6/8.367=0.717   2/5.477=0.365

    d         0       1          d          0          1/5.477=0.183
  용어의 출현빈도수                   용어의 출현빈도수

        문헌 1의 유클리디언 길이 = 52 + 32 + 62 = 8.367
        문헌 2의 유클리디언 길이 = 52 + 22 + 12 = 5.477


 정규화된 문헌길이를 이용한 유사도
   𝑠𝑖𝑚 𝑑 1 , 𝑑 2 = 0.359 × 0.913 + 0.717 × 0.365 = 0.589
벡터공간 모델과 코사인 계수

 코사인 계수
  두 문헌 사이의 각(angle)을 유사계수로 이용한다.
  이 때, 각을 직접 구하지 않고
   Consine 값을 이용한다.
              𝑉1 ∙𝑉2
  𝑐𝑜𝑠𝜃 =    𝑉1 𝑉2
                        𝑡
                        𝑗=1 (𝑤 1𝑗 ×𝑤 2𝑗 )
  𝑠𝑖𝑚 𝑑 1 , 𝑑 2 =
                       𝑡     𝑤 1𝑗 × 𝑡𝑗=1 𝑤 2𝑗
                               2           2
                       𝑗=1
벡터공간 모델과 코사인 계수                                                   – c o n t ’d



 예제
  D 1 = (전자도서관2, 장서1, 개발1, 보존1)
  Q = (전자도서관1, 디지털도서관1, 장서1, 개발1)

 ▷assume,
 (t 1 , t 2 , t 3 , t 4 , t 5 ) = (개발, 디지털도서관, 보존, 장서, 전자도서관)

  D 1 = (1, 0, 1, 1, 2)
  Q = (1, 1, 0, 1, 1)

                                       1×1+1×1+2×1
  cos 𝐷1 , 𝑄 = 𝑠𝑖𝑚 𝐷1 , 𝑄 =                                          = 0.76
                               (12 +12 +12 +2 2 )×(12 +12 +12 +12 )



 벡터의 내적계수만으로 유사도를 산출하기도 함
코사인 그래프          – 참고



 코사인 그래프와 사인 그래프 비교




                  출처: http://mwultong.blogspot.com
Outline

 용어의 가중치
 벡터공간 모델
  벡터공간 모델과 코사인 계수
  유사계수에 의한 문헌의 순위화
  벡터공간 모델에서 가중치 평가
 확률 모델
 통계언어 모델
유사계수에 의한 문헌의 순위화

 등간 데이터(inter val data)
   유클리디안 거리(Euclidean distance)
    𝐷 𝑋, 𝑌 =           𝑖 (𝑥 𝑖   − 𝑦 𝑖 )2
   제곱 유클리디안 거리
    𝐷 𝑋, 𝑌 =   𝑖 (𝑥 𝑖      − 𝑦 𝑖 )2
   블록(block) 또는 맨하탄(Manhattan) 거리
    𝐷 𝑋, 𝑌 =   𝑖       𝑥𝑖 − 𝑦𝑖
   민코브스키 거리(Minkowski metric)
                                          1
                                      𝑝
    𝐷 𝑋, 𝑌 =       𝑖    𝑥𝑖 − 𝑦𝑖           𝑝
유사계수에 의한 문헌의 순위화                                      – c o n t ’d



 등간 데이터(inter val data)
   피어슨 상관계수(Pearson correlation coefficient)
                      𝑖 (𝑥 𝑖 −𝑥 )(𝑦 𝑖 −𝑦 )
     𝑆 𝑋, 𝑌 =
                                 2×                 2
                  𝑖 (𝑥 𝑖 −𝑥 )         𝑖 (𝑦 𝑖 −𝑦 )

   코사인 계수(Cosine coefficient)
                      𝑖 (𝑥 𝑖   𝑦 𝑖)
     𝑆 𝑋, 𝑌 =
                  𝑖   𝑥 𝑖2× 𝑖 𝑦 𝑖2

   내적 계수(Vector 또는 Inner product)
     𝑆 𝑋, 𝑌 =   𝑖 (𝑥 𝑖   𝑦 𝑖)
유사계수에 의한 문헌의 순위화                              – c o n t ’d



 이진 데이터(binar y data)
                              질의(문헌)에서 용어 t

                             출현           비출현

               출현              a           b
  문헌에서 용어 t
               비출현             c           d

   유클리디안 거리     𝐷 𝑋, 𝑌 =     𝑏+ 𝑐
                              (𝑏−𝑐) 2
   크기 차이        𝐷 𝑋, 𝑌 =   (𝑎+𝑏+𝑐+𝑑) 2
                               (𝑏+𝑐)
   분산           𝐷 𝑋, 𝑌 =   4(𝑎+𝑏+𝑐+𝑑)
                              𝑏+𝑐
   랜스/윌리암스계수    𝐷 𝑋, 𝑌 =   2𝑎+𝑏+𝑐
유사계수에 의한 문헌의 순위화                                  – c o n t ’d



 이진 데이터(binar y data)
                                        𝑎+𝑑
   단순일치 계수              S 𝑋, 𝑌 =    𝑎+𝑏+𝑐+𝑑
                                         𝑎
   러셀/라오 계수             S X, Y =   𝑎+𝑏+𝑐+𝑑
                                       𝑎
   자카드 계수               S X, Y =   𝑎+𝑏+𝑐
                                      2𝑎
   다이스 계수               S X, Y =   2𝑎+𝑏+𝑐
                                         𝑎+𝑑
   로저스/타니모토 계수          S X, Y =   𝑎+𝑑+2(𝑏+𝑐)
                                     𝑎𝑑− 𝑏𝑐
   율의 Y                 S X, Y =
                                     𝑎𝑑+ 𝑏𝑐
                                    𝑎𝑑 −𝑏𝑐
   율의 Q                 S X, Y =   𝑎𝑑+𝑏𝑐
                                           𝑎
   오치아이 계수              S X, Y =
                                     (𝑎+𝑏)× (𝑎+𝑐)
유사계수에 의한 문헌의 순위화                                                       – 예제



 문헌과 질의의 유사도 계산 예제
  문헌 D i = (3, 2, 1, 0, 0, 0, 1, 1)
  질의 Q = (1, 1, 1, 0, 0, 1, 0, 0)

                      𝑡
                   2  𝑘=1 (𝑇 𝑖𝑘 ×𝑇 𝑞𝑘 )            2×6
  다이스 계수 =        𝑡            𝑡              =         =1
                   𝑘=1 𝑇 𝑖𝑘 + 𝑘=1 𝑇 𝑞𝑘             8+4
                                (𝑇 𝑖𝑘 ×𝑇 𝑞𝑘 )                  6
  자카드 계수 =                                              =           =1
                       𝑇 𝑖𝑘 +   𝑇 𝑞𝑘 − (𝑇 𝑖𝑘 ×𝑇 𝑞𝑘 )         8+4−6

                          (𝑇 𝑖𝑘 ×𝑇 𝑞𝑘 )             6            6
  코싸인 계수 =                                    =             =
                                                   16×4          8
                       (𝑇 𝑖𝑘 ) 2 × (𝑇 𝑞𝑘 ) 2
벡터공간 모델의 장단점

 장점
  유사도(Similarity) 계산으로 검색결과의 순위화가 가능함
  검색문에 복잡한 불리안 연산자를 사용하지 않음


 단점
  검색문 벡터와 모든 문헌벡터를 순차적으로 비교하기 때문에 반응속도
   느림
   ▶ 인터넷 같은 대용량 데이터 검색에 한계가 있음


 단점 극복을 위한 노력
  클러스터 모델(Cluster Model) 이용
  역색인파일(Inverted index file)을 활용하여 최소 하나의 색인어라도
   검색되는 문헌에 한하여 유사도를 계산
Outline

 용어의 가중치
 벡터공간 모델
  벡터공간 모델과 코사인 계수
  유사계수에 의한 문헌의 순위화
  벡터공간 모델에서 가중치 평가
 확률 모델
 통계언어 모델
확률 모델

 확률모델(Probabilistic Retrieval Model)
   질의에 대해 각 문헌의 적합할 확률과 부적합할 확률을 계산
   적합할(relevant) 확률 > 부적합할(non-relevant) 확률 ▶ 검색결과


 가정
   각 문헌은 주어진 질의에 적합 혹은 부적합하다
   한 문헌에 대한 적합성 판정은 다른 문헌의 적합성에 영향을 끼치기
    않음
확률 모델             – c o n t ’d




            𝑷 𝑫 𝑹 𝑷(𝑹)                𝑷 𝑫 𝑵𝑹 𝑷(𝑵𝑹)
 𝑷 𝑹 𝑫 =              ,   𝑷 𝑵𝑹 𝑫 =
               𝑷(𝑫)                       𝑷(𝑫)


 If 𝑷 𝑫 𝑹 𝑷(𝑹) > 𝑷 𝑫 𝑵𝑹 𝑷(𝑵𝑹)
  Then D는 적합(relevant)
P(D|R)과 P(D|NR) 추정

 D=( d 1 , d 2 , …, d t ) 일 때,
                  𝑡
    𝑃 𝐷 𝑅 =      𝑖=1 𝑃(𝑑 𝑖 |𝑅)
                    𝑡
    𝑃 𝐷 𝑁𝑅 =       𝑖=1 𝑃(𝑑 𝑖 |𝑁𝑅)


 이진독립모델 (Binar y Independence Model)
    문헌 내의 용어는 서로 독립적
    단어는 문헌 내에 0(absence) 혹은 1(presence)로 표현
문헌의 적합성

 문헌의 적합성 평가
              적합문헌일 확률
  적합성   =
             부적합문헌일 확률
                𝑃(𝐷|𝑅)
             =
               𝑃(𝐷|𝑁𝑅)
                𝑛
                             𝑝 𝑘 /(1 − 𝑝 𝑘 )
             =     𝑑 𝑘 × 𝑙𝑜𝑔                 + 𝐶
                             𝑞 𝑘 /(1 − 𝑞 𝑘 )
                𝑘=0
확률모델의 용어 가중치

 N개의 문서로 구성된 문서 집합에서 색인어의 출현빈도
                          질문에 대해
                                               계
               적합문헌                부적합문헌

  용어 i의 출현      r (+c)             n-r (+c)    N

  용어 i의 비출현    R-r (+c)        N-n-R+r (+c)    N-n

     계         R (+2c)             N-R (+2c)   N
확률모델의 용어 가중치                                         – c o n t ’d


                 𝑟 /𝑅
 𝐹1 = 𝑙𝑜𝑔
                 𝑛/𝑁
                      𝑟 /𝑅
 𝐹2 = 𝑙𝑜𝑔
                 (𝑛−𝑟 )/(𝑁−𝑅 )
                 𝑟 /(𝑅−𝑟 )
 𝐹3 = 𝑙𝑜𝑔
                 𝑛/(𝑁−𝑛)
                       𝑟 /(𝑅−𝑟 )                 𝑟 (𝑁−𝑛−𝑅 +𝑟 )
 𝐹4 = 𝑙𝑜𝑔                             = 𝑙𝑜𝑔
                 (𝑛−𝑟 )/(𝑁−𝑛−𝑅 +𝑟 )              (𝑛−𝑟 )(𝑅−𝑟 )


                             𝑛           𝑛
          𝑛             (𝑟+ 𝑁 )(𝑁−𝑛−𝑅+𝑟− 𝑁 +1)
   𝐹4(     )   = 𝑙𝑜𝑔            𝑛      𝑛
          𝑁              (𝑛−𝑟+ 𝑁 )(𝑅−𝑟+ 𝑁 +1)
                        (𝑟+0.5)(𝑁−𝑛−𝑅+𝑟+0.5)
   𝐹4(.5) = 𝑙𝑜𝑔         (𝑛−𝑟+0.5)(𝑅−𝑟+0.5)
용어의 출현빈도 고려한 공식들

                                   𝑡𝑓              𝑞𝑡𝑓
 𝐵𝑀15 =        𝐹4(.5) ×                   ×
                               𝑘 1 +𝑡𝑓         𝑘 3 +𝑞𝑡𝑓
                                     𝑡𝑓                 𝑞𝑡𝑓
 𝐵𝑀11 =        𝐹4(.5) ×       𝑘 1 ×𝑑𝑙         ×
                                       +𝑡𝑓          𝑘 3 +𝑞𝑡𝑓
                                 𝑎𝑣𝑑𝑙

                                               𝑡𝑓                     (𝑘 3 +1)𝑞𝑡𝑓
 𝐵𝑀25 =        𝐹4(.5) ×                            𝑑𝑙
                                                                  ×
                               𝑘1        1−𝑏 +𝑏 𝑎𝑣𝑑𝑙 +𝑡𝑓                𝑘 3 +𝑞𝑡𝑓

 𝐵𝑀25 수정
                                    𝑡𝑓                       ( 𝑘 3 + 1 ) 𝑞 𝑡𝑓                𝑎 𝑣 𝑑𝑙 − 𝑑𝑙
   =   𝐹 4 (. 5 ) ×                                      ×                      + 𝑘2 × 𝑛 𝑞
                                            𝑑𝑙                  𝑘 3 + 𝑞 𝑡𝑓                   𝑎 𝑣 𝑑𝑙 + 𝑑𝑙
                      𝑘1   1− 𝑏 + 𝑏              + 𝑡𝑓
                                          𝑎 𝑣 𝑑𝑙
용어의 출현빈도 고려한 공식들                                                    – c o n t ’d



 K 1 =1~2, b=0.75, k 3 =1~1000 주로 사용
   문헌의 적합성
            𝑁−𝑛+0.5               𝑘 1 +1 ×𝑡𝑓           (𝑘 3 +1)×𝑞𝑡𝑓
      =               ×                  𝑑𝑙
                                                   ×
             𝑛+0.5           𝑘 1 1−𝑏 +𝑏 𝑎𝑣𝑑𝑙 +𝑡𝑓           𝑘 3 +𝑞𝑡𝑓



 피벗정규화 공식
          1+log (1+log 𝑡𝑓 )                    𝑁+1
                      𝑑𝑙       × 𝑞𝑡𝑓 × 𝑙𝑜𝑔
             1−𝑠 +𝑠                             𝑛
                      𝑎𝑣𝑑𝑙
Outline

 용어의 가중치
 벡터공간 모델
  벡터공간 모델과 코사인 계수
  유사계수에 의한 문헌의 순위화
  벡터공간 모델에서 가중치 평가
 확률 모델
 통계언어 모델
통계언어 모델

 언어 모델링(language modeling)
  자연어의 문법, 구문, 단어 등의 규칙성을 찾는 것
  음성인식, 기계번역, 문자인식, 철자교정 분야에서 연구
 언어 모델링의 구분
  지식기반 모델
      정규문법(regular grammar)
      문맥자유문법(context-free grammar)
      비문법성에 의한 규칙을 정의하기 어려움
      특정 영역에서의 자연언어 처리(NLP)에 일부 사용됨
  통계 모델
    말뭉치(corpus)에서 언어규칙을 확률로 표현
    대규모 데이터 처리 분야에서 비교적 쉽고 효과적으로 사용됨
통계언어 모델                               – c o n t ’d



 𝑷 𝒕 𝟏 , 𝒕 𝟐 , … , 𝒕 𝒊 = 𝑷 𝒕 𝟏 𝑷 𝒕 𝟐 𝒕 𝟏 𝑷 𝒕 𝟑 𝒕 𝟐 … 𝑷 𝒕 𝒊 𝒕 𝒊−𝟏
 n-gram 모델
    𝑃 𝑠 ≅ 𝑃 𝑡1 , 𝑡 2 , … , 𝑡 𝑖 =          𝑃(𝑡 𝑖 |𝑡 𝑖−𝑛+1 , … , 𝑡 𝑖−1 )
    𝑃 𝑢𝑛𝑖 (𝑡1 , 𝑡 2 , 𝑡 3 ) = 𝑃 𝑡1 𝑃 𝑡 2 𝑃(𝑡 3 )
    𝑃 𝑏𝑖 (𝑡1 , 𝑡 2 , 𝑡 3 ) = 𝑃 𝑡1 𝑃 𝑡 2 |𝑡1 𝑃(𝑡 3 |𝑡 2 )

   ※ 음성인식, 기계번역 : 2 or 3-gram 주로 사용
   ※ 정보검색 : uni-gram 주로 사용
통계언어 모델                       – c o n t ’d



 Bayse 이론
                                       𝑃 𝑄 𝐷 𝑃(𝐷)
   𝑃 𝐷 𝑄 = 𝑃 𝐷 𝑞1 , 𝑞 2 , … , 𝑞 𝑖 =      𝑃(𝑄)

 Ponte & Croft (1998)
   다변량 베르누이(multi-variate Bernoulli) 모델 사용
   단어 출현 여부를 1, 0으로 표현
   𝑃 𝑄 𝐷 = 𝑃 𝑞1 , 𝑞 2 , … , 𝑞 𝑖 D = 𝑃(𝑞 𝑖 |𝐷) + (1 − 𝑃 𝑞 𝑖 𝐷 )
 Hiemstra (1998), Song & Croft (1999)
     단어의      출현빈도 사용
     𝑃 𝑞𝑖 𝐷   → 중요 용어가 생성될 확률
     𝑃 𝑞𝑖 𝐶   → 비중요 용어가 생성될 확률
     𝑃 𝑄 𝐷    = 𝑃 𝑞1 , 𝑞 2 , … , 𝑞 𝑖 D = (𝜆𝑃 𝑞 𝑖 𝐷 + (1 − 𝜆)𝑃 𝑞 𝑖 𝐶
통계언어 모델 - 예제

 예문
  d1 = Google was better than Yahoo in terms of precision
  d2 = Google ranks pages by the pagerank algorithm


              문헌 𝑑 에서 𝑞 𝑖 의 출현빈도
  𝑃 𝑞𝑖 𝐷 =
               문헌 𝑑 의 길이 ( 총빈도 )
              컬렉션내 𝑞 𝑖 의 출현빈도
  𝑃 𝑞𝑖 𝐶 =
                컬렉션의 길이

                  1     2          0     1       17       45
  𝑃 𝑄 𝐷1 = 0.5   9
                      + 16 × 0.5   9
                                       + 16 =   144
                                                      × 144 = 0.0037
                  1     2          0     1       15       11.5
  𝑃 𝑄 𝐷2 = 0.5   7
                      + 16 × 0.5   7
                                       + 16 =   112
                                                      ×   112
                                                                 = 0.0137

Contenu connexe

Tendances

[수정본] 우아한 객체지향
[수정본] 우아한 객체지향[수정본] 우아한 객체지향
[수정본] 우아한 객체지향Young-Ho Cho
 
LODAC 2017 Linked Open Data Workshop
LODAC 2017 Linked Open Data WorkshopLODAC 2017 Linked Open Data Workshop
LODAC 2017 Linked Open Data WorkshopMyungjin Lee
 
History of Web Technology
History of Web TechnologyHistory of Web Technology
History of Web TechnologyShuvo Malakar
 
애플리케이션 아키텍처와 객체지향
애플리케이션 아키텍처와 객체지향 애플리케이션 아키텍처와 객체지향
애플리케이션 아키텍처와 객체지향 Young-Ho Cho
 
Building Modern APIs with GraphQL
Building Modern APIs with GraphQLBuilding Modern APIs with GraphQL
Building Modern APIs with GraphQLAmazon Web Services
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영NAVER D2
 
웹 접근성 평가도구 OpenWAX 뜯어보기
웹 접근성 평가도구 OpenWAX 뜯어보기웹 접근성 평가도구 OpenWAX 뜯어보기
웹 접근성 평가도구 OpenWAX 뜯어보기Goonoo Kim
 
웨일브라우저 성능 및 메모리 최적화
웨일브라우저 성능 및 메모리 최적화웨일브라우저 성능 및 메모리 최적화
웨일브라우저 성능 및 메모리 최적화NAVER D2
 
Introduction To RDF and RDFS
Introduction To RDF and RDFSIntroduction To RDF and RDFS
Introduction To RDF and RDFSNilesh Wagmare
 
Intro to Coldfusion
Intro to ColdfusionIntro to Coldfusion
Intro to ColdfusionTerry Ryan
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화NAVER D2
 
[111015/아꿈사] HTML5를 여행하는 비(非) 웹 개발자를 위한 안내서 - 1부 웹소켓.
[111015/아꿈사] HTML5를 여행하는 비(非) 웹 개발자를 위한 안내서 - 1부 웹소켓.[111015/아꿈사] HTML5를 여행하는 비(非) 웹 개발자를 위한 안내서 - 1부 웹소켓.
[111015/아꿈사] HTML5를 여행하는 비(非) 웹 개발자를 위한 안내서 - 1부 웹소켓.sung ki choi
 
도메인 주도 설계의 본질
도메인 주도 설계의 본질도메인 주도 설계의 본질
도메인 주도 설계의 본질Young-Ho Cho
 
Inference on the Semantic Web
Inference on the Semantic WebInference on the Semantic Web
Inference on the Semantic WebMyungjin Lee
 
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)Osori Hanyang
 
SPARQL 사용법
SPARQL 사용법SPARQL 사용법
SPARQL 사용법홍수 허
 
Querying the Semantic Web with SPARQL
Querying the Semantic Web with SPARQLQuerying the Semantic Web with SPARQL
Querying the Semantic Web with SPARQLEmanuele Della Valle
 
[2017 Gaming on AWS] GameLift를 통한 실전 DevOps: 세션형 멀티플레이어 게임의 구현부터 운영까지 Step by...
[2017 Gaming on AWS] GameLift를 통한 실전 DevOps: 세션형 멀티플레이어 게임의 구현부터 운영까지 Step by...[2017 Gaming on AWS] GameLift를 통한 실전 DevOps: 세션형 멀티플레이어 게임의 구현부터 운영까지 Step by...
[2017 Gaming on AWS] GameLift를 통한 실전 DevOps: 세션형 멀티플레이어 게임의 구현부터 운영까지 Step by...Amazon Web Services Korea
 

Tendances (20)

[수정본] 우아한 객체지향
[수정본] 우아한 객체지향[수정본] 우아한 객체지향
[수정본] 우아한 객체지향
 
LODAC 2017 Linked Open Data Workshop
LODAC 2017 Linked Open Data WorkshopLODAC 2017 Linked Open Data Workshop
LODAC 2017 Linked Open Data Workshop
 
History of Web Technology
History of Web TechnologyHistory of Web Technology
History of Web Technology
 
애플리케이션 아키텍처와 객체지향
애플리케이션 아키텍처와 객체지향 애플리케이션 아키텍처와 객체지향
애플리케이션 아키텍처와 객체지향
 
SwiftのDI方法につい て最近考えてた話
SwiftのDI方法につい て最近考えてた話SwiftのDI方法につい て最近考えてた話
SwiftのDI方法につい て最近考えてた話
 
Building Modern APIs with GraphQL
Building Modern APIs with GraphQLBuilding Modern APIs with GraphQL
Building Modern APIs with GraphQL
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영
 
웹 접근성 평가도구 OpenWAX 뜯어보기
웹 접근성 평가도구 OpenWAX 뜯어보기웹 접근성 평가도구 OpenWAX 뜯어보기
웹 접근성 평가도구 OpenWAX 뜯어보기
 
웨일브라우저 성능 및 메모리 최적화
웨일브라우저 성능 및 메모리 최적화웨일브라우저 성능 및 메모리 최적화
웨일브라우저 성능 및 메모리 최적화
 
Introduction To RDF and RDFS
Introduction To RDF and RDFSIntroduction To RDF and RDFS
Introduction To RDF and RDFS
 
Intro to Coldfusion
Intro to ColdfusionIntro to Coldfusion
Intro to Coldfusion
 
개발자를 위한 네이버 클라우드 플랫폼ㅣNAVER CLOUD PLATFORM for Developers
개발자를 위한 네이버 클라우드 플랫폼ㅣNAVER CLOUD PLATFORM for Developers 개발자를 위한 네이버 클라우드 플랫폼ㅣNAVER CLOUD PLATFORM for Developers
개발자를 위한 네이버 클라우드 플랫폼ㅣNAVER CLOUD PLATFORM for Developers
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화
 
[111015/아꿈사] HTML5를 여행하는 비(非) 웹 개발자를 위한 안내서 - 1부 웹소켓.
[111015/아꿈사] HTML5를 여행하는 비(非) 웹 개발자를 위한 안내서 - 1부 웹소켓.[111015/아꿈사] HTML5를 여행하는 비(非) 웹 개발자를 위한 안내서 - 1부 웹소켓.
[111015/아꿈사] HTML5를 여행하는 비(非) 웹 개발자를 위한 안내서 - 1부 웹소켓.
 
도메인 주도 설계의 본질
도메인 주도 설계의 본질도메인 주도 설계의 본질
도메인 주도 설계의 본질
 
Inference on the Semantic Web
Inference on the Semantic WebInference on the Semantic Web
Inference on the Semantic Web
 
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)
 
SPARQL 사용법
SPARQL 사용법SPARQL 사용법
SPARQL 사용법
 
Querying the Semantic Web with SPARQL
Querying the Semantic Web with SPARQLQuerying the Semantic Web with SPARQL
Querying the Semantic Web with SPARQL
 
[2017 Gaming on AWS] GameLift를 통한 실전 DevOps: 세션형 멀티플레이어 게임의 구현부터 운영까지 Step by...
[2017 Gaming on AWS] GameLift를 통한 실전 DevOps: 세션형 멀티플레이어 게임의 구현부터 운영까지 Step by...[2017 Gaming on AWS] GameLift를 통한 실전 DevOps: 세션형 멀티플레이어 게임의 구현부터 운영까지 Step by...
[2017 Gaming on AWS] GameLift를 통한 실전 DevOps: 세션형 멀티플레이어 게임의 구현부터 운영까지 Step by...
 

En vedette

제4장 불리언 검색
제4장 불리언 검색제4장 불리언 검색
제4장 불리언 검색Chang-yong Jung
 
제1장 정보검색소개
제1장 정보검색소개제1장 정보검색소개
제1장 정보검색소개Chang-yong Jung
 
제4장 선박용 장비의 통신규약 / 시리얼통신 / NMEA0183
제4장 선박용 장비의 통신규약 / 시리얼통신 / NMEA0183제4장 선박용 장비의 통신규약 / 시리얼통신 / NMEA0183
제4장 선박용 장비의 통신규약 / 시리얼통신 / NMEA0183Chang-yong Jung
 
NMEA0183 Parser 실습과제
NMEA0183 Parser 실습과제NMEA0183 Parser 실습과제
NMEA0183 Parser 실습과제Chang-yong Jung
 
제5장 NMEA Parser 구현
제5장 NMEA Parser 구현제5장 NMEA Parser 구현
제5장 NMEA Parser 구현Chang-yong Jung
 
제1장 강의소개 / 선박구조 및 기본개념
제1장 강의소개 / 선박구조 및 기본개념제1장 강의소개 / 선박구조 및 기본개념
제1장 강의소개 / 선박구조 및 기본개념Chang-yong Jung
 
제3장 GMDSS 및 항해보조장비
제3장 GMDSS 및 항해보조장비제3장 GMDSS 및 항해보조장비
제3장 GMDSS 및 항해보조장비Chang-yong Jung
 
제2장 IMO / IHO / SOLAS 규약 / 선급
제2장 IMO / IHO / SOLAS 규약 / 선급제2장 IMO / IHO / SOLAS 규약 / 선급
제2장 IMO / IHO / SOLAS 규약 / 선급Chang-yong Jung
 

En vedette (9)

제4장 불리언 검색
제4장 불리언 검색제4장 불리언 검색
제4장 불리언 검색
 
제5장 사전파일
제5장 사전파일제5장 사전파일
제5장 사전파일
 
제1장 정보검색소개
제1장 정보검색소개제1장 정보검색소개
제1장 정보검색소개
 
제4장 선박용 장비의 통신규약 / 시리얼통신 / NMEA0183
제4장 선박용 장비의 통신규약 / 시리얼통신 / NMEA0183제4장 선박용 장비의 통신규약 / 시리얼통신 / NMEA0183
제4장 선박용 장비의 통신규약 / 시리얼통신 / NMEA0183
 
NMEA0183 Parser 실습과제
NMEA0183 Parser 실습과제NMEA0183 Parser 실습과제
NMEA0183 Parser 실습과제
 
제5장 NMEA Parser 구현
제5장 NMEA Parser 구현제5장 NMEA Parser 구현
제5장 NMEA Parser 구현
 
제1장 강의소개 / 선박구조 및 기본개념
제1장 강의소개 / 선박구조 및 기본개념제1장 강의소개 / 선박구조 및 기본개념
제1장 강의소개 / 선박구조 및 기본개념
 
제3장 GMDSS 및 항해보조장비
제3장 GMDSS 및 항해보조장비제3장 GMDSS 및 항해보조장비
제3장 GMDSS 및 항해보조장비
 
제2장 IMO / IHO / SOLAS 규약 / 선급
제2장 IMO / IHO / SOLAS 규약 / 선급제2장 IMO / IHO / SOLAS 규약 / 선급
제2장 IMO / IHO / SOLAS 규약 / 선급
 

Similaire à 제7장 비불리언 모델

머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)홍배 김
 
Adversarial Attack in Neural Machine Translation
Adversarial Attack in Neural Machine TranslationAdversarial Attack in Neural Machine Translation
Adversarial Attack in Neural Machine TranslationHyunKyu Jeon
 
2.supervised learning
2.supervised learning2.supervised learning
2.supervised learningHaesun Park
 
Code로 이해하는 RNN
Code로 이해하는 RNNCode로 이해하는 RNN
Code로 이해하는 RNNSANG WON PARK
 
Brief hystory of NLP and Word2Vec
Brief hystory of NLP and Word2VecBrief hystory of NLP and Word2Vec
Brief hystory of NLP and Word2VecSilverQ
 
2.linear regression and logistic regression
2.linear regression and logistic regression2.linear regression and logistic regression
2.linear regression and logistic regressionHaesun Park
 
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)Adonis Han
 
Support Vector Machine Tutorial 한국어
Support Vector Machine Tutorial 한국어Support Vector Machine Tutorial 한국어
Support Vector Machine Tutorial 한국어Jungkyu Lee
 
2.supervised learning(epoch#2)-3
2.supervised learning(epoch#2)-32.supervised learning(epoch#2)-3
2.supervised learning(epoch#2)-3Haesun Park
 
[SICP] 4.4 Logic Programming : 논리로 프로그램 짜기
[SICP] 4.4 Logic Programming : 논리로 프로그램 짜기[SICP] 4.4 Logic Programming : 논리로 프로그램 짜기
[SICP] 4.4 Logic Programming : 논리로 프로그램 짜기종빈 오
 
DP 알고리즘에 대해 알아보자.pdf
DP 알고리즘에 대해 알아보자.pdfDP 알고리즘에 대해 알아보자.pdf
DP 알고리즘에 대해 알아보자.pdfHo Jeong Im
 
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)WON JOON YOO
 
1.자료구조와 알고리즘(강의자료)
1.자료구조와 알고리즘(강의자료)1.자료구조와 알고리즘(강의자료)
1.자료구조와 알고리즘(강의자료)fmbvbfhs
 
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)WON JOON YOO
 
최소 편집 거리와 동적 프로그래밍
최소 편집 거리와 동적 프로그래밍최소 편집 거리와 동적 프로그래밍
최소 편집 거리와 동적 프로그래밍EunGi Hong
 
코딩테스트 합격자 되기 2주차 스터디 - 리스트_딕셔너리
코딩테스트 합격자 되기 2주차 스터디 - 리스트_딕셔너리코딩테스트 합격자 되기 2주차 스터디 - 리스트_딕셔너리
코딩테스트 합격자 되기 2주차 스터디 - 리스트_딕셔너리ultrasuperrok
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지Haesun Park
 

Similaire à 제7장 비불리언 모델 (20)

머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)
 
Adversarial Attack in Neural Machine Translation
Adversarial Attack in Neural Machine TranslationAdversarial Attack in Neural Machine Translation
Adversarial Attack in Neural Machine Translation
 
Topic models
Topic modelsTopic models
Topic models
 
2.supervised learning
2.supervised learning2.supervised learning
2.supervised learning
 
Code로 이해하는 RNN
Code로 이해하는 RNNCode로 이해하는 RNN
Code로 이해하는 RNN
 
Brief hystory of NLP and Word2Vec
Brief hystory of NLP and Word2VecBrief hystory of NLP and Word2Vec
Brief hystory of NLP and Word2Vec
 
2.linear regression and logistic regression
2.linear regression and logistic regression2.linear regression and logistic regression
2.linear regression and logistic regression
 
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
 
Support Vector Machine Tutorial 한국어
Support Vector Machine Tutorial 한국어Support Vector Machine Tutorial 한국어
Support Vector Machine Tutorial 한국어
 
2.supervised learning(epoch#2)-3
2.supervised learning(epoch#2)-32.supervised learning(epoch#2)-3
2.supervised learning(epoch#2)-3
 
[SICP] 4.4 Logic Programming : 논리로 프로그램 짜기
[SICP] 4.4 Logic Programming : 논리로 프로그램 짜기[SICP] 4.4 Logic Programming : 논리로 프로그램 짜기
[SICP] 4.4 Logic Programming : 논리로 프로그램 짜기
 
DP 알고리즘에 대해 알아보자.pdf
DP 알고리즘에 대해 알아보자.pdfDP 알고리즘에 대해 알아보자.pdf
DP 알고리즘에 대해 알아보자.pdf
 
R.T.Bach
R.T.BachR.T.Bach
R.T.Bach
 
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
 
07. PCA
07. PCA07. PCA
07. PCA
 
1.자료구조와 알고리즘(강의자료)
1.자료구조와 알고리즘(강의자료)1.자료구조와 알고리즘(강의자료)
1.자료구조와 알고리즘(강의자료)
 
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
 
최소 편집 거리와 동적 프로그래밍
최소 편집 거리와 동적 프로그래밍최소 편집 거리와 동적 프로그래밍
최소 편집 거리와 동적 프로그래밍
 
코딩테스트 합격자 되기 2주차 스터디 - 리스트_딕셔너리
코딩테스트 합격자 되기 2주차 스터디 - 리스트_딕셔너리코딩테스트 합격자 되기 2주차 스터디 - 리스트_딕셔너리
코딩테스트 합격자 되기 2주차 스터디 - 리스트_딕셔너리
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
 

제7장 비불리언 모델

  • 1. 정보검색 제7장. 비불리언 모델 INFORMATION RETRIEVAL 강의: 정창용 (timothy97@gmail.com) http://www.facebook.com/hhuIR Korea Maritime University Navis Control Inc.
  • 2. Over view  용어의 가중치  벡터공간 모델  벡터공간 모델과 코사인 계수  유사계수에 의한 문헌의 순위화  벡터공간 모델에서 가중치 평가  확률 모델  통계언어 모델
  • 3. 비불리언 모델  비불리언 시스템  질의를 불리언 연산자로 표현하지 않음  문헌집단 내 모든 문헌을 대상으로 질의와의 유사도(적합성)에 따라 순 위화하는 시스템  유사도 계산을 위해서 용어(질의, 문헌)의 가중치가 중요
  • 4. Outline  용어의 가중치  벡터공간 모델  벡터공간 모델과 코사인 계수  유사계수에 의한 문헌의 순위화  벡터공간 모델에서 가중치 평가  확률 모델  통계언어 모델
  • 5. 용어의 가중치(Weight)  용어의 가중치(weight)  문헌에서 해당 용어의 중요도  용어 가중치 부여 방법  용어빈도 기법  문헌에 출현한 용어의 빈도수를 기반으로 부여  문헌빈도 기법  여러 문헌에 출현하는 단어보다 소수의 특정 문헌에 출현하는 단어에 더 높 은 가중치를 추는 방법  문헌길이 정규화기법(normalization)  문헌이 길수록 용어의 출현빈도가 높음  문헌의 길이에 따라 용어의 가중치가 영향 받는 것을 최소화 함
  • 6. tf * idf  정의  TF (Term Frequency) : number of occurred term in a document  DF (Document Frequency) : number of documents where term occurs  IDF (Inverse Document Frequency) : Inverse DF  Weight = TF * IDF  TF가 크고, DF가 작을수록 가중치는 커진다.  전체문서에서 공통적으로 등장하는 단어들은 걸러지게 된다. 많은 문서에서 출현하는 term은 의미가 없다는 의미 문서의 총 개수 term을 포함한 문서의 개수
  • 7. 용어가중치 계산  용어빈도(Term frequency)  b(binary) 1(출현), 0(비출현)  n(natural) tf 𝑐 ∗𝑡𝑓  a(augmented) 𝑐+ 𝑚𝑎𝑥 𝑖 𝑡𝑓  l(logarithm) 1 + log 𝑡𝑓 tf (term frequency): 문헌이나 질의 내 용어 t의 출현 빈도수 참고
  • 8. 용어가중치 계산 – c o n t ’d  문헌빈도(Document frequency)  n(no) 1 𝑁  c(cosine) log 𝑛 𝑁 − 𝑛(+0.5)  p(prob idf ) log 𝑛(+0.5) N : DB내 레코드(문헌) 총 수 n : DB내 용어 t가 출현하는 문헌 수
  • 9. 용어가중치 계산 – c o n t ’d  문헌길이 정규화(Document length normalization)  n(no) 1 1  c(cosine) 𝑤2 𝑖 𝑡𝑓  a(최대 tf 정규화) 1 − 𝑤𝑖 + 𝑤𝑖 × max 𝑡𝑓 𝑘 + 1 × 𝑡𝑓  b(byte크기 정규화) 𝑑𝑙 𝑘 1 − 𝑏 + 𝑏 × 𝑎𝑣𝑒𝑟𝑎𝑔𝑒 𝑑𝑙 + 𝑡𝑓 1  u(피벗고유단어 정규화) 1.0 − 𝑠𝑙𝑜𝑝𝑒 × 𝑝𝑖𝑣𝑜𝑡 + 𝑠𝑙𝑜𝑝𝑒 × # 𝑜𝑓 𝑢𝑛𝑖𝑞𝑢𝑒 𝑡𝑒𝑟𝑚𝑠 dl : 문헌에 출현하는 단어 수(문헌길이) (average dl은 평균문헌길이) n : DB내 용어 t가 출현하는 문헌 수
  • 10. 용어가중치 조합 알고리즘  문헌(혹은 질의) 내 용어빈도수(tf )만 사용  bnn 1  nnn tf  lnn log 𝑡𝑓 + 1.0
  • 11. 용어가중치 조합 알고리즘 – c o n t ’d  역문헌 빈도수(idf )만 사용 𝑁  btn log 𝑛 𝑁 − 𝑛 + 0.5  bpn log 𝑛 + 0.5
  • 12. 용어가중치 조합 알고리즘 – c o n t ’d  문헌(혹은 질의) 내 용어빈도수 × 역문헌 빈도수 사용 𝑁  ntn 𝑡𝑓 × log 𝑛 𝑡𝑓 𝑁  atn 0.5 + 0.5 × max × log 𝑡𝑓 𝑛 𝑁+1  dtn 1 + log(1 + log 𝑡𝑓) × 𝑛
  • 13. 용어가중치 조합 알고리즘 – c o n t ’d  정규화 log(𝑡𝑓)+1.0  lnc (log 𝑡𝑓+1.0) 2 𝑁 𝑡𝑓×log  ntc 𝑛 𝑁 2 𝑡𝑓×log 𝑛 𝑁 (log 𝑡𝑓+1.0)×log( 𝑛 )  ltc 2 𝑁 log 𝑡𝑓+1.0 ×log 𝑛 𝑡𝑓 0.5+0.5×  anc max 𝑡𝑓 𝑡𝑓 2 0.5+0.5× max 𝑡𝑓
  • 14. 용어가중치 조합 알고리즘 – c o n t ’d 𝑡𝑓 𝑁 0.5+0.5× ×log  atc max 𝑡𝑓 𝑛 𝑡𝑓 2 𝑁 2 0.5+0.5× max 𝑡𝑓 × log 𝑛 1.0 + log 𝑡𝑓 1.0 + log(𝑎𝑣𝑡𝑓)  lnu 1.0 − 𝑠𝑙𝑜𝑝𝑒 × 𝑝𝑖𝑣𝑜𝑡 + 𝑠𝑙𝑜𝑝𝑒 × # 𝑜𝑓 𝑢𝑛𝑖𝑞𝑢𝑒 𝑡𝑒𝑟𝑚𝑠 𝑁 (1.0+log 𝑡𝑓)× log 𝑛  ltu 1.0 − 𝑠𝑙𝑜𝑝𝑒 × 𝑝𝑖𝑣𝑜𝑡 + 𝑠𝑙𝑜𝑝𝑒 × # 𝑜𝑓 𝑢𝑛𝑖𝑞𝑢𝑒 𝑡𝑒𝑟𝑚𝑠 1 + log(1 + log 𝑡𝑓)  dnb 𝑑𝑙 (𝑖𝑛 𝑏𝑦𝑡𝑒) 0.8 + 0.2 × 𝑎𝑣𝑑𝑙 (𝑖𝑛 𝑏𝑦𝑡𝑒) 𝑡𝑓 𝑁 − 𝑛 + 0.5  npb 𝑑𝑙 × log 𝑛 + 0.5 2 × 0.25 + 0.75 × 𝑎𝑣𝑑𝑙 + 𝑡𝑓
  • 15. Outline  용어의 가중치  벡터공간 모델  벡터공간 모델과 코사인 계수  유사계수에 의한 문헌의 순위화  벡터공간 모델에서 가중치 평가  확률 모델  통계언어 모델
  • 16. 벡터공간 모델  불리안 검색모델 단점  검색문과 정확히 일치하지는 않으나 적합한 문헌을 검색하지 못함 ▷ 부분 매칭 불가  검색결과의 순위화 불가  용어의 가중치를 질의어나 색인에 반영할 수 없음 ▷ 이진(binary) 가중치 : 출현(1) or 비출현(0)  벡터공간 모델  Vector Model = Vector Space Model = Term Vector Model  불리안 모델의 단점 보완  부분 매칭(partial matching) 기법  문헌과 질의의 유사도(similarity)를 기준으로 순위화 가능  Cosine 유사도
  • 17. 벡터공간 모델 – c o n t ’d  벡터로 표현하는 문서  n 개의 개별용어가 출현하는 문서 를 n-차원의 벡터 공간으로 표현  용어(term)는 벡터 공간에서의 축 (axe)을 의미  문서는 벡터 공간에서 점 혹은 벡 터이다.  초 고차원(Very high- dimensional) 벡터 웹 검색엔진에 적용 시 1000만- dimension 벡터로 표현 ▶위 경우, sparse-vector: 대부분 의 항목이 0(zero)임 𝑑 𝑗 = (𝑤1𝑗 , 𝑤1𝑗 , ⋯ , 𝑤 𝑡𝑗 )
  • 18. 벡터공간 모델 – c o n t ’d  벡터로 표현하는 질의  Key idea 1: 질의를 같은 벡터 공간내의 벡터로 표현  Key idea 2: 벡터 공간 내에서 질의와 문서 근접도에 따라 순위화  근접도(proximity) = 벡터의 유사도(similarity)  문헌과 질의의 벡터 표현  𝑑 𝑗 = (𝑤1𝑗 , 𝑤2𝑗 , ⋯ , 𝑤 𝑡𝑗 )  𝑞 = (𝑤1𝑞 , 𝑤2𝑞 , ⋯ , 𝑤 𝑡𝑞 )  TF * IDF 가중치를 주로 사용
  • 19. 벡터공간 모델 – c o n t ’d  문헌 및 질의어의 벡터표현 용어 문헌/ 1 2 3 4 5 6 7 … n 질의문 term 검색 문헌 온톨로지 정보 컴퓨터 탐색 텍스트 퍼지모델 문헌1 1 1 0 1 0 0 1 0 문헌2 1 0 1 1 0 0 0 0 문헌3 0.8 0 0.5 0.9 0 0 0 0 문헌4 0.5 0.3 0.9 0.7 0 0 0 0 검색문 1 1 0 0 1 0 0 0 0 검색문 2 0.9 0 0 0.8 0 0 0 0
  • 20. Outline  용어의 가중치  벡터공간 모델  벡터공간 모델과 코사인 계수  유사계수에 의한 문헌의 순위화  벡터공간 모델에서 가중치 평가  확률 모델  통계언어 모델
  • 21. 거리를 이용한 유사도  Euclidean distance  두 문헌 d 1 (w 11 , w 12 ), d 2 (w 21 , w 22 ) 사이의 거리 = (𝑤21 − 𝑤11 ) 2 +(𝑤22 − 𝑤12 ) 2  거리가 가까운 두 문헌의 유사도가 높음  문제점과 대안  거리가 짧으면 더욱 유사함  방향성 고려하지 않음  예) S(q, d 2 ) vs. S(q, d 1 )  길이를 정규화한다.
  • 22. 정규화된 문헌길이 이용한 유사도  Length Normalization  모든 문헌 벡터의 길이가 1인 단위 벡터로 변환 색인어 문헌 1 문헌 2 색인어 문헌 1 문헌 2 a 5 0 a 5/8.367=0.598 0 b 3 5 b 3/8.367=0.359 5/5.477=0.913 c 6 2 c 6/8.367=0.717 2/5.477=0.365 d 0 1 d 0 1/5.477=0.183 용어의 출현빈도수 용어의 출현빈도수 문헌 1의 유클리디언 길이 = 52 + 32 + 62 = 8.367 문헌 2의 유클리디언 길이 = 52 + 22 + 12 = 5.477  정규화된 문헌길이를 이용한 유사도  𝑠𝑖𝑚 𝑑 1 , 𝑑 2 = 0.359 × 0.913 + 0.717 × 0.365 = 0.589
  • 23. 벡터공간 모델과 코사인 계수  코사인 계수  두 문헌 사이의 각(angle)을 유사계수로 이용한다.  이 때, 각을 직접 구하지 않고 Consine 값을 이용한다. 𝑉1 ∙𝑉2  𝑐𝑜𝑠𝜃 = 𝑉1 𝑉2 𝑡 𝑗=1 (𝑤 1𝑗 ×𝑤 2𝑗 )  𝑠𝑖𝑚 𝑑 1 , 𝑑 2 = 𝑡 𝑤 1𝑗 × 𝑡𝑗=1 𝑤 2𝑗 2 2 𝑗=1
  • 24. 벡터공간 모델과 코사인 계수 – c o n t ’d  예제  D 1 = (전자도서관2, 장서1, 개발1, 보존1)  Q = (전자도서관1, 디지털도서관1, 장서1, 개발1) ▷assume, (t 1 , t 2 , t 3 , t 4 , t 5 ) = (개발, 디지털도서관, 보존, 장서, 전자도서관)  D 1 = (1, 0, 1, 1, 2)  Q = (1, 1, 0, 1, 1) 1×1+1×1+2×1  cos 𝐷1 , 𝑄 = 𝑠𝑖𝑚 𝐷1 , 𝑄 = = 0.76 (12 +12 +12 +2 2 )×(12 +12 +12 +12 )  벡터의 내적계수만으로 유사도를 산출하기도 함
  • 25. 코사인 그래프 – 참고  코사인 그래프와 사인 그래프 비교 출처: http://mwultong.blogspot.com
  • 26. Outline  용어의 가중치  벡터공간 모델  벡터공간 모델과 코사인 계수  유사계수에 의한 문헌의 순위화  벡터공간 모델에서 가중치 평가  확률 모델  통계언어 모델
  • 27. 유사계수에 의한 문헌의 순위화  등간 데이터(inter val data)  유클리디안 거리(Euclidean distance)  𝐷 𝑋, 𝑌 = 𝑖 (𝑥 𝑖 − 𝑦 𝑖 )2  제곱 유클리디안 거리  𝐷 𝑋, 𝑌 = 𝑖 (𝑥 𝑖 − 𝑦 𝑖 )2  블록(block) 또는 맨하탄(Manhattan) 거리  𝐷 𝑋, 𝑌 = 𝑖 𝑥𝑖 − 𝑦𝑖  민코브스키 거리(Minkowski metric) 1 𝑝  𝐷 𝑋, 𝑌 = 𝑖 𝑥𝑖 − 𝑦𝑖 𝑝
  • 28. 유사계수에 의한 문헌의 순위화 – c o n t ’d  등간 데이터(inter val data)  피어슨 상관계수(Pearson correlation coefficient) 𝑖 (𝑥 𝑖 −𝑥 )(𝑦 𝑖 −𝑦 )  𝑆 𝑋, 𝑌 = 2× 2 𝑖 (𝑥 𝑖 −𝑥 ) 𝑖 (𝑦 𝑖 −𝑦 )  코사인 계수(Cosine coefficient) 𝑖 (𝑥 𝑖 𝑦 𝑖)  𝑆 𝑋, 𝑌 = 𝑖 𝑥 𝑖2× 𝑖 𝑦 𝑖2  내적 계수(Vector 또는 Inner product)  𝑆 𝑋, 𝑌 = 𝑖 (𝑥 𝑖 𝑦 𝑖)
  • 29. 유사계수에 의한 문헌의 순위화 – c o n t ’d  이진 데이터(binar y data) 질의(문헌)에서 용어 t 출현 비출현 출현 a b 문헌에서 용어 t 비출현 c d  유클리디안 거리 𝐷 𝑋, 𝑌 = 𝑏+ 𝑐 (𝑏−𝑐) 2  크기 차이 𝐷 𝑋, 𝑌 = (𝑎+𝑏+𝑐+𝑑) 2 (𝑏+𝑐)  분산 𝐷 𝑋, 𝑌 = 4(𝑎+𝑏+𝑐+𝑑) 𝑏+𝑐  랜스/윌리암스계수 𝐷 𝑋, 𝑌 = 2𝑎+𝑏+𝑐
  • 30. 유사계수에 의한 문헌의 순위화 – c o n t ’d  이진 데이터(binar y data) 𝑎+𝑑  단순일치 계수 S 𝑋, 𝑌 = 𝑎+𝑏+𝑐+𝑑 𝑎  러셀/라오 계수 S X, Y = 𝑎+𝑏+𝑐+𝑑 𝑎  자카드 계수 S X, Y = 𝑎+𝑏+𝑐 2𝑎  다이스 계수 S X, Y = 2𝑎+𝑏+𝑐 𝑎+𝑑  로저스/타니모토 계수 S X, Y = 𝑎+𝑑+2(𝑏+𝑐) 𝑎𝑑− 𝑏𝑐  율의 Y S X, Y = 𝑎𝑑+ 𝑏𝑐 𝑎𝑑 −𝑏𝑐  율의 Q S X, Y = 𝑎𝑑+𝑏𝑐 𝑎  오치아이 계수 S X, Y = (𝑎+𝑏)× (𝑎+𝑐)
  • 31. 유사계수에 의한 문헌의 순위화 – 예제  문헌과 질의의 유사도 계산 예제  문헌 D i = (3, 2, 1, 0, 0, 0, 1, 1)  질의 Q = (1, 1, 1, 0, 0, 1, 0, 0) 𝑡 2 𝑘=1 (𝑇 𝑖𝑘 ×𝑇 𝑞𝑘 ) 2×6  다이스 계수 = 𝑡 𝑡 = =1 𝑘=1 𝑇 𝑖𝑘 + 𝑘=1 𝑇 𝑞𝑘 8+4 (𝑇 𝑖𝑘 ×𝑇 𝑞𝑘 ) 6  자카드 계수 = = =1 𝑇 𝑖𝑘 + 𝑇 𝑞𝑘 − (𝑇 𝑖𝑘 ×𝑇 𝑞𝑘 ) 8+4−6 (𝑇 𝑖𝑘 ×𝑇 𝑞𝑘 ) 6 6  코싸인 계수 = = = 16×4 8 (𝑇 𝑖𝑘 ) 2 × (𝑇 𝑞𝑘 ) 2
  • 32. 벡터공간 모델의 장단점  장점  유사도(Similarity) 계산으로 검색결과의 순위화가 가능함  검색문에 복잡한 불리안 연산자를 사용하지 않음  단점  검색문 벡터와 모든 문헌벡터를 순차적으로 비교하기 때문에 반응속도 느림 ▶ 인터넷 같은 대용량 데이터 검색에 한계가 있음  단점 극복을 위한 노력  클러스터 모델(Cluster Model) 이용  역색인파일(Inverted index file)을 활용하여 최소 하나의 색인어라도 검색되는 문헌에 한하여 유사도를 계산
  • 33. Outline  용어의 가중치  벡터공간 모델  벡터공간 모델과 코사인 계수  유사계수에 의한 문헌의 순위화  벡터공간 모델에서 가중치 평가  확률 모델  통계언어 모델
  • 34. 확률 모델  확률모델(Probabilistic Retrieval Model)  질의에 대해 각 문헌의 적합할 확률과 부적합할 확률을 계산  적합할(relevant) 확률 > 부적합할(non-relevant) 확률 ▶ 검색결과  가정  각 문헌은 주어진 질의에 적합 혹은 부적합하다  한 문헌에 대한 적합성 판정은 다른 문헌의 적합성에 영향을 끼치기 않음
  • 35. 확률 모델 – c o n t ’d 𝑷 𝑫 𝑹 𝑷(𝑹) 𝑷 𝑫 𝑵𝑹 𝑷(𝑵𝑹)  𝑷 𝑹 𝑫 = , 𝑷 𝑵𝑹 𝑫 = 𝑷(𝑫) 𝑷(𝑫)  If 𝑷 𝑫 𝑹 𝑷(𝑹) > 𝑷 𝑫 𝑵𝑹 𝑷(𝑵𝑹) Then D는 적합(relevant)
  • 36. P(D|R)과 P(D|NR) 추정  D=( d 1 , d 2 , …, d t ) 일 때, 𝑡  𝑃 𝐷 𝑅 = 𝑖=1 𝑃(𝑑 𝑖 |𝑅) 𝑡  𝑃 𝐷 𝑁𝑅 = 𝑖=1 𝑃(𝑑 𝑖 |𝑁𝑅)  이진독립모델 (Binar y Independence Model)  문헌 내의 용어는 서로 독립적  단어는 문헌 내에 0(absence) 혹은 1(presence)로 표현
  • 37. 문헌의 적합성  문헌의 적합성 평가 적합문헌일 확률  적합성 = 부적합문헌일 확률 𝑃(𝐷|𝑅) = 𝑃(𝐷|𝑁𝑅) 𝑛 𝑝 𝑘 /(1 − 𝑝 𝑘 ) = 𝑑 𝑘 × 𝑙𝑜𝑔 + 𝐶 𝑞 𝑘 /(1 − 𝑞 𝑘 ) 𝑘=0
  • 38. 확률모델의 용어 가중치  N개의 문서로 구성된 문서 집합에서 색인어의 출현빈도 질문에 대해 계 적합문헌 부적합문헌 용어 i의 출현 r (+c) n-r (+c) N 용어 i의 비출현 R-r (+c) N-n-R+r (+c) N-n 계 R (+2c) N-R (+2c) N
  • 39. 확률모델의 용어 가중치 – c o n t ’d 𝑟 /𝑅  𝐹1 = 𝑙𝑜𝑔 𝑛/𝑁 𝑟 /𝑅  𝐹2 = 𝑙𝑜𝑔 (𝑛−𝑟 )/(𝑁−𝑅 ) 𝑟 /(𝑅−𝑟 )  𝐹3 = 𝑙𝑜𝑔 𝑛/(𝑁−𝑛) 𝑟 /(𝑅−𝑟 ) 𝑟 (𝑁−𝑛−𝑅 +𝑟 )  𝐹4 = 𝑙𝑜𝑔 = 𝑙𝑜𝑔 (𝑛−𝑟 )/(𝑁−𝑛−𝑅 +𝑟 ) (𝑛−𝑟 )(𝑅−𝑟 ) 𝑛 𝑛 𝑛 (𝑟+ 𝑁 )(𝑁−𝑛−𝑅+𝑟− 𝑁 +1)  𝐹4( ) = 𝑙𝑜𝑔 𝑛 𝑛 𝑁 (𝑛−𝑟+ 𝑁 )(𝑅−𝑟+ 𝑁 +1) (𝑟+0.5)(𝑁−𝑛−𝑅+𝑟+0.5)  𝐹4(.5) = 𝑙𝑜𝑔 (𝑛−𝑟+0.5)(𝑅−𝑟+0.5)
  • 40. 용어의 출현빈도 고려한 공식들 𝑡𝑓 𝑞𝑡𝑓  𝐵𝑀15 = 𝐹4(.5) × × 𝑘 1 +𝑡𝑓 𝑘 3 +𝑞𝑡𝑓 𝑡𝑓 𝑞𝑡𝑓  𝐵𝑀11 = 𝐹4(.5) × 𝑘 1 ×𝑑𝑙 × +𝑡𝑓 𝑘 3 +𝑞𝑡𝑓 𝑎𝑣𝑑𝑙 𝑡𝑓 (𝑘 3 +1)𝑞𝑡𝑓  𝐵𝑀25 = 𝐹4(.5) × 𝑑𝑙 × 𝑘1 1−𝑏 +𝑏 𝑎𝑣𝑑𝑙 +𝑡𝑓 𝑘 3 +𝑞𝑡𝑓  𝐵𝑀25 수정 𝑡𝑓 ( 𝑘 3 + 1 ) 𝑞 𝑡𝑓 𝑎 𝑣 𝑑𝑙 − 𝑑𝑙 = 𝐹 4 (. 5 ) × × + 𝑘2 × 𝑛 𝑞 𝑑𝑙 𝑘 3 + 𝑞 𝑡𝑓 𝑎 𝑣 𝑑𝑙 + 𝑑𝑙 𝑘1 1− 𝑏 + 𝑏 + 𝑡𝑓 𝑎 𝑣 𝑑𝑙
  • 41. 용어의 출현빈도 고려한 공식들 – c o n t ’d  K 1 =1~2, b=0.75, k 3 =1~1000 주로 사용  문헌의 적합성 𝑁−𝑛+0.5 𝑘 1 +1 ×𝑡𝑓 (𝑘 3 +1)×𝑞𝑡𝑓 = × 𝑑𝑙 × 𝑛+0.5 𝑘 1 1−𝑏 +𝑏 𝑎𝑣𝑑𝑙 +𝑡𝑓 𝑘 3 +𝑞𝑡𝑓  피벗정규화 공식 1+log (1+log 𝑡𝑓 ) 𝑁+1  𝑑𝑙 × 𝑞𝑡𝑓 × 𝑙𝑜𝑔 1−𝑠 +𝑠 𝑛 𝑎𝑣𝑑𝑙
  • 42. Outline  용어의 가중치  벡터공간 모델  벡터공간 모델과 코사인 계수  유사계수에 의한 문헌의 순위화  벡터공간 모델에서 가중치 평가  확률 모델  통계언어 모델
  • 43. 통계언어 모델  언어 모델링(language modeling)  자연어의 문법, 구문, 단어 등의 규칙성을 찾는 것  음성인식, 기계번역, 문자인식, 철자교정 분야에서 연구  언어 모델링의 구분  지식기반 모델  정규문법(regular grammar)  문맥자유문법(context-free grammar)  비문법성에 의한 규칙을 정의하기 어려움  특정 영역에서의 자연언어 처리(NLP)에 일부 사용됨  통계 모델  말뭉치(corpus)에서 언어규칙을 확률로 표현  대규모 데이터 처리 분야에서 비교적 쉽고 효과적으로 사용됨
  • 44. 통계언어 모델 – c o n t ’d  𝑷 𝒕 𝟏 , 𝒕 𝟐 , … , 𝒕 𝒊 = 𝑷 𝒕 𝟏 𝑷 𝒕 𝟐 𝒕 𝟏 𝑷 𝒕 𝟑 𝒕 𝟐 … 𝑷 𝒕 𝒊 𝒕 𝒊−𝟏  n-gram 모델  𝑃 𝑠 ≅ 𝑃 𝑡1 , 𝑡 2 , … , 𝑡 𝑖 = 𝑃(𝑡 𝑖 |𝑡 𝑖−𝑛+1 , … , 𝑡 𝑖−1 )  𝑃 𝑢𝑛𝑖 (𝑡1 , 𝑡 2 , 𝑡 3 ) = 𝑃 𝑡1 𝑃 𝑡 2 𝑃(𝑡 3 )  𝑃 𝑏𝑖 (𝑡1 , 𝑡 2 , 𝑡 3 ) = 𝑃 𝑡1 𝑃 𝑡 2 |𝑡1 𝑃(𝑡 3 |𝑡 2 ) ※ 음성인식, 기계번역 : 2 or 3-gram 주로 사용 ※ 정보검색 : uni-gram 주로 사용
  • 45. 통계언어 모델 – c o n t ’d  Bayse 이론 𝑃 𝑄 𝐷 𝑃(𝐷)  𝑃 𝐷 𝑄 = 𝑃 𝐷 𝑞1 , 𝑞 2 , … , 𝑞 𝑖 = 𝑃(𝑄)  Ponte & Croft (1998)  다변량 베르누이(multi-variate Bernoulli) 모델 사용  단어 출현 여부를 1, 0으로 표현  𝑃 𝑄 𝐷 = 𝑃 𝑞1 , 𝑞 2 , … , 𝑞 𝑖 D = 𝑃(𝑞 𝑖 |𝐷) + (1 − 𝑃 𝑞 𝑖 𝐷 )  Hiemstra (1998), Song & Croft (1999)  단어의 출현빈도 사용  𝑃 𝑞𝑖 𝐷 → 중요 용어가 생성될 확률  𝑃 𝑞𝑖 𝐶 → 비중요 용어가 생성될 확률  𝑃 𝑄 𝐷 = 𝑃 𝑞1 , 𝑞 2 , … , 𝑞 𝑖 D = (𝜆𝑃 𝑞 𝑖 𝐷 + (1 − 𝜆)𝑃 𝑞 𝑖 𝐶
  • 46. 통계언어 모델 - 예제  예문  d1 = Google was better than Yahoo in terms of precision  d2 = Google ranks pages by the pagerank algorithm 문헌 𝑑 에서 𝑞 𝑖 의 출현빈도  𝑃 𝑞𝑖 𝐷 = 문헌 𝑑 의 길이 ( 총빈도 ) 컬렉션내 𝑞 𝑖 의 출현빈도  𝑃 𝑞𝑖 𝐶 = 컬렉션의 길이 1 2 0 1 17 45  𝑃 𝑄 𝐷1 = 0.5 9 + 16 × 0.5 9 + 16 = 144 × 144 = 0.0037 1 2 0 1 15 11.5  𝑃 𝑄 𝐷2 = 0.5 7 + 16 × 0.5 7 + 16 = 112 × 112 = 0.0137