Publicité

220906_Glove

NLP Researcher à YonSei University
14 Mar 2023
Publicité

Contenu connexe

Publicité

220906_Glove

  1. GloVe : Global Vectors for Word Representation 유용상 EMNLP 2014
  2. Introduction LSA - 카운트 기반 - 코퍼스의 전체적 통계 정보 고려 - 단어 의미 유추 힘듦 Word2Vec - 예측 기반 - 단어간 유추 성능 좋음 - 윈도우 크기 내에서만 단어 고려해서 전체적 반영 X GloVe
  3. How? Vector Embedding을 할 때(Word2Vec) 말뭉치 전체의 통계 정보도 반영하자(LSA) 임베딩 된 중심 단어와 주변 단어 벡터의 내적(유사도)이 전체 코퍼스에서의 동시 등장 확률이 되도록 만드는 것
  4. Window based Co-occurrence Matrix • 윈도우 기반 동시 등장 행렬 - i 단어의 윈도우 크기 내에서 k 단어가 등장한 횟수를 i행 k열에 기재한 행렬
  5. Co-occurrence Probability • 동시 등장 행렬에서 특정 단어 i의 전체 등장 횟수를 카운트 -> i가 등장했을 때 어떤 단어 k가 등장할 조건부 확률
  6. Mathematical Proof (1) ① 초기 식 ② 단어 의미 관계 표현 위해 뺄셈, 내적 선택 ③ 중심 단어와 주변 단어는 무작위 선택이므로 i와 j가 서로 바뀌어도 상관없어야 함 뺄셈에 대한 준동형식 원래 식에 적용한 식, 우변이 였으므로 두 개는 같다고 할 수 있다 좌변 전개한 것
  7. Mathematical Proof (2) ④ ③식을 만족하는 함수 <- exp(지수) 함수 ⑤ i와 k를 바꾸어도 식이 성립하기 위해 에 대한 상수항 , , 로 대체
  8. Weighting function • 동시 등장 행렬 X 는 희소 행렬일 가능성이 높음 -> 많은 값이 0이거나 매우 작은 수치임 • 동시 등장 빈도의 값이 굉장히 낮은 경우에 정보에 거의 도움이 되지 않기 때문에 가중치 함수 도입
  9. Experiments Task 2 : word similarity task Task 3 : NER Task Task 1 : word analogy task
  10. Model analysis • Vector length and Context size - syntactic task -> 작고 비대칭적인 window size 가 더 높은 성능을 보임 - semantic task -> 큰 window size가 더 높은 성능을 보임 (syntactic task보다 더 non-local, target word에서 멂) Symmetric context : context window가 target word의 왼쪽, 오른쪽으로 확장될 수 있다. Asymmetric context : Context window가 target word의 왼쪽으로만 확장될 수 있다 Syntactic :구문적인, 통사론적인 Semantic : 의미적인
  11. Model analysis • Run-time - Analogy task 에서 같은 corpus, vocab, window size, training time 조건 하에서 word2vec보다 좋은 성능을 보임
  12. Code Practice
  13. Review • Glove가 matrix factorization method(count 기반)와 shallow window- based method(확률 기반)에서 취한 이점은 각각 무엇일까요? • 손실 함수에 weighting function을 도입한 이유는 무엇일까요? • Word2vec과 glove의 차이점은 무엇일까요?
  14. Reference • https://wikidocs.net/22885 • https://sumim.tistory.com/entry/NLP-근본-논문-1-GloVe-Global- Vectors-for-Word-Representation • https://github.com/ukairia777/tensorflow-nlp- tutorial/blob/main/09.%20Word%20Embedding/9-5.%20glove.ipynb
Publicité