자연어처리 - cos유사도, Word2Vec, Doc2Vec
cos유사도 서로의 벡터를 계산하는 공식. 선대시간에 신나게 했었다. 같을수록 1에 가까우며 다르면 0에 가깝다. tf, tf-idf 먼저 제공된 데이터로 단어장을 만든 후 각 단어의 빈도수를 체크하여 나온 값을 문장들의 벡터를 생성한다. 여기서 idf는 너무 자주나오는 단어는 변별성이 없다고 판단하여 감소키니는 차이가 있다. import numpy as np from numpy import dot from numpy.linalg import norm import pandas as pd # Cosine Simiarity def cos_sim(A, B): return dot(A, B)/(norm(A)*norm(B)) doc1 = np.array([0,1,1,1]) doc2 = np.array([1,0,1,..
2024. 3. 20.