metapath2vec: Scalable Representation Learning for Heterogeneous Networks

<aside> 📌 프로젝트를 위해 공부 했던 'metapath2vec' 에 대해 정리하고자 한다. 이번 포스팅에서는 'metapath2vec'을 처음 소개했던 'metapath2vec: Scalable Representation Learning for Heterogeneous Networks' 논문의 내용을 바탕으로 참고 자료와 함께 다시 정리하였다.

</aside>

0. Preliminaries

Negative sampling

Word2Vec의 CBOW와 Skip-gram 모두 vocab size가 많아질수록 계산 복잡도가 증가하는 한계점을 보완하기 위해 제안
target word와 Positive sample에 대해서 weight update하고, Negative sample은 전체 단어가 아닌 일부 단어만 weight update하는 방법
전체 문장에서 자주 사용되는 단어에 높은 가중치를 부여하여 sample 추출

$$ P_n(w_i) = (\frac{f(w_i)}{\sum^n_{j=1}f(w_i)})^{3/4} $$

$f(w_i)$ : 해당 단어의 출현 빈도

1. Introduction

word2vec에 기반한 network representation learning 방법은 수작업으로 network feature 설계하는 대신, 유의미한 latent feature를 자동으로 추출 가능함
하지만 앞선 방식들은 singular-type relationships (homogeneous networks) 초점을 두고 있음
HetG는 HomG에 초점 둔 representation learning models는 처리할 수 없는 challenges 존재

1.1 'HetG' present unique challenges that cannot be handled by ‘HomG’

C1 : How do we effecitvely preserve the concept of word-context among multiple type of nodes ?

C2 : Can random walks be applied to HetG ?

본 논문에서는 HetG에서 meta-path를 기반한 random walk method 제안
다양한 유형의 nodes에 대해 network semantices 가진 이웃 생성

C3 : Can we directly apply HomG oriented embedding architectures(e.g skip-gram) to HetG ?

Skip-gram을 확장하여 의미적, 지리적으로(벡터 공간상 인접) 가까운 노드는 인접 되도록 설계
HetG negative sampling 방법을 적용함으로 HetG 이웃 노드를 효과적으로 예측 하도록 설계