<aside>
📌 프로젝트를 위해 공부 했던 'HetGNN' 에 대해 정리하고자 한다. 이번 포스팅에서는 'HetGNN'을 처음 소개했던 'Heterogeneous Graph Neural Network' 논문의 내용을 바탕으로 참고 자료와 함께 다시 정리하였다.
</aside>
0. Preliminaries
RandomWalk with Restart (RWR)
- Graph nodes의 무작위적인 움직임을 통해 특정 node의 값을 다른 node로 전달하는 algorithm
- out-bound 없는 node에서 teleportation을 위해 사전에 정의된 확률로 원점으로 돌아오도록 설계
$$
r_t=(1-p)A^Tr_{t-1}+pr_0
$$
- $r_t$ : node vector, $r_0$ : target(start) node vector (binary vector), $A$ : adjacency matrix
- $p$ : restart proba
- Implementation
1. Introduction
- DeepWalk와 같은 shallow models, semantic-aware한 Metapath2Vec, content-aware 접근방식의 ASNE 등의 선행연구가 존재 하지만, 이러한 방법론들은 node의 ‘latent’를 직접적으로 학습하는 방법으로 충분한 neighborhood 정보를 담지 못하는 한계점 존재
- Graph Neural Network(GNN)은 neighborhood nodes 특성 정보 aggregate데 Deep learning을 적용하여 이러한 한계점을 개선
- 하지만 여전히 Heterogenous graph representation learning에서 각 node 로 부터 유의미한 vector representation을 학습하는것은 몇 가지 어려움 존재
1.1 GNN have not well solved the following challenges faced for HetG

C1 : Sampling heterogeneous neighbors
- HetG의 상당수의 nodes는 이종 정보의 이웃과 연결되어 있지 않고, 인접된 node의 수는 node 마다 다름
- 대부분 GNN에서는 1근접 노드 특징 정보만 집계하여 특징 전파에서 먼 이웃 노드의 영향력이 약화될 수 있음
- 또한, ‘hub-nodes’의 embedding은 ‘noise-neighbors(weakly correlated)’ 에 영향에 robust하지 못할 수 있음 으며 ‘cold-start node’의 embedding 이웃노드 정보의 한계로 충분히 나타내지 못하는 한계
C2 : Encoding heterogeneous contents