<aside> 📌 프로젝트를 위해 공부 했던 'Graphormer' 에 대해 정리하고자 한다. 이번 포스팅에서는 'Graphormer'을 처음 소개했던 'Do Transformers Really Perform Bad for Graph Representation?' 논문의 내용을 바탕으로 참고 자료와 함께 다시 정리하였다.
</aside>
[ 그림 1 ] illustration of Graphormer architecture
attention은 centrality information을 충분히 담지 못함 (의미론적 유사성을 계산함)
Centrality Encoding을 degree 값으로 표현 (BERT의 position encoding과 유사)
In-degree embedding, Out-degree embedding간에 합을 통해 centrality를 정의
$$ h^{(0)}i = x_i\,+\,z^-{deg^-{(u_i)}}\,+\,z^+_{deg^+(u_i)} \;\;where\;\;z^-,\,z^+\in \mathbb{R} $$
( $z^-,\,z^+$ 는 learnable embedding vectors )
$\therefore$ Sementic correlation과 node importance를 attention에 고려 가능하게 함