图神经网络模型的构成、训练和使用

我们来系统地阐述图神经网络模型的构成、训练和使用。这是一个从理论到实践的完整流程。

图神经网络的核心思想是：通过神经网络层之间的信息传递，来捕捉图中节点之间的依赖关系和拓扑结构。 它的输入不是一个独立的样本集合，而是一个互相关联的图结构。

一个典型的GNN模型由以下几个核心部分构成：

图数据通常表示为

G = (V, E)

，其中：

$V$ 是节点集合。
$E$ 是边集合。
节点和边都可以拥有特征（或称属性）。
- 节点特征矩阵 $X$ : $X \in R^{| V | \times F}$ ，其中 $F$ 是节点特征的维度。
- 邻接矩阵 $A$ : $A \in R^{| V | \times | V |}$ ，表示节点之间的连接关系。如果节点 $i$ 和节点 $j$ 之间有边，则 $A_{i j} = 1$ ，否则为0。

这是GNN的“发动机”。其基本操作可以概括为三个步骤：1. 信息聚合 -> 2. 信息更新 -> 3. 非线性变换。

我们以最经典的图卷积网络（GCN） 的一层为例：

信息聚合：每个节点从它的直接邻居（一阶邻居）那里收集信息。
- 具体操作：将邻居节点的特征向量进行加权求和。
- 在GCN中，这个加权是通过对邻接矩阵 $A$ 进行归一化（例如加上自环 $A + I$ 并用度矩阵 $D$ 进行归一化）来实现的，使得聚合过程既考虑了邻居信息，也考虑了节点自身的重要性（度）。
信息更新：将聚合后的邻居信息与节点自身的信息结合，生成该节点的新表示（新的特征向量）。
- 公式化表达（GCN层）： $H^{(l + 1)} = σ ({\hat{D}}^{- \frac{1}{2}} \hat{A} {\hat{D}}^{- \frac{1}{2}} H^{(l)} W^{(l)})$ $H^{(l + 1)} = σ ({\hat{D}}^{- \frac{1}{2}} \hat{A} {\hat{D}}^{- \frac{1}{2}} H^{(l)} W^{(l)})$ H^((l+1))=sigma( hat(D)^(-(1)/(2)) hat(A) hat(D)^(-(1)/(2))H^((l))W^((l)))H^{(l+1)} = \sigma(\hat{D}^{-\frac{1}{2}}\hat{A}\hat{D}^{-\frac{1}{2}}H^{(l)}W^{(l)}) $H^{(l + 1)} = σ ({\hat{D}}^{- \frac{1}{2}} \hat{A} {\hat{D}}^{- \frac{1}{2}} H^{(l)} W^{(l)})$
  - $H^{(l)}$ ：第 $l$ 层的节点特征矩阵（输入）， $H^{(0)} = X$ 。
  - $\hat{A} = A + I$ ：加了自环的邻接矩阵。
  - $\hat{D}$ ： $\hat{A}$ 的度矩阵。
  - $W^{(l)}$ ：第 $l$ 层可训练的权重矩阵。
  - $σ$ ：非线性激活函数，如ReLU。

堆叠多层GNN层：通过堆叠多个这样的层，节点可以接收到来自“邻居的邻居”的信息。第

k

层的一个节点可以捕获其

k

-hop 邻域内的结构信息。

在经过若干层图卷积后，我们得到了每个节点更新后的特征表示。但对于图级别的任务（如图分类），我们需要将整个图表示成一个单一的向量。

常见的读出函数包括：

根据具体任务，将最终的节点/图表示输入到一个标准的神经网络层中进行预测。

GNN的训练过程与监督学习类似，但有其特殊性。

根据任务不同，选择不同的损失函数：

节点分类：交叉熵损失。仅使用有标签的节点来计算损失。 $L = - \sum_{i \in Labeled Nodes} y_{i} \log ({\hat{y}}_{i})$
图分类：交叉熵损失（多分类）或二元交叉熵损失（二分类）。
链接预测：通常作为二分类问题，使用二元交叉熵损失。负样本通过随机采样不存在边的节点对来生成。

前向传播：
- 输入图数据（ $A, X$ ）到GNN模型。
- 信息在图上按照邻接关系传递和更新，逐层计算。
- 得到节点或图的预测结果 $\hat{Y}$ 。
损失计算：将预测结果 $\hat{Y}$ 与真实标签 $Y$ 进行比较，计算损失 $L$ 。
反向传播：
- 计算损失函数相对于所有可训练参数（如各层的权重矩阵 $W$ ）的梯度。
- 关键点：由于图的连接性，反向传播需要遵循图的结构，计算图可以看作是一个计算依赖图。
参数更新：使用优化器（如Adam）根据梯度更新模型参数，以最小化损失函数。

直推式学习 vs. 归纳式学习：
- 直推式：在一个固定的图上训练和测试。训练时只能看到部分节点的标签，目标是预测剩余节点的标签。例如，在引用网络中对未知的论文进行分类。
- 归纳式：在一组图上训练，然后在全新的、未见过的图上进行测试。例如，对分子图进行性质预测。这要求模型能够泛化到新结构。
过平滑：当GNN层数过深时，所有节点的表示会趋向于同一个值，导致模型性能下降。这是因为信息在图中传递了太多跳。解决方案包括：残差连接、跳跃连接、不同的归一化方法等。
内存限制：大规模图的邻接矩阵非常庞大，无法全部装入GPU内存。解决方案包括：图采样（如GraphSAGE）、子图聚类（如Cluster-GCN）等。

训练好的GNN模型可以应用于各种下游任务。

理解GNN的决策过程至关重要。

在实际生产环境中部署GNN需要考虑：

方面	核心内容
构成	图结构数据 + 信息传递层（聚合、更新）+ 读出层 + 预测头
训练	定义任务和损失 -> 前向传播（图上信息传递）-> 反向传播（沿计算图）-> 参数优化，需注意过平滑、采样等问题
使用	进行节点/图/链接的预测，通过可视化理解模型，并最终部署到实际应用中，处理效率和扩展性挑战

GNN成功地将深度学习的表示学习能力与图的结构化推理能力结合起来，已成为处理关系数据的强大工具。