Skip to content

Commit 3fcd44a

Browse files
committed
Update: RecSys, collection, et al.
1 parent 862069b commit 3fcd44a

15 files changed

Lines changed: 15 additions & 15 deletions

docs/AI/GRL/GE.md

Lines changed: 3 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -10,7 +10,7 @@ comments: true
1010
- [第三方备份](https://www.bookstack.cn/read/huaxiaozhuan-ai/2541a32ee733af23.md)
1111
- [Github - GraphEmbedding](https://github.com/shenweichen/GraphEmbedding)
1212

13-
[Word2vec](../RecSys/Classic/1-Recall-CF.md#Word2vec)[Item2vec](../RecSys/Classic/1-Recall-CF.md#Item2vec) 中我们的嵌入都是从**序列信息**中去学习的,这种思路面对错综复杂的图结构时似乎有些力不从心了。
13+
[Word2vec](../RecSys/1-Recall-CF.md#Word2vec)[Item2vec](../RecSys/1-Recall-CF.md#Item2vec) 中我们的嵌入都是从**序列信息**中去学习的,这种思路面对错综复杂的图结构时似乎有些力不从心了。
1414

1515
考虑目标:基于一个图 $G = (V, E), E\subseteq(V\times V)$ 学习一个映射 $\Phi: V \rightarrow \mathbb{R}^{d}$ 以将图上的节点嵌入。
1616

@@ -55,7 +55,7 @@ DeepWalk 由两部分组成:
5555
5656
### Skip-Gram
5757

58-
[Skip-gram(SG)](../RecSys/Classic/1-Recall-vector.md#Skip-gram(SG)) 处介绍了 SG 算法在 word2vec 的应用,不难发现我们期望学习的映射 $V \rightarrow \mathbb{R}^{d}$ 在模型中应该作为一个矩阵:$\Phi \in \mathbb{R}^{|V| \times d}$ ,$\Phi$ 的每一个行向量即为对应节点的嵌入表达,在开始被随机初始化。同样的,我们将遇到因为节点数量过多导致的不可接受的 Softmax 计算量问题;论文中考虑层序 Softmax (Hierarchical Softmax, see section [Skip-gram(SG)](../RecSys/Classic/1-Recall-vector.md#Skip-gram(SG))) 。
58+
[Skip-gram(SG)](../RecSys/1-Recall-vector.md#Skip-gram(SG)) 处介绍了 SG 算法在 word2vec 的应用,不难发现我们期望学习的映射 $V \rightarrow \mathbb{R}^{d}$ 在模型中应该作为一个矩阵:$\Phi \in \mathbb{R}^{|V| \times d}$ ,$\Phi$ 的每一个行向量即为对应节点的嵌入表达,在开始被随机初始化。同样的,我们将遇到因为节点数量过多导致的不可接受的 Softmax 计算量问题;论文中考虑层序 Softmax (Hierarchical Softmax, see section [Skip-gram(SG)](../RecSys/1-Recall-vector.md#Skip-gram(SG))) 。
5959

6060
### DeepWalk
6161

@@ -184,6 +184,6 @@ LINE 分别训练了一阶邻近度模型和二阶邻近度模型,分别得到
184184
- 当某些顶点邻居非常少时,可能需要结合邻居的邻居的信息
185185
- 当加入新节点时,只需要优化 $-\sum_{j\in N(i)}w_{ji}\log p_1(v_j,v_i), -\sum_{j\in N(i)}w_{ji}\log p_1(v_j|v_i)$ 即可
186186
187-
如果新节点与已有节点的关系也非常少甚至没有,可能需要参考 [EGES](../RecSys/Classic/1-Recall-CF.md#Enhanced%20Graph%20Embedding%20with%20Side%20information%20(EGES)),使用辅助信息来表征。
187+
如果新节点与已有节点的关系也非常少甚至没有,可能需要参考 [EGES](../RecSys/1-Recall-CF.md#Enhanced%20Graph%20Embedding%20with%20Side%20information%20(EGES)),使用辅助信息来表征。
188188
189189

docs/AI/KG/KGE.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -172,7 +172,7 @@ $$
172172
f_r(h,t)=\mathbf{r}^\top\tanh(\mathbf{h}^\top\underline{\mathbf{M}}_r\mathbf{t}+\mathbf{M}_r^1\mathbf{h}+\mathbf{M}_r^2\mathbf{t}+\mathbf{b}_r)
173173
$$
174174

175-
看起来有点像推荐系统中的[二阶交叉特征](../RecSys/Classic/1-Recall-vector.md#二阶交叉特征),是本篇涉及的模型中表达能力最强的模型,但是碍于参数过多难以处理大型图谱。
175+
看起来有点像推荐系统中的[二阶交叉特征](../RecSys/1-Recall-vector.md#二阶交叉特征),是本篇涉及的模型中表达能力最强的模型,但是碍于参数过多难以处理大型图谱。
176176

177177
#### MLP
178178

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -93,7 +93,7 @@ $$
9393

9494
一个朴素的做法是,在向量空间中依据希望使用的相似度进行分区(例如使用余弦相似度则以原点划分扇形/圆锥形……),并以分区中具有代表性向量(如平均向量)作为索引 w,仅比较 u 与 w 的相似度,找到最近的 $w_{0}$ ,从其所位于的分区中召回所有向量再逐一比较。
9595

96-
> [!tip] 工具套件可在 [RecSys](../README.md#工具) 查看。
96+
> [!tip] 工具套件可在 [RecSys](README.md#工具) 查看。
9797
9898
## User/Item CF
9999

Lines changed: 4 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -4,7 +4,7 @@ tags:
44
comments: true
55
---
66

7-
一般而言,我们说的基于图的召回是依据[图嵌入](../../GRL/GE.md)学习物品/用户的嵌入表示,之后使用 ANN 等技术进行召回。
7+
一般而言,我们说的基于图的召回是依据[图嵌入](../GRL/GE.md)学习物品/用户的嵌入表示,之后使用 ANN 等技术进行召回。
88

99
## Enhanced Graph Embedding with Side information (EGES)
1010

@@ -16,7 +16,7 @@ comments: true
1616
2. 由于物品集数量庞大,用户-物品交互矩阵稀疏
1717
3. 冷启动问题
1818

19-
引入 [Graph Embedding](../../GRL/GE.md) 以尝试解决这些问题;论文中使用的是 [DeepWalk](../../GRL/GE.md#DeepWalk) 并进行了一些改进,共提出了三种嵌入方法:BGE, GES, EGES 。
19+
引入 [Graph Embedding](../GRL/GE.md) 以尝试解决这些问题;论文中使用的是 [DeepWalk](../GRL/GE.md#DeepWalk) 并进行了一些改进,共提出了三种嵌入方法:BGE, GES, EGES 。
2020

2121
### 构建物品图
2222

@@ -108,7 +108,7 @@ $$
108108

109109
## PinSAGE
110110

111-
PinSAGE 模型是 Pinterest 在 [GraphSAGE](../../GRL/GNN.md#GraphSAGE) 的基础上实现的可以应用于实际工业场景的召回算法。
111+
PinSAGE 模型是 Pinterest 在 [GraphSAGE](../GRL/GNN.md#GraphSAGE) 的基础上实现的可以应用于实际工业场景的召回算法。
112112

113113
Pinterest 公司的主要业务是采用瀑布流的形式向用户展现图片,无需用户翻页,新的图片会自动加载。因此在 Pinterest 网站上,有大量的图片(被称为 pins),而用户可以将喜欢的图片分类,即将 pins 钉在画板 boards 上。可以发现基于这样的场景,pin 相当于普通推荐场景中 item,用户****的行为可以认为是用于的交互行为。
114114

@@ -142,7 +142,7 @@ PinSAGE 使用 Convolve 算法(单层图卷积)进行聚合:
142142
143143
### 基于 mini-batch 多层图卷积
144144

145-
[GraphSAGE](../../GRL/GNN.md#GraphSAGE) 一样基于 mini-batch 堆叠多层图卷积层来逐层聚合信息。训练时使用 Margin Hinge Loss 损失函数:
145+
[GraphSAGE](../GRL/GNN.md#GraphSAGE) 一样基于 mini-batch 堆叠多层图卷积层来逐层聚合信息。训练时使用 Margin Hinge Loss 损失函数:
146146

147147
$$
148148
J_{\mathcal{G}}(\mathbf{z}_{q}\mathbf{z}_{i})=\mathbb{E}_{n_{k}\sim P_{n}(q)}\max\{0,\mathbf{z}_{q}\cdot\mathbf{z}_{n_{k}}-\mathbf{z}_{q}\cdot\mathbf{z}_{i}+\Delta\}
File renamed without changes.
File renamed without changes.
File renamed without changes.
File renamed without changes.

0 commit comments

Comments
 (0)