四、LDA优化-AI算法工程师手册-面试哥

四、LDA优化

四、LDA优化

标准LDA 的模型训练过程中，对于文档（令，采用基于位置的更新）：

常规的采样方式是：
- 计算
- 将采样空间划分为：第一段，第二段，… 第段，称作分桶。
- 在之间均匀采样一个点，该点落在哪个桶内则返回对应桶的主题。
常规LDA 采样算法：
- 在之间均匀采样一个点，假设为。其算法复杂度为，因为需要计算。
- 查找下标，使得满足，返回。通过二分查找，其算法复杂度为。
事实上如果执行非常多次采样，则常规LDA 采样算法第一步的成本可以分摊到每一次采样。因此整体算法复杂度可以下降到。如果仅执行一次采样，则整体算法复杂度为。

与有关，而在文档的不同位置取值不同。这意味着每一次采样的概率分布都不同，因此采样每个主题的算法复杂度为。
有三种算法对采样过程进行了加速：
- SparseLDA 和 AliasLDA 使用基于位置的采样，这是为了方便对采样概率进行有效分解。
- LightLDA 使用基于单词的采样，这种采样更能够满足LDA 的假设：LDA 假设同一篇文档中同一个单词都由同一个主题生成。

4.1 SparseLDA

sparseLDA 推断比传统 LDA 快大约20倍，且内存消耗更少。

4.1.1 概率分解

SparseLDA 主要利用了LDA 的稀疏性。事实上，真实场景下的一篇文档只会包含少数若干个主题，一个词也是参与到少数几个主题中。因此可以将采样公式分解（令，采用基于位置的更新）：

令：

其中：仅仅和主题的单词统计有关；和文档的主题统计、主题的单词统计都有关；和文档的主题统计、主题的单词统计、文档的单词统计都有关。

假设为常数，即：主题的所有单词的先验频数都为常数。现在仅考虑一篇文档的训练，因此忽略角标，有：
令，原始LDA 的采样方式为：
- 将划分为个桶，将每个桶根据其分解继续划分为三个子桶。
- 根据从均匀分布中采样一个点。该点落在那个桶，则采样该桶对应的主题。
假设该点落在桶，则有三种情况：
- 若该点落在 r 对应的子桶，其概率为。
- 若该点落在 s 对应的子桶，其概率为。
- 若该点落在 q 对应的子桶，其概率为。
考虑重新组织分桶，按照划分为 [0,R)、[R,R+S)、[R+S,U) 三个桶。将第一个桶根据划分为 T 个子桶；将第二个桶根据划分为 T 个子桶；将第三个桶根据划分为 T 个子桶。

则上述采样过程的三种情况等价于：从均匀分布中采样一个点。该点落在那个桶，则就在桶内的子桶中继续采样主题。
- 该桶落在 R 桶的子桶 t ，其概率为：。
- 该桶落在 S 桶的子桶 t ，其概率为：。
- 该桶落在 Q 桶的子桶 t ，其概率为：。

4.1.2 采样过程

sparseLDA 采样过程中假设：在同一篇文档的同一次迭代期间，文档-主题 计数、主题-单词 矩阵保持不变。即：参数延迟更新。
sparseLDA 采样过程：从均匀分布中采样一个点。
- 如果，则从中继续均匀采样一个点，设该点落在子桶，则返回主题。
  
  考虑到对于同一篇文档中的所有位置都相同，这使得对桶采样的平摊算法复杂度为。
- 如果，则从中继续均匀采样一个点，设该点落在子桶，则返回主题。
  
  此时只需要考虑当前文档中出现的主题，因为对于其它未出现的主题有，则。
  
  因此对桶采样的算法复杂度为，为文档中出现的主题数量。同时内存消耗更少，因为只需要保存非零值对应的分量。
- 如果，则从中继续均匀采样一个点，设该点落在子桶，则返回主题。
  
  此时只需要考虑使得当前单词的 主题-单词 计数非零的那些主题。因为对于其它主题有，则。
  
  因此对桶采样的算法复杂度为，为当前单词涉及到的主题数量。同时内存消耗更少，因为只需要保存非零值对应的分量。
- 整体推断的算法复杂度为。
对于小数据集，，但是对于大数据集可能发生。即：单词出现在了几乎所有主题中。

假设单词由主题生成的可能性为，则篇文档中至少由主题生成的一次的概率为：

因此对于非常大的数据集对于 sparseLDA 是不利的。

4.2 AliasLDA

4.2.1 概率分解

AliasLDA 通过引入 Alias Table 和 Metropolis-Hastings 方法来进一步加快采样速度。
AliasLDA 对采样公式进行不同的分解（令，采用基于位置的更新）：

其中与文档无关。
AliasLDA 采样过程是：从均匀分布中采样一个点。
- 如果，则从中继续均匀采样一个点，设该点落在子桶，则返回主题。
  
  此时只需要考虑当前文档中出现的主题，因为对于其它未出现的主题有，则。
  
  因此对桶采样的算法复杂度为，为文档中出现的主题数量。同时内存消耗更少，因为只需要保存非零值对应的分量。
- 如果，则从中继续均匀采样一个点，设该点落在子桶，则返回主题。
  
  如果能够使得该子采样的算法复杂度为，则整体采样的算法复杂度为，要大大优于 sparseLDA的。

4.2.2 Alias Table

Alias Table 用于将离散的、非均匀分布转换成离散的、均匀的分布。这是为了采样方便：离散均匀分布的采样时间复杂度为。
假设一个离散、非均匀分布为。

常规的采样方式为：
- 分桶：1:[0,1/2), 2:[1/2,5/6), 3:[5/6,11/12), 4:[11/12,1) 。
- 采样：从0~1 之间均匀生成一个随机数 x ，x 落在哪个桶（二分查找），则返回对应的桶的编号。
其平均每次采样的复杂度为，其中为事件的数量。
一个改进的方法是：
- 建立四个分桶，桶的编号分别为 1~4 。
- 从1~4 中均匀采样一个整数，决定落在哪个桶。假设在第个桶。
- 从 0~1 之间均匀采样一个小数，则：
  - 计算非归一化概率：（即：归一化概率除以其中的最大值）。
  - 若，则接受采样，返回事件；若，则拒绝接受，重新采样（重新选择分桶、重新采样小数）。
理想情况下其算法复杂度为，平均情况下算法复杂度为。

可以看到：事件被选中的概率（非归一化）为：，归一化之后就是。
Alias Table 在上述思想指导下更进一步，它对概率除以均值而不是最大值。
- 构建 Alias Table （算法复杂度）：
  - 初始化数组，第个桶的容量表示事件发生的概率；，存放第个桶中的另外一个事件的编号。
    
    第个桶要么完全由事件组成，要么由事件和另外一个事件组成（由给出）。每个桶最多包含2个事件。
  - 将每个桶的容量乘以：。即：计算非归一化概率。
  - 构建队列 A，存放容量大于1的桶编号；构建队列 B，存放容量小于1的桶编号。
  - 处理每个桶，直到满足条件：队列 B 为空。处理方式为：
    
    从队列 A 取出一个桶，假设为；从队列 B 取出一个桶，假设为。将填充到容量为1，填充的容量从消减。假设消减的容量为
    - 记录容量：；登记：。
    注意：此时不需要更新，存放的是事件的非归一化概率，也等于它在桶中的比例。
    - 若，则继续放入队列A；若，则放入队列B ；若，则桶处理完成。
    最终每个桶的容量都是1，桶内最多存放两个事件（由记录）。
- 从1~N 中均匀采样一个整数，决定落在哪个桶。
- 从 0~1 之间均匀采样一个小数。假设在第个桶：若，则返回事件；否则返回事件。

四、LDA优化 - 图169

Alias Table 的算法复杂度：
- 构建 Alias Table 步骤复杂度，采样步骤复杂度
- 如果采样1次，则算法复杂度为。如果采样非常多次，则构建 Alias Table 的代价会被平均，整体的平摊复杂度为。

4.2.3 MH 采样算法

如果直接对采用 Alias Table 采样，则会发现一个严重的问题：对于文档中不同位置的单词不同，因此概率分布随位置发生变化。这就相当于采样 1 次的 Alias Table 算法，完全没有发挥出 Alias Table 的优势。

解决方式是：提出一个不随位置变化的概率分布，它近似原始分布但是更容易采样。然后采用基于 MH 的 MCMC 采样算法。
标准的 MH 算法需要构建状态转移矩阵，但是这里的状态转移比较特殊：状态转移概率仅与最终状态有关，与前一个状态无关，即：。
- 算法输入：近似概率分布，原始概率分布
- 算法输出：满足原始分布的采样序列
- 算法步骤：
  - 从概率分布中随机采样一个样本
  - 对执行迭代。迭代步骤如下：
    - 根据采样出候选样本
    - 计算接受率：
    - 根据均匀分布从内采样出阈值，如果，则接受，即。否则拒绝，即。
      
      由于近似于，因此大多数情况下会接受。
  - 返回采样序列。
  注意：返回的序列中，只有充分大的之后的序列才是服从原始分布的采样序列。

4.2.4 AliasLDA

AliasLDA 综合采用了 AliasTable 和 MH 采样算法。对分桶采样的算法步骤：
- 构建不随文档中的位置变化的概率分布，算法复杂度。
- 根据构建 AliasTable ，算法复杂度。
- 循环：遍历文档的所有位置：
  
  对于文档的当前位置根据前述的 MH 算法采样出主题，其算法复杂度为。
考虑到前面两步的代价可以平摊到每次采样过程，因此平摊算法复杂度为。

4.3 LightLDA

web-scale 规模的预料库非常庞大也非常复杂，通常需要高容量的主题模型（百万主题、百万词汇表，即：万亿参数级别）来捕捉长尾语义信息。否则，当主题太少时会丢失这些长尾语义信息。

这种规模数据集的训练需要上千台机器的集群，而LightLDA 允许少量的机器来训练一个超大规模的LDA 主题模型，它可以用 8 台机器训练一个包含百万主题&百万词汇表（万亿级参数）、包含千亿级单词的数据集。
LightLDA 主要采用了以下方法：
- 更高效的MH 采样算法，其算法复杂度为，并且与当前最先进的Gibbs 采样器相比收敛效率快了近一个量级。
- structure-aware 的模型并行方案，其利用主题模型中的依赖关系，产生一个节省机器内存和网络通信的采样策略。
- 用混合数据结构来存储模型，其针对高频单词和低频单词采用不同的数据结构，从而使得内存可以放置更大规模的模型，同时保持高效的推断速度。
- 有界异步数据并行方案，其可以降低网络同步和通信的成本，从而允许通过参数服务器对海量数据进行有效的分布式处理。

4.3.1 structure-aware 模型并行

数据并行：分割数据集，将不同文档集交给不同的 worker 来处理。所有 worker 共享同一份模型参数，即：共享同一份全局 主题-单词 矩阵。

如：YahooLDA 和基于参数服务器的LDA 实现就是采取数据并行。
数据并行+模型并行：分割数据集，将不同文档集交给不同的 worker 来处理。同时分割模型，不同 worker 处理不同的 主题-单词 分布。即：每个worker 只会看到并处理本地文档出现过的单词的 主题-单词 分布。

如：PLDA 和 Peacock ，以及 LDA 就是采取这种策略。
为了解决模型内存需求太大与worker 内存较小的问题，LightLDA 提出了 structure-aware 模型并行方案。
- 在每个worker 中，采样算法执行之前先将本 worker 分割到的数据集进一步划分为数据块 Data Block 1,Data Block 2,... 。同时计算每个数据块包含的单词的词汇表，并将该词汇表作为元数据附加到数据块上。
  
  该操作只需要线性扫描，其计算复杂度为。
- 在worker 对 Data Block i 执行采样时：
  - 首先加载数据块 Data Block i 到 worker 的内存，取得该 block 的元数据。
  - 然后根据元数据，将该数据块的词汇表划分为集合。
  - 对每个词表集合，拉取参数服务器中的全局 主题-单词 矩阵中涉及的单词的部分，称作模型切片，记作。因此worker 仅仅需要保存模型的一个切片。
    
    然后对 Data Block i 中的所有文档执行采样并更新，采样时仅仅考虑出现在中的单词。
  - 当对更新完毕时，将本次更新同步到参数服务器中的全局 主题-单词 矩阵。然后继续处理下一个词汇集合。
- 一旦对 Data Block i 处理完毕，继续采样下一个数据块 Data Block i+1 。
如下图所示为 Data Block 2 的采样过程，表示该数据块包含的文档数量。在d1,d2,... 中的箭头给出了主题采样的顺序。每个文档通过灰色块表明出现对应的单词（出现一次或多次）、白色块表明没有出现对应的单词。
structure-aware 除了降低worker 内存需求之外，还通过以下方式减轻网络通信瓶颈：
- 在处理数据块 Data Block i 时，只有当前模型切片相关的所有单词都被采样时，才会移动到下一个模型切片。
  
  这使得在处理数据块 Data Block i 时，每个模型切片只需要被换入换出内存一次，而不是反复换入换出内存。模型切片的换入换出需要和参数服务器进行同步，因此多次交换会增大通信压力。
- 在利用当前模型切片对数据块采样时，可以同步进行下一个模型切片的加载（从参数服务器拉取到本地）、上一个模型切片的同步更新（从本地推送到参数服务器）。
  
  这进一步降低了网络通信的时间延迟。

4.3.2 高效的 MH 采样算法

AliasLDA 采样的计算复杂度为，因此它不擅长处理比较长的文档，比如网页。这是因为：在初始迭代中，文档每个位置的主题都是随机初始化的，因此对于较长的文档非常大。这会使得AliasLDA 在迭代初期非常缓慢，消耗大量时间。
当利用分布对进行采样时，一个好的需要满足两个条件（从而加速采样速度）：从中采样相对更加容易；马尔科夫链更快混合mix 。

因此在设计分布时，存在一个折中：
- 如果分布和更接近，则马尔科夫链混合的更快，但是从采样的代价可能与相差无几。
- 如果分布非常容易采样但是与很不一样，则马尔科夫链混合的很慢。
所谓马尔科夫链的良好的混合意味着：马尔科夫链能够收敛，且收敛速度不会太长。

当拒绝率太高时，MCMC 采样很可能长期处于某些值附近（如下图所示的平摊区域），搜索整个参数空间要花非常多的时间。下图中，横轴为迭代次数，纵轴表示采样结果。
与 AliasLDA 和 SparseLDA 不同，LightLDA 用两个近似分布来对进行采样。

考虑采样概率：
- 定义：
  
  其中为文档内主题的频次，为文档长度。则接受率为：
- 定义：
  
  其中表示数据集中由主题生成的单词中单词的次数，表示数据集中由主题生成的单词总频数。则接受率为：
为了提高对的采样效率，对进一步拆分：

因此采样步骤为：
- 首先从均匀分布中采样一个点。
- 如果该点落在之间，则使用进行采样。此时无需建立 AliasTable，直接从文档中均匀随机选择一个单词，其背后的主题就是采样得到的主题，该分布刚好就是。
- 如果该点落在之间，则使用进行采样。
  - 如果为常数，则此时为均匀分布，无需建立 AliasTable 。
  - 如果并不是全部相等，则由于与单词、文档都无关，因此可以建立全局 AliasTable，它可以跨单词、跨数据块共享，其平均时间、空间复杂度为。
因此从采样的平摊时间、空间复杂度均为。
为了提高对的采样效率，采用类似于 AliasLDA 的Alias Table 方式，从而使得对的采样复杂度为。
- 注意：虽然在文档内部，在不同位置处不同，是变化的，因此不满足 Alias Table 的要求。但是在同一个数据块中，对于同一个单词，是相同的，是不变的，因此满足 Alias Table 的要求。因此是在同一个数据块内，跨文档共享。
- 建立的空间复杂度是，因为它需要存储个分桶的边界，以及桶内的值。为了降低空间复杂度，可以进一步拆分：
  
  其采样步骤为：
  - 首先从均匀分布中采样一个点。
  - 如果该点落在之间，则使用进行采样。此时只需要考虑单词涉及的主题即可，空间复杂度为。
  - 如果该点落在之间，则使用进行采样。它与单词无关，因此可以在所有单词之间共享，这使得平均的空间复杂度为。
  因此对的采样的平摊时间复杂度为，平摊空间复杂度为。
考虑到，为文档-主题 概率，与比较接近；为主题-单词 概率，与比较接近。
- 如果仅仅用采样，则有可能出现较小、很大的情形。此时较大，而较小，使得接受率较低，收敛速度较慢。
- 同理：如果仅仅用采样，则有可能出现较小、很大的情形。此时较大，而较小，使得接受率较低，收敛速度较慢。
因此：虽然单独利用或者单独利用都可以对进行采样，但是单独使用时收敛速度较慢。
LightLDA 联合采用来加速采样的收敛速度，它轮流在二者之间采样。这等价于用进行采样，其接受率较大、收敛速度较快。
- 算法输入：原始函数分布，文档-主题近似分布，主题-单词近似分布
- 算法输出：满足原始分布的采样序列
- 算法步骤：
  - 从中随机采样一个样本
  - 对执行迭代。迭代步骤如下：
    - 根据采样出候选样本，计算接受率：
      
      根据均匀分布从内采样出阈值，如果，则接受，即。否则拒绝，即。
    - 根据采样出候选样本，计算接受率：
      
      根据均匀分布从内采样出阈值，如果，则接受，即。否则拒绝，即。
  - 返回采样序列。

4.3.3 混合数据结构

对于百万词汇表 x 百万主题，如果每一项（单词-主题计数）是 32 bit，则需要 4 TB内存才能存放。假设一台机器有 128 G内存，则至少需要 32 台参数服务器。因此如果能够大幅降低内存，则对硬件资源的需求也能够下降。
考虑词频统计，在数十亿网页文件中：
- 在删除停用词之后，几乎所有单词的词频不超过 32 位无符号整数的上限。因此主题-单词 矩阵的元素采用 32 位无符号整数存放。
- 大多数单词出现的次数少于次，为主题数量（论文中为一百万）。这意味着主题-单词 矩阵中，大多数单词列是稀疏的，如果采用稀疏表示( 如hash 映射) 将显著减少内存需求。
采用稀疏表示存在一个问题：其随机访问性能很差，这会损害MCMC 采样的速度。为了保持高采样性能、低内存需求，LightLDA 提出了混合数据结构：
- 对于词频较高的单词，其对应的主题计数列是不做修改的、方便随机访问的 dense 表示。这部分单词占据词表的 10% ，几乎覆盖了语料库中 95% 的位置。
- 对于词频较低的长尾单词，其对应的主题计数列经过 hash 映射的 sparse 表示，使得内存需求大幅降低。这部分单词占据词表的 90%，仅仅覆盖了语料库中 5% 的位置。
这就使得：
- 在MCMC 采样中，对大多数主题-单词 列的访问都是 dense 表示，这使得采样的吞吐量很高。
- 在存储方面，大多数主题-单词列的存储是sparse 表示，这使得内存需求较低。

4.3.4 系统实现

LightLDA 使用开源的分布式机器学习系统 Petuum 来实现，特别使用其参数服务器来进行有界异步数据并行。
参数服务器用于存放 LDA 的两类模型参数：主题-单词 矩阵，主题频次向量，其中为主题生成的单词的总数（它也等于第行的求和）。
因为语料库的规模远大于模型的大小，所以在网络中交换文档的代价对网络压力非常大。因此LightLDA 并不是交换数据，而是交换模型：先将语料库随机分配到各个worker 的磁盘上，然后在整个算法期间每个 worker 仅仅访问本地磁盘上的部分语料库。

交换数据的做法是：每轮迭代时，将语料库分发到不同 worker，每个 worker 在不同迭代步处理的数据会有所不同。
LightLDA 整体架构如下图所示：
- 各参数的意义位（这里采用论文中的符号表示）：
  - ：文档的长度；：数据分片中包含的文档数量。：文档的第个词汇的主题。
  - ：语料库中主题生成的单词的数量，即。：语料库中主题的频次，即第行的求和。：文档的主题的频次。
  - ：数据分片。：模型分片。：主题频次向量。
- 数据分片从 worker 的磁盘加载到 worker 的内存，模型分片由 worker 从参数服务器进行获取。
- 考虑到每个数据分片可能仍然非常巨大，无法一次性加载进worker 内存。因此 LightLDA 将每个数据分片继续划分成数据块 Data Block ，并将这些数据块依次加载进内存处理。
为了加速并行处理，LightLDA 进行了如下优化：
- 通过流水线来消除IO的延迟：在采样的同时可以加载数据块、拉取下一个模型分片、更新上一个模型分片。
  
  这需要根据采样器的吞吐量、数据块大小、模型切片大小仔细安排参数。
- 为防止模型切片之间的数据不均衡（热门词和冷门词），需要对词汇表按照词频进行排序，然后对单词进行混洗来生成模型切片。
- 在生成数据块时，将文档中的单词按照它们在词表中的顺序进行排序，从而确保同一个模型切片的所有单词在数据块中是连续的。这个操作只需要执行一次，与 LDA 整体消耗时间相比该操作非常快。
- 使用有界异步数据并行来消除在相邻迭代边界处发生的网络等待时间。
LightLDA 在每个 worker 内部开启多线程来进一步加速算法：
- 每个数据块在内存中被划分为不相交的区域，每个区域由不同的线程进行采样。
- 所有线程之间共享模型切片，且采样期间模型切片不变。在将模型切片更新到参数服务器之前，对各线程的更新结果进行聚合。
通过保持模型切片不变，这避免了竞争条件和加锁/解锁等并发问题。虽然这种延迟更新方式需要更多的迭代步才能收敛，但是由于这种方式消除了并发问题，提高了采样器吞吐率，使得每个迭代步的速度快得多，因此整体上仍然可以加速收敛速度。