
AI算法工程师手册
作者华校专,曾任阿里巴巴资深算法工程师、智易科技首席算法研究员,现任腾讯高级研究员,《Python 大战机器学习》的作者。这是作者多年以来学习总结的笔记,经整理之后开源于世。目前还有约一半的内容在陆续整理中,已经整理好的内容放置在此。 曾有出版社约稿,但是考虑到出版时间周期较长,而且书本购买成本高不利于技术广泛传播,因此作者采取开源的形式。 笔记内容仅供个人学习使用,非本人同意不得应用于商业领域。
414人已学习
目录
- 介绍 883 浏览
-
数学基础
351 浏览
- 1.线性代数基础 295 浏览
-
2.概率论基础
277 浏览
- 一、概率与分布 236 浏览
- 二、期望和方差 278 浏览
- 三、大数定律及中心极限定理 223 浏览
- 五、常见概率分布 254 浏览
- 六、先验分布与后验分布 250 浏览
- 七、信息论 231 浏览
- 八、其它 219 浏览
- 3.数值计算基础 274 浏览
- 4.蒙特卡洛方法与 MCMC 采样 266 浏览
-
统计学习
332 浏览
- 0.机器学习简介 276 浏览
- 1.线性代数基础 287 浏览
-
2.支持向量机
224 浏览
- 一、 线性可分支持向量机 297 浏览
- 二、线性支持向量机 227 浏览
- 三、非线性支持向量机 219 浏览
- 四、支持向量回归 298 浏览
- 五、SVDD 307 浏览
- 六、序列最小最优化方法 265 浏览
- 七、其它讨论 247 浏览
-
3.朴素贝叶斯
218 浏览
- 一、贝叶斯定理 328 浏览
- 二、朴素贝叶斯法 247 浏览
- 三、半朴素贝叶斯分类器 238 浏览
- 四、其它讨论 211 浏览
- 4.决策树 268 浏览
- 5.knn 241 浏览
-
6.集成学习
238 浏览
- 一、集成学习误差 302 浏览
- 二、 Boosting 284 浏览
- 三、Bagging 212 浏览
- 四、集成策略 355 浏览
- 五、多样性分析 190 浏览
-
7.梯度提升树
232 浏览
- 一、提升树 271 浏览
- 二、xgboost 267 浏览
- 三、LightGBM 256 浏览
-
8.特征工程
231 浏览
- 一、缺失值处理 237 浏览
- 二、特征编码 257 浏览
- 三、数据标准化、正则化 206 浏览
- 四、特征选择 262 浏览
- 五、稀疏表示和字典学习 285 浏览
- 六、多类分类问题 198 浏览
- 七、类别不平衡问题 217 浏览
-
9.模型评估
323 浏览
- 一、泛化能力 322 浏览
- 二、过拟合、欠拟合 254 浏览
- 三、偏差方差分解 235 浏览
- 四、参数估计准则 225 浏览
- 五、泛化能力评估 488 浏览
- 六、训练集、验证集、测试集 241 浏览
- 七、性能度量 184 浏览
- 七、超参数调节 387 浏览
- 八、传统机器学习的挑战 196 浏览
-
10.降维
312 浏览
- 一、维度灾难 284 浏览
- 二、主成分分析 PCA 258 浏览
- 三、核化线性降维 KPCA 300 浏览
- 四、流形学习 279 浏览
- 五、度量学习 341 浏览
- 六、概率PCA 288 浏览
- 七、独立成分分析 224 浏览
- 八、t-SNE 367 浏览
- 九、LargeVis 280 浏览
- 11.聚类 243 浏览
- 12.半监督学习 325 浏览
-
13.EM算法
201 浏览
- 一、示例 247 浏览
- 二、EM算法原理 237 浏览
- 三、EM算法与高斯混合模型 217 浏览
- 四、EM 算法与 kmeans 模型 219 浏览
- 五、EM 算法的推广 184 浏览
-
14.最大熵算法
211 浏览
- 一、最大熵模型MEM 235 浏览
- 二、分类任务最大熵模型 209 浏览
- 三、最大熵的学习 205 浏览
-
15.隐马尔可夫模型
240 浏览
- 一、隐马尔可夫模型HMM 223 浏览
- 二、 HMM 基本问题 263 浏览
- 三、 最大熵马尔科夫模型MEMM 219 浏览
-
16.概率图与条件随机场
280 浏览
- 一、概率图模型 285 浏览
- 二、贝叶斯网络 248 浏览
- 三、马尔可夫随机场 339 浏览
- 四、条件随机场 CRF 279 浏览
- 17.边际概率推断 235 浏览
-
18.主题模型
261 浏览
- 一、Unigram Model 240 浏览
- 二、pLSA Model 218 浏览
- 三、LDA Model 240 浏览
- 四、LDA优化 180 浏览
- 五、sentence-LDA 308 浏览
- 六、模型讨论 175 浏览
-
深度学习
384 浏览
- 0.深度学习简介 248 浏览
- 1.深度前馈神经网络 254 浏览
- 2.反向传播算法 240 浏览
- 3.正则化 233 浏览
-
4.最优化基础
224 浏览
- 一、代价函数 215 浏览
- 二、神经网络最优化挑战 215 浏览
- 三、 mini-batch 290 浏览
- 四、基本优化算法 283 浏览
- 五、自适应学习率算法 517 浏览
- 六、二阶近似方法 303 浏览
- 七、共轭梯度法 220 浏览
- 八、优化策略和元算法 208 浏览
- 九、参数初始化策略 295 浏览
- 十、Normalization 215 浏览
- 十一、Online Learning 280 浏览
- 5.卷积神经网络 223 浏览
-
5.1.CNN之图片分类
239 浏览
- 一、LeNet 222 浏览
- 二、AlexNet 186 浏览
- 三、VGG-Net 198 浏览
- 四、Inception 287 浏览
- 五、ResNet 186 浏览
- 六、ResNet 变种 372 浏览
- 七、SENet 265 浏览
- 八、 DenseNet 246 浏览
- 九、小型网络 227 浏览
-
6.循环神经网络
259 浏览
- 一、RNN计算图 308 浏览
- 二、训练算法 241 浏览
- 三、长期依赖 500 浏览
- 四、常见 RNN 变种 345 浏览
-
7.Transformer
315 浏览
- 一、Transformer 355 浏览
- 二、Universal Transformer 223 浏览
- 三、Transformer XL 425 浏览
- 四、GPT 312 浏览
- 五、BERT 327 浏览
- 六、ERNIE 241 浏览
- 七、XLNet 336 浏览
- 八、MT-DNN 259 浏览
- 九、BERT 扩展 242 浏览
-
8.词向量
238 浏览
- 一、向量空间模型 VSM 260 浏览
- 二、LSA 259 浏览
- 三、Word2Vec 259 浏览
- 四、GloVe 392 浏览
- 五、FastText 212 浏览
- 六、ELMo 186 浏览
- 七、变种 176 浏览
-
9.传统 CTR 预估模型
275 浏览
- 一、LR 模型 636 浏览
- 二、POLY2 模型 287 浏览
- 三、FM模型 247 浏览
- 四、FFM模型 312 浏览
- 五、GBDT-LR 模型 258 浏览
- 六、FTRL模型 257 浏览
- 七、LS-PLM 模型 461 浏览
- 10.神经网络 CTR 预估模型 278 浏览
-
11.Graph Embedding
281 浏览
- 一、DeepWalk 373 浏览
- 二、LINE 286 浏览
- 三、GraRep 277 浏览
- 四、TADW 285 浏览
- 五、DNGR 439 浏览
- 六、Node2Vec 447 浏览
- 七、WALKLETS 398 浏览
- 八、SDNE 299 浏览
- 十、EOE 240 浏览
- 九、CANE 205 浏览
- 十一、metapath2vec 366 浏览
- 十二、GraphGAN 219 浏览
- 十三、struc2vec 281 浏览
- 十四、GraphWave 248 浏览
- 十五、NetMF 222 浏览
- 十六、NetSMF 228 浏览
- 12.Graph Embedding(续) 285 浏览
-
13.图神经网络
285 浏览
- 一、GNN 236 浏览
- 二、GCN 296 浏览
- 三、Fast GCN 298 浏览
- 四、Semi-Supervised GCN 310 浏览
- 五、分子指纹GCN 175 浏览
- 六、GGS-NN 252 浏览
- 七、PATCHY-SAN 239 浏览
- 八、GraphSage 362 浏览
- 九、GAT 238 浏览
- 14.传统推荐算法 362 浏览
- 15.工程实践指导原则 313 浏览
-
工具
305 浏览
-
CRF++
219 浏览
- 一、安装 221 浏览
- 二、使用 222 浏览
- 三、Python接口 213 浏览
- 四、常见错误 167 浏览
- lightgbm使用指南 274 浏览
- xgboost使用指南 248 浏览
-
scikit-learn
244 浏览
-
1.预处理
182 浏览
- 一、特征处理 277 浏览
- 二、特征选择 244 浏览
- 三、字典学习 240 浏览
- 四、PipeLine 209 浏览
- 2.降维 174 浏览
-
3.监督学习模型
187 浏览
- 一、线性模型 234 浏览
- 二、支持向量机 291 浏览
- 三、贝叶斯模型 229 浏览
- 四、决策树 242 浏览
- 五、KNN 184 浏览
- 六 、AdaBoost 227 浏览
- 七、梯度提升树 311 浏览
- 八、Random Forest 184 浏览
-
4.模型评估
183 浏览
- 一、数据集切分 247 浏览
- 二、性能度量 214 浏览
- 三、验证曲线 && 学习曲线 259 浏览
- 四、超参数优化 253 浏览
-
5.聚类模型
196 浏览
- 一、KMeans 321 浏览
- 二、DBSCAN 221 浏览
- 三、MeanShift 210 浏览
- 四、AgglomerativeClustering 182 浏览
- 五、BIRCH 197 浏览
- 六、GaussianMixture 269 浏览
- 七、SpectralClustering 188 浏览
- 6.半监督学习模型 227 浏览
-
7.隐马尔可夫模型
177 浏览
- 一、Hmmlearn 221 浏览
- 二、seqlearn 244 浏览
-
1.预处理
182 浏览
-
spark
244 浏览
- 1.基础概念 239 浏览
- 2.rdd使用 302 浏览
-
3.dataframe使用
236 浏览
- 一、概述 199 浏览
- 二、SparkSession 188 浏览
-
三、DataFrame 创建
153 浏览
- 3.1 从列表创建 125 浏览
- 3.2 从 RDD 创建 122 浏览
- 3.3 从 pandas.DataFrame 创建 161 浏览
- 3.4 从数据源创建 139 浏览
- 3.5 从 Hive 表创建 133 浏览
- 四、 DataFrame 保存 189 浏览
-
五、DataFrame
163 浏览
- 5.1 属性 144 浏览
- 5.2 方法 192 浏览
- 5.2.3 其它方法 128 浏览
- 六、Row 178 浏览
- 七、Column 170 浏览
- 八、GroupedData 181 浏览
- 九、functions 196 浏览
- 4.累加器和广播变量 198 浏览
-
numpy 使用指南
242 浏览
-
一、 ndarray
224 浏览
- 1. ndarray 对象的内存结构 221 浏览
- 2. 数组的创建 149 浏览
- 3. 数组的索引 177 浏览
- 4. 操作多维数组 186 浏览
- 5.打印数组 128 浏览
- 6. Nan 和无穷大 118 浏览
-
二、 ufunc 函数
214 浏览
- 1. 广播 191 浏览
- 2. 四则运算 169 浏览
- 3. 比较运算 120 浏览
- 4. 逻辑运算 147 浏览
- 5. 位运算 155 浏览
- 6. 自定义 ufunc 函数 227 浏览
- 7. ufunc 对象的方法 143 浏览
- 8. 数学函数 143 浏览
- 三、 函数库 144 浏览
- 四、数组的存储和加载 191 浏览
-
一、 ndarray
224 浏览
- scipy 使用指南 174 浏览
-
matplotlib 使用指南
248 浏览
- 一、matplotlib配置 211 浏览
-
二、 matplotlib Artist
246 浏览
- 1. container Artist: 182 浏览
- 2. primitive 131 浏览
-
三、基本概念
212 浏览
- 1. backend 141 浏览
- 2. 交互式模式 194 浏览
- 3. matplotlib的颜色 151 浏览
- 4. matplotlib.cm 132 浏览
- 5. matplotlib.colors 182 浏览
- 6. matplotlib.colorbar 154 浏览
-
四、布局
191 浏览
- 1. 简单布局 166 浏览
- 2. 使用 pyplot.subplot2grid() 函数 145 浏览
- 3. 使用 GridSpec 和 SubplotSpec 156 浏览
- 五、 Path 175 浏览
- 六、 path effect 212 浏览
-
七、坐标变换
234 浏览
- 1. 用户的 data 坐标系 147 浏览
- 2. Axes 坐标系 140 浏览
- 3. 混合坐标系 144 浏览
- 4. 利用坐标变换制造阴影效果 158 浏览
- 5. 直角坐标系、对数坐标系、极坐标系 141 浏览
- 八、 3D 绘图 235 浏览
- 九、技巧 230 浏览
-
pandas 使用指南
226 浏览
-
一、基本数据结构
229 浏览
- 1. Series 146 浏览
- 2. Index 148 浏览
- 3. MultiIndex 140 浏览
- 4. DataFrame 198 浏览
- 二、 内部数据结构 200 浏览
-
三、 下标存取
245 浏览
- 1. [ ] 操作符 159 浏览
- 2. loc/iloc/ix 存取器 156 浏览
- 3. at/iat 存取器 144 浏览
- 4. query 方法 131 浏览
- 5. 多级索引 142 浏览
- 6. 整数 label 200 浏览
- 四、 运算 231 浏览
-
五、变换
170 浏览
- 1. 索引和轴的变换 157 浏览
- 2. 合并数据 150 浏览
- 3. 索引旋转 150 浏览
- 六、数据清洗 219 浏览
- 七、 字符串操作 208 浏览
-
八、 聚合与分组
211 浏览
- 1. 分组 150 浏览
- 2. GroupBy对象 161 浏览
- 3. 分组级运算 173 浏览
- 4. 透视表和交叉表 155 浏览
-
九、时间序列
200 浏览
- 1. Python 中的时间 147 浏览
- 2. 时间点 Timestamp 124 浏览
- 3. 时间段 Period 125 浏览
- 4. DatetimeIndex 151 浏览
- 5. PeriodIndex 144 浏览
- 6. resample 和频率转换 148 浏览
- 十、 DataFrame 绘图 235 浏览
- 十一、 移动窗口函数 242 浏览
-
十二、 数据加载和保存
189 浏览
- 1. 文本文件 135 浏览
- 2. Json 167 浏览
- 3. 二进制文件 121 浏览
- 4. Excel 文件 139 浏览
- 5. HTML 表格 141 浏览
- 6. SQL 115 浏览
-
一、基本数据结构
229 浏览
-
CRF++
219 浏览