
AI算法工程师手册
作者华校专,曾任阿里巴巴资深算法工程师、智易科技首席算法研究员,现任腾讯高级研究员,《Python 大战机器学习》的作者。这是作者多年以来学习总结的笔记,经整理之后开源于世。目前还有约一半的内容在陆续整理中,已经整理好的内容放置在此。 曾有出版社约稿,但是考虑到出版时间周期较长,而且书本购买成本高不利于技术广泛传播,因此作者采取开源的形式。 笔记内容仅供个人学习使用,非本人同意不得应用于商业领域。
439人已学习
目录
- 介绍 948 浏览
-
数学基础
387 浏览
- 1.线性代数基础 311 浏览
-
2.概率论基础
299 浏览
- 一、概率与分布 274 浏览
- 二、期望和方差 308 浏览
- 三、大数定律及中心极限定理 249 浏览
- 五、常见概率分布 279 浏览
- 六、先验分布与后验分布 291 浏览
- 七、信息论 253 浏览
- 八、其它 241 浏览
- 3.数值计算基础 303 浏览
- 4.蒙特卡洛方法与 MCMC 采样 293 浏览
-
统计学习
365 浏览
- 0.机器学习简介 303 浏览
- 1.线性代数基础 313 浏览
-
2.支持向量机
253 浏览
- 一、 线性可分支持向量机 344 浏览
- 二、线性支持向量机 252 浏览
- 三、非线性支持向量机 246 浏览
- 四、支持向量回归 330 浏览
- 五、SVDD 331 浏览
- 六、序列最小最优化方法 308 浏览
- 七、其它讨论 272 浏览
-
3.朴素贝叶斯
240 浏览
- 一、贝叶斯定理 352 浏览
- 二、朴素贝叶斯法 263 浏览
- 三、半朴素贝叶斯分类器 278 浏览
- 四、其它讨论 227 浏览
- 4.决策树 299 浏览
- 5.knn 264 浏览
-
6.集成学习
261 浏览
- 一、集成学习误差 326 浏览
- 二、 Boosting 316 浏览
- 三、Bagging 235 浏览
- 四、集成策略 384 浏览
- 五、多样性分析 244 浏览
-
7.梯度提升树
247 浏览
- 一、提升树 296 浏览
- 二、xgboost 339 浏览
- 三、LightGBM 421 浏览
-
8.特征工程
259 浏览
- 一、缺失值处理 299 浏览
- 二、特征编码 293 浏览
- 三、数据标准化、正则化 245 浏览
- 四、特征选择 294 浏览
- 五、稀疏表示和字典学习 308 浏览
- 六、多类分类问题 240 浏览
- 七、类别不平衡问题 247 浏览
-
9.模型评估
348 浏览
- 一、泛化能力 352 浏览
- 二、过拟合、欠拟合 285 浏览
- 三、偏差方差分解 254 浏览
- 四、参数估计准则 269 浏览
- 五、泛化能力评估 526 浏览
- 六、训练集、验证集、测试集 376 浏览
- 七、性能度量 248 浏览
- 七、超参数调节 454 浏览
- 八、传统机器学习的挑战 213 浏览
-
10.降维
348 浏览
- 一、维度灾难 336 浏览
- 二、主成分分析 PCA 285 浏览
- 三、核化线性降维 KPCA 339 浏览
- 四、流形学习 351 浏览
- 五、度量学习 364 浏览
- 六、概率PCA 316 浏览
- 七、独立成分分析 244 浏览
- 八、t-SNE 425 浏览
- 九、LargeVis 323 浏览
- 11.聚类 280 浏览
- 12.半监督学习 354 浏览
-
13.EM算法
234 浏览
- 一、示例 275 浏览
- 二、EM算法原理 297 浏览
- 三、EM算法与高斯混合模型 239 浏览
- 四、EM 算法与 kmeans 模型 244 浏览
- 五、EM 算法的推广 204 浏览
-
14.最大熵算法
232 浏览
- 一、最大熵模型MEM 274 浏览
- 二、分类任务最大熵模型 249 浏览
- 三、最大熵的学习 219 浏览
-
15.隐马尔可夫模型
287 浏览
- 一、隐马尔可夫模型HMM 259 浏览
- 二、 HMM 基本问题 281 浏览
- 三、 最大熵马尔科夫模型MEMM 245 浏览
-
16.概率图与条件随机场
312 浏览
- 一、概率图模型 322 浏览
- 二、贝叶斯网络 289 浏览
- 三、马尔可夫随机场 353 浏览
- 四、条件随机场 CRF 374 浏览
- 17.边际概率推断 253 浏览
-
18.主题模型
283 浏览
- 一、Unigram Model 273 浏览
- 二、pLSA Model 253 浏览
- 三、LDA Model 265 浏览
- 四、LDA优化 197 浏览
- 五、sentence-LDA 332 浏览
- 六、模型讨论 195 浏览
-
深度学习
414 浏览
- 0.深度学习简介 277 浏览
- 1.深度前馈神经网络 270 浏览
- 2.反向传播算法 281 浏览
- 3.正则化 258 浏览
-
4.最优化基础
260 浏览
- 一、代价函数 250 浏览
- 二、神经网络最优化挑战 286 浏览
- 三、 mini-batch 321 浏览
- 四、基本优化算法 302 浏览
- 五、自适应学习率算法 574 浏览
- 六、二阶近似方法 346 浏览
- 七、共轭梯度法 273 浏览
- 八、优化策略和元算法 263 浏览
- 九、参数初始化策略 315 浏览
- 十、Normalization 239 浏览
- 十一、Online Learning 307 浏览
- 5.卷积神经网络 237 浏览
-
5.1.CNN之图片分类
287 浏览
- 一、LeNet 243 浏览
- 二、AlexNet 238 浏览
- 三、VGG-Net 218 浏览
- 四、Inception 316 浏览
- 五、ResNet 209 浏览
- 六、ResNet 变种 395 浏览
- 七、SENet 319 浏览
- 八、 DenseNet 264 浏览
- 九、小型网络 250 浏览
-
6.循环神经网络
282 浏览
- 一、RNN计算图 355 浏览
- 二、训练算法 263 浏览
- 三、长期依赖 563 浏览
- 四、常见 RNN 变种 419 浏览
-
7.Transformer
337 浏览
- 一、Transformer 416 浏览
- 二、Universal Transformer 272 浏览
- 三、Transformer XL 484 浏览
- 四、GPT 335 浏览
- 五、BERT 396 浏览
- 六、ERNIE 255 浏览
- 七、XLNet 409 浏览
- 八、MT-DNN 278 浏览
- 九、BERT 扩展 295 浏览
-
8.词向量
263 浏览
- 一、向量空间模型 VSM 284 浏览
- 二、LSA 278 浏览
- 三、Word2Vec 371 浏览
- 四、GloVe 417 浏览
- 五、FastText 234 浏览
- 六、ELMo 209 浏览
- 七、变种 213 浏览
-
9.传统 CTR 预估模型
312 浏览
- 一、LR 模型 670 浏览
- 二、POLY2 模型 307 浏览
- 三、FM模型 280 浏览
- 四、FFM模型 359 浏览
- 五、GBDT-LR 模型 283 浏览
- 六、FTRL模型 286 浏览
- 七、LS-PLM 模型 477 浏览
- 10.神经网络 CTR 预估模型 305 浏览
-
11.Graph Embedding
303 浏览
- 一、DeepWalk 435 浏览
- 二、LINE 360 浏览
- 三、GraRep 329 浏览
- 四、TADW 324 浏览
- 五、DNGR 451 浏览
- 六、Node2Vec 505 浏览
- 七、WALKLETS 418 浏览
- 八、SDNE 380 浏览
- 十、EOE 278 浏览
- 九、CANE 224 浏览
- 十一、metapath2vec 387 浏览
- 十二、GraphGAN 249 浏览
- 十三、struc2vec 310 浏览
- 十四、GraphWave 269 浏览
- 十五、NetMF 278 浏览
- 十六、NetSMF 290 浏览
- 12.Graph Embedding(续) 301 浏览
-
13.图神经网络
310 浏览
- 一、GNN 264 浏览
- 二、GCN 359 浏览
- 三、Fast GCN 335 浏览
- 四、Semi-Supervised GCN 335 浏览
- 五、分子指纹GCN 210 浏览
- 六、GGS-NN 282 浏览
- 七、PATCHY-SAN 251 浏览
- 八、GraphSage 421 浏览
- 九、GAT 262 浏览
- 14.传统推荐算法 382 浏览
- 15.工程实践指导原则 337 浏览
-
工具
335 浏览
-
CRF++
241 浏览
- 一、安装 248 浏览
- 二、使用 247 浏览
- 三、Python接口 236 浏览
- 四、常见错误 197 浏览
- lightgbm使用指南 290 浏览
- xgboost使用指南 274 浏览
-
scikit-learn
264 浏览
-
1.预处理
207 浏览
- 一、特征处理 315 浏览
- 二、特征选择 268 浏览
- 三、字典学习 284 浏览
- 四、PipeLine 235 浏览
- 2.降维 199 浏览
-
3.监督学习模型
221 浏览
- 一、线性模型 280 浏览
- 二、支持向量机 334 浏览
- 三、贝叶斯模型 254 浏览
- 四、决策树 272 浏览
- 五、KNN 236 浏览
- 六 、AdaBoost 251 浏览
- 七、梯度提升树 340 浏览
- 八、Random Forest 253 浏览
-
4.模型评估
207 浏览
- 一、数据集切分 259 浏览
- 二、性能度量 234 浏览
- 三、验证曲线 && 学习曲线 274 浏览
- 四、超参数优化 293 浏览
-
5.聚类模型
224 浏览
- 一、KMeans 354 浏览
- 二、DBSCAN 259 浏览
- 三、MeanShift 248 浏览
- 四、AgglomerativeClustering 231 浏览
- 五、BIRCH 213 浏览
- 六、GaussianMixture 302 浏览
- 七、SpectralClustering 222 浏览
- 6.半监督学习模型 251 浏览
-
7.隐马尔可夫模型
200 浏览
- 一、Hmmlearn 245 浏览
- 二、seqlearn 274 浏览
-
1.预处理
207 浏览
-
spark
273 浏览
- 1.基础概念 264 浏览
- 2.rdd使用 325 浏览
-
3.dataframe使用
255 浏览
- 一、概述 207 浏览
- 二、SparkSession 212 浏览
-
三、DataFrame 创建
195 浏览
- 3.1 从列表创建 151 浏览
- 3.2 从 RDD 创建 139 浏览
- 3.3 从 pandas.DataFrame 创建 181 浏览
- 3.4 从数据源创建 187 浏览
- 3.5 从 Hive 表创建 157 浏览
- 四、 DataFrame 保存 207 浏览
-
五、DataFrame
179 浏览
- 5.1 属性 165 浏览
- 5.2 方法 226 浏览
- 5.2.3 其它方法 147 浏览
- 六、Row 211 浏览
- 七、Column 215 浏览
- 八、GroupedData 216 浏览
- 九、functions 221 浏览
- 4.累加器和广播变量 216 浏览
-
numpy 使用指南
267 浏览
-
一、 ndarray
238 浏览
- 1. ndarray 对象的内存结构 234 浏览
- 2. 数组的创建 208 浏览
- 3. 数组的索引 214 浏览
- 4. 操作多维数组 206 浏览
- 5.打印数组 156 浏览
- 6. Nan 和无穷大 153 浏览
-
二、 ufunc 函数
244 浏览
- 1. 广播 207 浏览
- 2. 四则运算 192 浏览
- 3. 比较运算 139 浏览
- 4. 逻辑运算 169 浏览
- 5. 位运算 178 浏览
- 6. 自定义 ufunc 函数 246 浏览
- 7. ufunc 对象的方法 176 浏览
- 8. 数学函数 181 浏览
- 三、 函数库 177 浏览
- 四、数组的存储和加载 210 浏览
-
一、 ndarray
238 浏览
- scipy 使用指南 206 浏览
-
matplotlib 使用指南
271 浏览
- 一、matplotlib配置 275 浏览
-
二、 matplotlib Artist
260 浏览
- 1. container Artist: 275 浏览
- 2. primitive 162 浏览
-
三、基本概念
245 浏览
- 1. backend 155 浏览
- 2. 交互式模式 244 浏览
- 3. matplotlib的颜色 172 浏览
- 4. matplotlib.cm 174 浏览
- 5. matplotlib.colors 218 浏览
- 6. matplotlib.colorbar 193 浏览
-
四、布局
216 浏览
- 1. 简单布局 185 浏览
- 2. 使用 pyplot.subplot2grid() 函数 166 浏览
- 3. 使用 GridSpec 和 SubplotSpec 182 浏览
- 五、 Path 227 浏览
- 六、 path effect 236 浏览
-
七、坐标变换
279 浏览
- 1. 用户的 data 坐标系 179 浏览
- 2. Axes 坐标系 164 浏览
- 3. 混合坐标系 167 浏览
- 4. 利用坐标变换制造阴影效果 177 浏览
- 5. 直角坐标系、对数坐标系、极坐标系 166 浏览
- 八、 3D 绘图 268 浏览
- 九、技巧 249 浏览
-
pandas 使用指南
245 浏览
-
一、基本数据结构
246 浏览
- 1. Series 171 浏览
- 2. Index 164 浏览
- 3. MultiIndex 171 浏览
- 4. DataFrame 234 浏览
- 二、 内部数据结构 224 浏览
-
三、 下标存取
279 浏览
- 1. [ ] 操作符 182 浏览
- 2. loc/iloc/ix 存取器 181 浏览
- 3. at/iat 存取器 179 浏览
- 4. query 方法 162 浏览
- 5. 多级索引 178 浏览
- 6. 整数 label 236 浏览
- 四、 运算 260 浏览
-
五、变换
186 浏览
- 1. 索引和轴的变换 193 浏览
- 2. 合并数据 182 浏览
- 3. 索引旋转 176 浏览
- 六、数据清洗 254 浏览
- 七、 字符串操作 245 浏览
-
八、 聚合与分组
236 浏览
- 1. 分组 170 浏览
- 2. GroupBy对象 190 浏览
- 3. 分组级运算 196 浏览
- 4. 透视表和交叉表 181 浏览
-
九、时间序列
221 浏览
- 1. Python 中的时间 158 浏览
- 2. 时间点 Timestamp 161 浏览
- 3. 时间段 Period 142 浏览
- 4. DatetimeIndex 179 浏览
- 5. PeriodIndex 172 浏览
- 6. resample 和频率转换 162 浏览
- 十、 DataFrame 绘图 257 浏览
- 十一、 移动窗口函数 269 浏览
-
十二、 数据加载和保存
204 浏览
- 1. 文本文件 157 浏览
- 2. Json 194 浏览
- 3. 二进制文件 158 浏览
- 4. Excel 文件 163 浏览
- 5. HTML 表格 173 浏览
- 6. SQL 144 浏览
-
一、基本数据结构
246 浏览
-
CRF++
241 浏览