![spark机器学习算法研究和源码分析](https://cdn.mianquan.net/upload/tutorial/cover/1528b205d7a00a43.png)
spark机器学习算法研究和源码分析
本项目对spark ml包中各种算法的原理加以介绍并且对算法的代码实现进行详细分析,旨在加深自己对机器学习算法的理解,熟悉这些算法的分布式实现方式。
云计算&大数据 420人已学习
目录
- 介绍 495 浏览
- 数据类型 373 浏览
-
基本统计
304 浏览
- correlations(相关性系数) 455 浏览
- tratified sampling(分层取样) 307 浏览
- hypothesis testing(假设检验) 274 浏览
- random data generation(随机数生成) 275 浏览
- Kernel density estimation(核密度估计) 335 浏览
- 协同过滤 391 浏览
- 分类和回归 363 浏览
-
聚类
270 浏览
- k-means算法 393 浏览
- GMM(高斯混合模型) 243 浏览
- PIC(快速迭代聚类) 331 浏览
- LDA(隐式狄利克雷分布) 578 浏览
- 二分k-means算法 243 浏览
- 流式k-means算法 280 浏览
-
最优化算法
261 浏览
- 拟牛顿法 426 浏览
- NNLS(非负最小二乘) 584 浏览
- 带权最小二乘 364 浏览
- 迭代再加权最小二乘 340 浏览
-
降维
319 浏览
- EVD(特征值分解) 334 浏览
- PCA(主成分分析) 356 浏览
-
特征抽取和转换
190 浏览
-
特征抽取
325 浏览
- Word2Vec 270 浏览
- CountVectorizer 415 浏览
-
特征转换
352 浏览
- Tokenizer 254 浏览
- StopWordsRemover 280 浏览
- n-gram 252 浏览
- Binarizer 369 浏览
- PolynomialExpansion 431 浏览
- Discrete Cosine Transform (DCT) 331 浏览
- StringIndexer 336 浏览
- IndexToString 259 浏览
- OneHotEncoder 299 浏览
- VectorIndexer 376 浏览
- StandardScaler(特征缩放) 851 浏览
- MinMaxScaler 440 浏览
- MaxAbsScaler 388 浏览
- Bucketizer 302 浏览
- ElementwiseProduct(元素智能乘积) 268 浏览
- SQLTransformer 314 浏览
- VectorAssembler 393 浏览
- QuantileDiscretizer 443 浏览
-
特征选择
318 浏览
- RFormula 295 浏览
- ChiSqSelector(卡方选择器) 381 浏览
-
特征抽取
325 浏览