
spark机器学习算法研究和源码分析
本项目对spark ml包中各种算法的原理加以介绍并且对算法的代码实现进行详细分析,旨在加深自己对机器学习算法的理解,熟悉这些算法的分布式实现方式。
云计算&大数据 481人已学习
目录
- 介绍 533 浏览
- 数据类型 409 浏览
-
基本统计
345 浏览
- correlations(相关性系数) 492 浏览
- tratified sampling(分层取样) 340 浏览
- hypothesis testing(假设检验) 312 浏览
- random data generation(随机数生成) 310 浏览
- Kernel density estimation(核密度估计) 381 浏览
- 协同过滤 455 浏览
- 分类和回归 400 浏览
-
聚类
304 浏览
- k-means算法 428 浏览
- GMM(高斯混合模型) 280 浏览
- PIC(快速迭代聚类) 390 浏览
- LDA(隐式狄利克雷分布) 640 浏览
- 二分k-means算法 278 浏览
- 流式k-means算法 314 浏览
-
最优化算法
298 浏览
- 拟牛顿法 483 浏览
- NNLS(非负最小二乘) 641 浏览
- 带权最小二乘 425 浏览
- 迭代再加权最小二乘 403 浏览
-
降维
375 浏览
- EVD(特征值分解) 389 浏览
- PCA(主成分分析) 401 浏览
-
特征抽取和转换
224 浏览
-
特征抽取
396 浏览
- Word2Vec 325 浏览
- CountVectorizer 473 浏览
-
特征转换
406 浏览
- Tokenizer 314 浏览
- StopWordsRemover 339 浏览
- n-gram 290 浏览
- Binarizer 423 浏览
- PolynomialExpansion 490 浏览
- Discrete Cosine Transform (DCT) 390 浏览
- StringIndexer 393 浏览
- IndexToString 316 浏览
- OneHotEncoder 361 浏览
- VectorIndexer 432 浏览
- StandardScaler(特征缩放) 913 浏览
- MinMaxScaler 493 浏览
- MaxAbsScaler 444 浏览
- Bucketizer 362 浏览
- ElementwiseProduct(元素智能乘积) 310 浏览
- SQLTransformer 374 浏览
- VectorAssembler 451 浏览
- QuantileDiscretizer 500 浏览
-
特征选择
379 浏览
- RFormula 350 浏览
- ChiSqSelector(卡方选择器) 416 浏览
-
特征抽取
396 浏览