机器学习-知识图谱

展开至 1级节点展开至 2级节点展开至 3级节点展开至 4级节点

机器学习历史 1. Python R 第一代工具单机 2. Mahaout MR 第二代工具分布式 3. Spark MLlib 第三代工具分布式迭代 4. H2O 5. Flink 体现 - 计算：云计算 - 推理：专家系统 - 灵敏：事件驱动 - 知识：数据仓库 - 检索：搜索引擎 - 智慧：机器学习用途 - 分类 - 预测 - 聚类 - 推荐算法有监督学习分类逻辑回归支持多分类线性不可分割情况方案：映射至高纬流程 svm支持向量机只支持二分类线性回归Liner Regression 一元线性回归多元线性回归预测贝叶斯分类算法朴素贝叶斯拉普拉斯估计拉普拉斯估计本质上是给频率表中的每个计数加上一个较小的数，这样就保证了每一类中每个特征发生概率非零文本向量化用途垃圾邮件分类只能做二分类推荐关联规则支持度置信度 apriori原则无监督学习聚类给事物打标签 kmeans聚类算法无监督给事物打标签刚开始选的点会影响到聚类结果距离测度 - 欧氏距离测度(EuclideanDistanceMeasure) - 平方欧氏距离测度(SquaredEuclideanDistanceMeasure) - 曼哈顿距离测度(ManhattanDistanceMeasure - 余弦距离测度(CosineDistanceMeasure) - 谷本距离测度(TanimotoDistanceMeasure) 同时表现夹角和距离的距离测度 - 加权距离测度(WeightedDistanceMeasure 聚类数肘部法算法流程 1. 适当选择c个类的初始中心 2. 在第K次迭代中，对任意一个样本，求其到c各中心的距离，将该样本归到距离最短的中心所在的类 3. 利用均值等方法更新该类的中心值 4. 对于多有的c个聚类中心，如果利用2,3的迭代法更新后，值保持不变，则迭代结束，否则继续迭代算法缺陷 - 聚类中心的个数K 需要事先给定，但在实际中这个 K 值的选定是非常难以估计的，很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适 - Kmeans需要人为地确定初始聚类中心，不同的初始聚类中心可能导致完全不同的聚类结果。(可以使用Kmeans++算法来解决) Kmeans++算法工具梯度下降法 SGD随机梯度下降误差函数/损失函数存在最小值只能做二分类 L-BFGS拟牛顿法 L-BFGS为SGD的优化方法，它的训练速度比SGD快还可能做多分类鲁棒性调优正则化 L1正则化适合降低维度惩罚系数一般都不能大于1 有的趋近于1，有的趋近于0，稀疏编码 L2正则化也称为岭回归，有很强的概率意义整体值变小整体的W同时变小，岭回归数值优化归一化最大值最小值法 - 缺点 - 抗干扰能力弱 - 受离群值得影响比较大 - 间容易没有数据方差归一化 - 优点 - 抗干扰能力强，和所有数据都有关, 求标准差需要所有值的介入，重要有离群值的话，会被抑制下来会使得各个W基本数量级一致缺点 - 最终未必会落到0到1之间 - 同增同减问题均值归一化每个数量减去平均值做机器学习的大公司 - 百度 - 谷歌 AlphaGo - 脸书开发步骤 1. 收集数据 2. 准备输入数据 3. 分析输入数据 4. 训练算法 5. 测试算法 6. 使用算法术语标签标签是我们要预测的事物，即简单线性回归中的 y 变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物特征特征是输入变量，即简单线性回归中的 x 变量。简单的机器学习项目可能会使用单个特征，而比较复杂的机器学习项目可能会使用数百万个特征，按如下方式指定样本样本是指数据的特定实例：x 有标签样本有标签样本同时包含特征和标签无标签样本无标签样本包含特征，但不包含标签模型模型定义了特征与标签之间的关系训练创建或学习模型推断将训练后的模型应用于无标签样本回归回归模型可预测连续值分类模型分类模型可预测离散值

Juforg

以大多数人的努力程度之低还轮不到拼天赋

RSS

GitHub E-Mail