LEMON的博客


  • 首页

  • 标签

  • 分类

  • 归档

  • 搜索

机器学习实战-Py3.X错误合集

发表于 2017-11-05 | 更新于: 2018-01-04 | 分类于 机器学习实战
字数统计: 371字

零. 常见

1
TypeError: 'range' object doesn't support item deletion
  • 注:3.x中range()要改为list(rang()),因为python3中range不返回数组对象,而是返回range对象
1
AttributeError: 'dict' object has no attribute 'iteritems'
  • iteritems()要改为items()

二. kNN

  • 报错:

    1
    NameError: name 'reload' is not defined

  • 在前面加入命令(个人推荐直接写在mian函数里面简单快捷)

    1
    from imp import reload

阅读全文 »

机器学习实战三(朴素贝叶斯)

发表于 2017-11-04 | 更新于: 2018-04-03 | 分类于 机器学习实战
字数统计: 1,943字

一、概述

1. 原理:

  • 工作机制:

2. 优缺点

  • 优点:在数据少的情况下有效,可以处理多类别问题
  • 缺点:对于输入数据的准备方式较为敏感
  • 适用数据范围:标称型数据

3.条件概论:

  • 在B的条件下A出现的概率。 p(A|B)=p(AB)/p(B)
  • 交换条件中的条件与结果: p(B|A)=p(A|B)*p(B)/p(A)

4.贝叶斯决策理论的核心思想:

  • 选择具有最高概论的决策

5.朴素贝叶斯算法的两个假设:

  • (1)每个特征之间都是独立的,这就使得公式: p((f1,f2,...fn)|c)=p(f1|c)p(f2|c)...p(fn|c)
  • (2)每个特征同等重要,我们拿文本分类做例子,把文档中的单词作为特征。这种假设使得我们在进行分类的过程中无需考虑单词出现的次数,只考虑单词出现与否。这也就贝叶斯算法的贝努利模型实现方式。
  • 注:贝叶斯的另一种实现方式为多项式模型,在这种模型中则需要考虑单词的出现次数。
    阅读全文 »

Logistic回归和Sigmoid函数

发表于 2017-11-03 | 更新于: 2018-04-03 | 分类于 机器学习实战
字数统计: 1,625字

一、概述

1. 原理:

  • 工作机制:

2. 优缺点

  • 优点:计算代价不高,易于理解和实现
  • 缺点:
    • 容易欠拟合,分类精度可能不高
  • 适用数据范围:数值型和标称型数据

理论

阅读全文 »

机器学习实战二(决策树)

发表于 2017-11-02 | 更新于: 2018-04-03 | 分类于 机器学习实战
字数统计: 1,230字

一. 决策树

1. 概念: 决策树学习是根据数据的属性采用树状结构建立的一种决策模型,可以用此模型解决分类和回归问题。常见的算法包括 CART(Classification And Regression Tree), ID3, C4.5等。

优点

  • 易于理解和解释,甚至比线性回归更直观;
  • 与人类做决策思考的思维习惯契合;
  • 模型可以通过树的形式进行可视化展示;
  • 可以直接处理非数值型数据,不需要进行哑变量的转化,甚至可以直接处理含缺失值的数据;

缺点:

  • 对于有大量数值型输入和输出的问题,决策树未必是一个好的选择;
  • 产生过拟合
  • 特别是当数值型变量之间存在许多错综复杂的关系,如金融数据分析;
  • 决定分类的因素取决于更多变量的复杂组合时;
  • 模型不够稳健,某一个节点的小小变化可能导致整个树会有很大的不同。
    阅读全文 »

第一章-深度学习概论

发表于 2017-10-29 | 更新于: 2017-12-20 | 分类于 深度学习与神经网络(吴恩达)
字数统计: 394字

1.2 什么是神经网络

  1. ReLU函数(修正线性单元):“修正”指的是取不小于0的值 图右是单个神经元:输入面积->computer运算->输出价格
  2. 多个神经元叠加构成一个更大的神经网络
  3. 左边的是输入的特征(输入层-input layer)
  • 中间的圆圈在神经网络中被称为“隐藏单元”(Hidden nuit):每个的输入都来着四个特征,因此是让神经网络自己决定中间的数代表的含义(why,这里为什么要这么说?)
    阅读全文 »

机器学习实战一(K-邻近算法(KNN))

发表于 2017-10-29 | 更新于: 2018-04-03 | 分类于 机器学习实战
字数统计: 1,881字

一、概述

1. 原理:

  • 工作机制:给定测试样本,基于某种距离度量找出训练集中的与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测.
  • 通常k是不大于20的整数

2. 优缺点

  • 优点:精度高、对异常值不敏感、无数据输入假定
  • 缺点:计算复杂度高、空间复杂度高,占用存储空间。无法给出数据的内在含义
  • 适用数据范围:数值型和标称型

3. 懒惰算法:

  • 此类学习技术在训练阶段仅仅把样本保存起来
  • 训练开支为零,待收到测试样本后再进行处理
    阅读全文 »

数据挖掘-关联规则挖掘

发表于 2017-01-02 | 更新于: 2018-01-08 | 分类于 数据挖掘
字数统计: 85字

概念

基本概念

mark

mark

k-项集与MinS

mark

阅读全文 »
1…45
LEMON

LEMON

没有什么是一蹴而就的

47 日志
18 分类
19 标签
GitHub 简书
© 2017 — 2018 LEMON
由 Hexo 强力驱动
|
本站访客数:次
|
博客全站共53.2k字