分类模型综述

off999 2025-04-26 20:25 131 浏览 0 评论

分类模型是一切人工智能的基础。把分类模型研究清楚了，人工智能涉及的其他模型也就简单了

分类模型的输入，我们定义为X：它是一个向量[x0,x1,x2,x3,x4,...xn] 这个向量通常代表了一张图像，或者一段语音，或者一段文字等你要分类的对象
分类模型的输出，我们定义为Y，它是一个具体的值。比如Y=1，表示第一类。它也可以是一个向量，比如[1,0,0,0,0,0]这个向量表示第1类，[0,1,1,1,1,1]这个向量表示第2类。

既然模型的输入输出清楚了，那么模型就可以定义为Y = F(X)了，
模型就可以定义为一个函数F了，
所以只要实现把X 变换为 Y的函数，我们都可以称之为模型。

那么主要的分类模型有哪些呢？

Y = k近邻模型(X)
Y = 贝叶斯(X)
Y = SVM(X)
Y = 线性模型(X)
Y = 决策树(X)
Y = 神经网络(X)

k近邻模型：

（1）计算已知类别数据集中的点与当前点之间的距离；
（2）按照距离递增次序排序；
（3）选取与当前点距离最小的k和点；
（4）确定前k个点所在类别的出现频率；
（5）返回当前k个点出现频率最高类别作为当前点的预测分类。

import numpy as np
import operator

group = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = ['A','A','B','B']

def classify0(inX,dataSet,labels,k):
    dataSetSize=dataSet.shape[0]
    #距离计算，新的数据与样本的距离进行减法
    diffMat = np.tile(inX, (dataSetSize,1)) - dataSet
    #对数组的每一项进行平方
    sqDiffMat=diffMat**2
    #数组每个特征值进行求和
    sqDistances=sqDiffMat.sum(axis=1)
    #每个值开方
    distances=sqDistances**0.5
    #索引值排序
    sortedDistIndicies = distances.argsort()
    #选取距离最小的前k个值进行索引，从k个中选取分类最多的一个作为新数据的分类
    classCount={}
    for i in range(k):
        voteIlabel=labels[sortedDistIndicies[i]]
        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1
    sortedClassCount=sorted(classCount.items(),
    key=operator.itemgetter(1),reverse=True)
    #返回前k个点中频率最高的类别
    return sortedClassCount[0][0]
    
print(classify0([0,0],group,labels,3))

out:B

贝叶斯模型：
朴素贝叶斯分类器工作流程
朴素贝叶斯分类常用于文本分类，尤其是对于英文等语言来说，分类效果很好。它常用于垃圾文本过滤、情感预测、推荐系统等。
朴素贝叶斯分类器需要三个流程，我来给你一一讲解下这几个流程。
第一阶段：准备阶段
在这个阶段我们需要确定特征属性，比如上面案例中的“身高”、“体重”、“鞋码”等，并对每个特征属性进行适当划分，然后由人工对一部分数据进行分类，形成训练样本。
这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。
第二阶段：训练阶段
这个阶段就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率。
输入是特征属性和训练样本，输出是分类器。
第三阶段：应用阶段
这个阶段是使用分类器对新数据进行分类。输入是分类器和新数据，输出是新数据的分类结果。
好了，在这次课中你了解了概率论中的贝叶斯原理，朴素贝叶斯的工作原理和工作流程，也对朴素贝叶斯的强大和限制有了认识。下一节中，我将带你实战，亲自掌握 Python 中关于朴素贝叶斯分类器工具的使用。

支持向量机模型：

支持向量机（support vector machines, SVM）是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；SVM还包括核技巧，这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。

决策树模型：

决策树是一种十分常用的分类方法，需要监管学习（有教师的Supervised Learning），监管学习就是给出一堆样本，每个样本都有一组属性和一个分类结果，也就是分类结果已知，那么通过学习这些样本得到一个决策树，这个决策树能够对新的数据给出正确的分类。

决策树的生成主要分以下两步，这两步通常通过学习已经知道分类结果的样本来实现。

1. 节点的分裂：一般当一个节点所代表的属性无法给出判断时，则选择将这一节点分成2个

子节点（如不是二叉树的情况会分成n个子节点）

2. 阈值的确定：选择适当的阈值使得分类错误率最小（Training Error）。

比较常用的决策树有ID3，C4.5和CART（Classification And Regression Tree），CART的分类效果一般优于其他决策树。

神经网络模型：

神经网络的神奇之处，就在于它可以自动做模型参数W和b的优化，在深度学习中，参数的数量有时会上亿，不过其优化的原理和我们这个两层神经网络是一样的。

python开方