当前位置:首页 科普知识 分类器

分类器

发布时间:2023-09-16 07:51:00

分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器(Classifier))。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。总之,分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。

分类器分类器的构造和实施

分类器的构造和实施大体会经过以下几个步骤:

分类器

选定样本(包含正样本和负样本),将所有样本分成训练样本和测试样本两部分。

在训练样本上执行分类器算法,生成分类模型。

在测试样本上执行分类模型,生成预测结果。

根据预测结果,计算必要的评估指标,评估分类模型的性能。

分类器

分类器几种基本的分类器

1.决策树分类器

提供一个属性集合,决策树通过在属性集的基础上作出一系列的决策,将数据分类。这个过程类似于通过一个植物的特征来辨认植物。可以应用这样的分类器来判定某人的信用程度,比如,一个决策树可能会断定“一个有家、拥有一辆价值在1.5 万到2.3 万美元之间的轿车、有两个孩子的人”拥有良好的信用。决策树生成器从一个“训练集”中生成决策树。SGI 公司的数据挖掘工具MineSet 所提供的可视化工具使用树图来显示决策树分类器的结构,在图中,每一个决策用树的一个节点来表示。图形化的表示方法可以帮助用户理解分类算法,提供对数据的有价值的观察视角。生成的分类器可用于对数据的分类。

2. 选择树分类器

选择树分类器使用与决策树分类器相似的技术对数据进行分类。与决策树不同的是,选择树中包含特殊的选择节点,选择节点有多个分支。比如,在一棵用于区分汽车产地的选择树中的一个选择节点可以选择马力、汽缸数目或汽车重量等作为信息属性。在决策树中,一个节点一次最多可以选取一个属性作为考虑对象。在选择树中进行分类时,可以综合考虑多种情况。选择树通常比决策树更准确,但是也大得多。选择树生成器使用与决策树生成器生成决策树同样的算法从训练集中生成选择树。MineSet 的可视化工具使用选择树图来显示选择树。树图可以帮助用户理解分类器,发现哪个属性在决定标签属性值时更重要。同样可以用于对数据进行分类。

3. 证据分类器

分类器

证据分类器通过检查在给定一个属性的基础上某个特定的结果发生的可能性来对数据进行分类。比如,它可能作出判断,一个拥有一辆价值在1.5 万到2.3 万美元之间的轿车的人有70 %的可能是信用良好的,而有30 %的可能是信用很差。分类器在一个简单的概率模型的基础上,使用最大的概率值来对数据进行分类预测。与决策树分类器类似,生成器从训练集中生成证据分类器。MineSet 的可视化工具使用证据图来显示分类器,证据图由一系列描述不同的概率值的饼图组成。证据图可以帮助用户理解分类算法,提供对数据的深入洞察,帮助用户回答像“如果... 怎么样" 一类的问题。同样可以用于对数据进行分类。

分类器分类器的准确度评估方法

    影响一个分类器错误率的因素(1)、训练集的记录数量。生成器要利用训练集进行学习,因而训练集越大,分类器也就越可靠。然而,训练集越大,生成器构造分类器的时间也就越长。错误率改善情况随训练集规模的增大而降低。(2)、属性的数目。更多的属性数目对于生成器而言意味着要计算更多的组合,使得生成器难度增大,需要的时间也更长。有时随机的关系会将生成器引入歧途,结果可能构造出不够准确的分类器(这在技术上被称为过分拟合)。因此,如果我们通过常识可以确认某个属性与目标无关,则将它从训练集中移走。(3)、属性中的信息。有时生成器不能从属性中获取足够的信息来正确、低错误率地预测标签(如试图根据某人眼睛的颜色来决定他的收入)。加入其他的属性(如职业、每周工作小时数和年龄),可以降低错误率。(4)、待预测记录的分布。如果待预测记录来自不同于训练集中记录的分布,那么错误率有可能很高。比如如果你从包含家用轿车数据的训练集中构造出分类器,那么试图用它来对包含许多运动用车辆的记录进行分类可能没多大用途,因为数据属性值的分布可能是有很大差别的。

    评估方法有两种方法可以用于对分类器的错误率进行评估,它们都假定待预测记录和训练集取自同样的样本分布。(1) 保留方法(Holdout):记录集中的一部分(通常是2/3)作为训练集,保留剩余的部分用作测试集。生成器使用2/3 的数据来构造分类器,然后使用这个分类器来对测试集进行分类,得出的错误率就是评估错误率。虽然这种方法速度快,但由于仅使用2/3 的数据来构造分类器,因此它没有充分利用所有的数据来进行学习。如果使用所有的数据,那么可能构造出更精确的分类器。(2) 交叉纠错方法(Cross validation):数据集被分成k 个没有交叉数据的子集,所有子集的大小大致相同。生成器训练和测试共k 次;每一次,生成器使用去除一个子集的剩余数据作为训练集,然后在被去除的子集上进行测试。把所有得到的错误率的平均值作为评估错误率。交叉纠错法可以被重复多次(t),对于一个t 次k 分的交叉纠错法,k *t 个分类器被构造并被评估,这意味着交叉纠错法的时间是分类器构造时间的k *t 倍。增加重复的次数意味着运行时间的增长和错误率评估的改善。我们可以对k 的值进行调整,将它减少到3 或5,这样可以缩短运行时间。然而,减小训练集有可能使评估产生更大的偏差。通常Holdout 评估方法被用在最初试验性的场合,或者多于5000 条记录的数据集;交叉纠错法被用于建立最终的分类器,或者很小的数据集。

温馨提示:
本文【分类器】由作者 爱百科 转载提供。 该文观点仅代表作者本人, 自学教育网 信息发布平台,仅提供信息存储空间服务, 若存在侵权问题,请及时联系管理员或作者进行删除。
(c)2008-2025 自学教育网 All Rights Reserved 汕头市灵创科技有限公司
粤ICP备2024240640号-6