当前位置:首页 科普知识 相似性度量

相似性度量

发布时间:2023-09-17 02:11:44

相似性度量

相似性度量,即综合评定两个事物之间相近程度的一种度量。两个事物越接近,它们的相似性度量也就越大,而两个事物越疏远,它们的相似性度量也就越小。相似性度量的给法种类繁多,一般根据实际问题进行选用。常用的相似性度是有:相关系数(衡量变量之间接近程度),相似系数(衡量样品之间接近程度),若样品给出的是定性数据,这时衡量样品之间接近程度,可用样本的匹配系数、一致度等。相似性的度量方法很多,有的用于专门领域,也有的适用于特定类型的数据,如何选择相似性的度量方法是一个相当复杂的问题,

相似性度量定义

相似性度量,即综合评定两个事物之间相近程度的一种度量。两个事物越接近,它们的相似性度量也就越大,而两个事物越疏远,它们的相似性度量也就越小。相似性度量的给法种类繁多,一般根据实际问题进行选用。常用的相似性度量有:相关系数(衡量变量之间接近程度),相似系数(衡量样品之间接近程度),若样品给出的是定性数据,这时衡量样品之间接近程度,可用样本的匹配系数、一致度等。

用数量化方法对事物进行分类,就必须用数量化方法描述事物间的相似程度。一个事物常常需要用多个变量来刻画,如对一群用p个变量描述的样本点进行分类,则每个样本点可看做是p维空间的一个点,很自然的想到用距离来度量样本点间的相似程度。

相似性度量基础知识

相似性度量距离

设Ω是所有样本点的集合,距离

是Ω×Ω→

的一个函数,满足条件:

(1)正定性:

,x,y

Ω;d(x,x)=0,当且仅当x=0;

(2)对称性:d(x,y)=d(y,x),x,y

Ω;

(3)三角不等式:

,x,y,z

Ω。

相似性度量相关系数

设变量

,j=1,2,

,p,则可以用两变量

的样本相关系数

作为它们的相似性度量。变量之间的相关系数组成的矩阵称为相关系数矩阵,且相关系数矩阵是一个实对称矩阵,通常用上三角矩阵或下三角矩阵来表示。

相似性度量角度

都是在用距离来度量样本之间的相似程度,实际上在某些情况下可以采用角度相似性度量。

如果认为两个样本之间的相似程度只与它们之间的夹角有关,而与矢量的长度无关,那么就可以使用矢量夹角的余弦来度量相似性。有:s(x,y)=

=

(1)当x与y重合时,夹角为0,相似度最大:s(x,y)=1;

(2)当x与y方向相反时,夹角为π,相似度最小:s(x,y)=-1;

相似性度量聚类分析

聚类通常按照对象间的相似性进行分组,因此如何描述对象间相似性是聚类的重要问题。数据的类型不同,相似性的含义也不同。例如,对数值型数据而言,两个对象的相似度是指它们在欧氏空间中的互相邻近的程度;而对分类型数据来说,两个对象的相似度是与它们取值相同的属性的个数有关。

聚类分析按照样本点之间的亲疏远近程度进行分类。为了使类分得合理,必须描述样本之间的亲疏远近程度。刻画聚类样本点之间的亲疏远近程度主要有以下两类函数:

(1)相似系数函数:两个样本点愈相似,则相似系数值愈接近1;样本点愈不相似,则相似系数值愈 接近0。这样就可以使用相似系数值来刻画样本点性质的相似性。

(2)距离函数:可以把每个样本点看作高维空间中的一个点,进而使用某种距离来表示样本点之间的相似性,距离较近的样本点性质较相似,距离较远的样本点则差异较大。

需要由领域专家确定采用哪些指标特征变量来精确刻画样本的性质,以及如何定义样本之间的相似性测度。

温馨提示:
本文【相似性度量】由作者 百科大全 转载提供。 该文观点仅代表作者本人, 自学教育网 信息发布平台,仅提供信息存储空间服务, 若存在侵权问题,请及时联系管理员或作者进行删除。
(c)2008-2025 自学教育网 All Rights Reserved 汕头市灵创科技有限公司
粤ICP备2024240640号-6