率失真理论是用信息论的基本观点和方法研究数据压缩问题的理论,又称限失真信源编码理论。率失真理论的基本问题可以归结如下:对于一个给定的信源分布与失真度量,在特定的码率下能达到的最小期望失真;或者为了满足一定的失真限制,最小描述码率可以是多少。
率失真理论的名称来源于信息速率失真函数,率失真理论包含两个中心内容:一是率失真函数或失真率函数,二是限失真编码定理。这就是针对不同的信源.不同的失真量度和不同信源概率分布计算率失真函数和证明相应的限失真编码定理。
率失真理论涉及三个基本概念;信源、编码和失真量度。失真量度是这一理论特有的。它是对编译码器输入x和输出y之间的失真所给予的量度,即d(x,y)。数学上,任何范数或距离(度量)都可作为失真量度。但在具体选择时要考虑到物理上或主观上应有意义,且数学上易处理和计算方便。已有的失真量度按量度的性质可分为范数失真量度和拟范数失真量度,按高阶失真量度与一阶失真量度的关系又可分为可加性量度和非可加性量度。现在常用的是差值失真量度和汉明失真量度。均方误差失真量度,即d(x,y)=(x-y)2,既属于范数失真量度,也属于距离失真量度,又是一种差值失真量度,不仅有明确的物理意义,而且数学上也易于处理。
尽管这两个函数的求解有一定难度,但这两个函数变化的一般趋势都很简单。其中率失真函数R(D)是一个在(0,Dmax)区间上严格递减、下凸的函数,D大于Dmax以后均取零。而在D=0时,对离散信源等于信源的熵,对连续信源则趋于无限大,如图所示。失真率函数D(R)同样是R的单调下降的下凸函数。
在最简单的离散、无记忆、平稳信源和分组编况下,设信源的率失真函数是R(D),当R>R(D)时,一定存在一种具体的编码方法, 使其失真小于D+ε,其中ε是一个无穷小量。反之若R<R(D),则不论用什么编码方法,其失真必大于D;对一般遍历信源,平稳非遍历信源、渐近平稳非遍历信源等其它信源,以及移不变码(滑动分组码)等非分组码的情况下,也有类似的定理。该定理的证明所使用的是随机编码的方法,虽然不能从中得到一种具体的编译码方法,但却证明了这样的好码必然存在。这样,信源编码定理就在数据压缩的具体编码方法和率失真函数之间建立起一种联系,对具体编码方法的研究起到了指导作用。
率失真理论的主要应用有两种:
①数据压缩。为数据压缩的性能提供理论极限和比较标准,对具体编码方法的研究起方向指导作用;
②模式识别。统计模式识别与数据压缩是两个具有交叉领域的学科。率失真理论在模式分类、特征选择等问题上有重要的应用。
率失真理论在应用中,也存在一些问题。例如:它解决得较好的信源是平稳遍历信源,而在实际中,信源经常是非平稳非遍历的;它解决得比较好的编码是分组码,但在实际应用中,非分组码相当普遍。同时,理论上要求对信源建立精确的模型,但实际上只能得到近似的模型;理论上假定已有正确的失真量度,但如何得到这量度尚无有效的办法。