主页技术基础精确性和错误率

精确性和错误率

常常有人将精确性和安全性混为一谈,包括一些专家。生物统计识别系统的质量标准主要是它的工作成绩或精确性,这涉及个性问题。个性问题的典型表述是:

·确定同一群体中两个个体显示足够相似的生物统计特征的可能性。

·对于一个特定的生物统计数据组,确定在本群体中找到另一个与之足够相似数据组的可能性。

归根到底,个性问题研究的是发生生物统计数据组归属错误的可能性,因为这里涉及的是是与否的问题,所以可能出现以下四种解决结果,其条件是AA和RE应尽可能多,而AE和RA应尽可能少。

1.接受一个合法者。(AA)

2.接受一个侵入者。(AE)

3.拒绝一个合法者。(RA)

4.拒绝一个侵入者。(RE)

1和4是期望的结果,而2和3不是。所以1和4的结果应尽量增多,2和3的错误应尽量减少。图6再一次表现了这四种状态。此外,生物统计识别法还有以下特征点:

·没有多余信息的参考数据组越长,分属两个不同个体的两个参考数据组之间的选择可能就越大。

·从样本识别的基本原则出发,用于识别的生物统计特征在人与人之间的区别应远远大于在同一个人身上由于时间流逝或其它原因发生的变化,只有这样,生物统计识别才是可靠的。

·最理想的生物统计特征在不同的个体之间应有最大程度的区别,而在同一个体身上受时间和环境影响而发生的变化应在最低限度,也就是说,这些特征应有最大的个体间差异,最小的个体内差异。

·影响识别精确性的一个重要因素是数据库的大小,也就是群体的大小,数据库规模越大,不同个体的身体特征发生重叠的可能性就越大。

生物统计识别法不是精密无误的方法,只能起到启发作用,测获的数据永远不能与储存中的参考数据百分之一百相同,只能达到一定的相似程度。错误接受率(FAR)和错误拒绝率(FRR):与建立在“所知”或“所有”(比如PIN、密码或硬件密钥)基础上的识别法不同,生物统计系统的作用基础是“可能性”。生物统计数据是会变的,因为测量中会发生差异,一个人的身体姿态在不同的时候永远不可能完全一致。此外,人身特征表现的不稳定、环境条件、不同探测设备之间的技术差异都会影响测获的生物统计数据。所以生物统计识别法不是精密的确凿的方法,由于测量仪器或识别算法的不理想,它的精确性常会出现问题,常有人被错误地接受或错误地拒绝,这就是“错误接受”和“错误拒绝”的问题。错误接受率(FAR)表现一个未经授权的或数据库中不存在的人被系统认作已合法登记的可能性,是非法使用者的访问被系统接受的相对概率。在生物统计法范围内,从一个“是”或“否”的判断可以推断出以下可能性:生物统计“抽样”与参考数据组相符或不相符,或者:算法的判断正确或不正确。判断结果有以下四种:

        ·错误接受(第一种错误)

        ·正确接受

        ·错误拒绝(第二种错误)

        ·正确拒绝

错误拒绝率表现合法使用者的访问被系统拒绝的相对概率。这两个质量参数在很大程度上取决于测量方法、使用的程序和特征数据的总量。“错误接受”也被定义为一级错误,“错误拒绝”也被定义为二级错误。错误接受率和错误拒绝率的数值不能通过理论推导得出,而必须以大量试验为依据统计出来。

错误接受一般只出现在识别的时候,很少出现在身份核实的时候,在身份核实的时候,只有伪造的或未经登记的生物统计特征会引起错误接受的后果。在将生物统计特征进行比较时,低标准的公差会引起很高的错误接受率,同时降低错误拒绝率(FRR);而高标准的公差则会导致很低的错误接受率和很高的错误拒绝率。按照生物统计数据比较机制敏感度校准水平的不同,公差级别会大大改变生物统计识别的结果。错误接受率和错误拒绝率成反比,安全度较高的系统以低错误接受率为宗旨,而容忍较高的错误拒绝率;而宽松的系统错误拒绝率降低,其代价是较高的错误接受率。错误拒绝率使使用者不适,而错误接受率则会导致系统安全受到威胁。如果错误拒绝率很高的话,使用者往往得进行多次尝试才能被系统接受(就像使用一台劣质刷卡机,磁卡得拉多次才能成功)。一个使用项目如果以舒适为重,并能普遍接受众多使用者,那就必须采用低标准公差,以降低错误拒绝率,使得使用者总是能够成功访问。较低错误拒绝率的缺点是很可能导致未经授权的人进入系统。在评判一个生物统计系统的识别成绩的时候,必须同时给出错误接受率和错误拒绝率两个数值,因为它们是成反比的。生产商关于错误率的说明几乎是无法验证的,也并非在所有的情况下都能理解。从经验我们可以得知,一个没有经验的新手在使用系统几星期后,错误拒绝率会大幅下降,这被称为“认识问题”,就是所谓的习惯效应。除错误拒绝率之外,人们普遍认为错误接受率是最重要的应用安全参数。错误率不能靠计算或理论推导得出,而只能以生物统计测试数据库为统计依据估算出来。为了使错误率的统计具有很强的说服力,要求进行大量的测量,FAR和FRR以百分比的形式表现出来。

在文献中经常以false match 和false non-match的概念取代错误接受率和错误拒绝率。false match表示,两个不同的特征被系统误认为相同,而false non-match的意思是,两个相同的特征被系统误认为不同,也就是说,false non-match rate就是错误拒绝率,false match rate 就是错误接受率。等错率(EER):在某一个水准上,错误接受率等于错误拒绝率,这被称为等错率。等错率是衡量系统对不同个体的生物统计特征进行区别的性能的尺度。如果在身份核实时选择的公差级别使得错误接受率和错误拒绝率呈现同一水准,这就是等错率(Equal-Error- Rate, EER),也被称为Cross-Over-Rate(CER)。

等错率(EER)是生物统计识别系统性能质量的标志,等错率越低,该系统的精确性就越高,等错率就是FRR和FAR显示同等数值的比率,此时FAR(t)=FRR(t)或FNMR(t)=FMR(t)。但生物统计系统性能质量的评判标准并不全在等错率,所谓的区分能力也是至关重要的,那要看曲线交点附近的斜度。EER相同的生物统计系统并不一定具有相同的识别质量,重要的是,要算出FAR和FRR曲线交点附近的斜度并在比较系统参数时将之纳入考虑范围,在图7和图8的例子中,左边的两条曲线交点附近的斜度较高,而右边两条曲线交点附近的斜度较低。理想状态是:EER接近0%,并且斜度也接近0。

对于生物统计系统的质量来说,仅仅EER这一个标准并不具有很强的说服力,它只能为某个特别级别的质量的评判提供一定的依据,所以还需要另一个参数,使我们对其它级别的质量也能做出判断。所谓的区分能力就是一个这样的尺度,两条出错曲线与水平线y=EER+5%所封锁的那个平面就被定义为区分能力,两条曲线在共同的交点附近下降或上升的幅度越小,那个平面的面积就越大,阴影面积越大,系统的区分能力也就越高,如果两个生物统计程序呈现相同的EER,那么阴影面积较大的那个程序选择能力更强。图9显示了FAR、FRR、EER和那个平面之间的关系。对于识别系统模式来说,整个出错公差在很大程度上取决于识别所依据的参考数据组的数量,个体化过程中的质量保证、安全水准以及系统各组成部分的相互协调都会对生物统计系统中相互制约的错误产生很大的影响。注册错误率:某一个参考数据组的识别精确性在很大程度上取决于个体化过程中产生的参考数据的质量,这一方面涉及特征表现的质量,另一方面涉及特征测获过程中的认真程度和精确性,对于指纹识别,这意味着所摄图片的大小和对比度,对于脸部识别,则要注意光线条件和图像清晰度。劣质的参考数据会导致很高的出错率。一个数据库中如果有少数质量很差的参考数据,与之相连的整个识别系统的出错率就会大幅提高。高质量的特征测量和参考数据以及尽可能低的EER是获得低值FAR和FRR的基本前提。所以,个体化过程需要质量监督,比如摄取指纹时设置图片面积的最低限度,摄取面部时为图片亮度设置最低限度,如果达不到这些最低限度,就会标志为测量错误,人的身份就不能成功注册。注册错误率就是表现有多少使用者不能成功注册的百分率。不能正常注册可能有以下这些原因:

·特征缺失(手指、眼睛、手);

·特征测获存在障碍(眼镜、隐形眼镜、特征表现不清晰);

·使用者缺乏技术理解,或技术理解不充分;

·存在系统问题(探测设备质量、算法);

·程序不能接受(比如出于健康考虑)。