字体
关灯
上一页 进书架 回目录    存书签 下一页

第90章 顶尖算法团队的赞叹(3/5)

·卡莉突然想到了什么。

现在的新闻摘要软件算法在宣传方面都是强调速度的,很少又在准确度方面大谈特谈的。

倒不是因为准确度在新闻摘要方面不重要,恰恰相反,准确度在新闻摘要这方面极其重要,可以说准确度是衡量一个摘要算法堪不堪用最根本的因素,但各种摘要算法很少有对精确度进行极其精确的量化宣传的。

原因无它,因为现在业内对准确度的衡量缺乏一个统一的标准。

听起来很不可思议,但是事实如此,评估一篇摘要的准确度看似很容易,但其实这是一件比较困难的任务。

对于一篇摘要的衡量而言,很难说有标准答案,不同于很多拥有客观评判标准的任务,摘要的评判一定程度上依赖主观判断。

在摘要任务中,有关于语法正确性、语言流畅性、关键信息完整度等衡量摘要准确度的标准都缺乏一个统一的标尺。

在现今评估自动文本摘要质量的两种方法:人工评价方法和自动评价方法。

人工评估就是邀请若干专家人为制定标准进行人工评定,这种方法比较接近人的感受。

但是耗时耗力,不但无法用于对大规模自动文本摘要数据的评价,和自动文本摘要的应用场景也并不符合。

最关键的是以拥有主观思想的人进行摘要的评价的话,很容易出现偏差,毕竟一千个人眼里有一千个哈姆雷特,每个人对新闻摘要的衡量都有自己的准绳,或许一个衡量团队可以制定一个统一的衡量标准,但换一个衡量团队很可能衡量标准便不一样。

这就很容易导致在评判准确度的时候因为评判团队的不同,同一次的摘要结果会得到截然不同的评价。

评判团队千差万别,很容易导致一些明明有实力做好算法的团队却因为评判团队拉跨出师未捷身先死。

伊芙·卡莉他们团队的文本摘要算法之前一度能够在全球领先。

跟他们和牛津、哈佛、耶鲁三所大学的语言学方面深度合作有着很大的关系。

但这终究不是长久之计,人工的评估方法因其固有的局限性注定了走不远。

因此,文本摘要算法研究团队积极地研究自动评价方法。

自上世纪九十年代末开始,一些会议或组织开始致力于制定摘要评价的标准,他们也会参与评价一些自动文本摘要。

比较着名的会议或组织包括SUmmAc、dUc、tAc(text Analysis conference)等。

尽管相关的团队在积极研究自动评价方法,在现今评估自动文本摘要质量的两种方法(人工评价方法和自动评价方法)还是以人工评价方法这个评估方法最为常用。

很多自动评价方法的原理主要是将摘要算法生成的新闻摘要和参考摘要进行比较通过最大拟合程度来进行评价。

这个评价的过程虽然是自动的,但参考摘要却是人工撰写的。

也就是说即便是所谓的自动评价方法,也摆脱不了主观因素的介入。

那样的话何苦多费一遍功夫用什么自动评价方法?

也正因为如此很多团队在评估摘要质量时选择的方式依旧是人工评估。

而人工评估这种主观东西就很难对结果进行客观的量化。

正因为这种情况,尽管之前不少团队摘要算法准确度都还算不错。

但涉及到新闻摘要准确度方面的宣传,大家都选择性的遗忘了。

就这种情况下,为什么南风App的开发者在软件介绍中却言之凿凿地称这款软件准确度比同类软件高出270%。

这个所谓的270%究竟是基于什么标准去衡量的呢?一时之间伊芙·卡莉陷入了沉
本章未完,请翻下一页继续阅读.........
上一页 进书架 回目录    存书签 下一页