• / 18
  • 下载费用:10 金币  

信息检索课件-简版-自动文摘

关 键 词:
自动文摘自动文摘
资源描述:
文摘的定义 v中华人民共和国国家标准《文摘编写规则》(GB 6447 - 86) ›“以提供文献内容梗概为目的,不加评论和补充解释、简明、确切地记 述文献重要内容的短文。” v美国国家标准学会(ANSI)《文摘编写标准》 ›“某一文献内容的简要而准确的表达,不加解释和评论,也不区分这篇 文献是由谁写的。” v国际标准《文献工作——出版物的文摘和文献工作》( ISO 214 - 1976 ( E) ) ›“一份文献内容的缩短的精确的表达而无须补充解释或评论,且对写文 摘的人来说没有差别。” 文摘的特点 v简洁性 ›文摘比所摘的文献短 ›长度为原文献的5 %~10 %的文摘就能基本上反映文献的主要内容; ›当文摘的长度达到原文献的10 %~25 %时,很多文章的写作风格就可以在文摘中体现 出来了。 v准确性 ›无论长短,文摘必须准确无误地报道原文献的基本内容 ›不能主观改变原文观点 ›科技文献的文摘应确保正确引用原文中的各项数据。 v清晰性 ›必须使用一种易读的文体把文献内容清晰地表示出来 ›最好用完整的句子编写文摘 ›尽可能使用著者自己使用的词语。 文摘的功能 v促进新资料的快速通报 v节省阅读时间 v有助于克服语言障碍 v有利于文献检索 v…… 1:按文摘面向的用户划分 v通用文摘 v偏重文摘 v通用文摘和偏重文摘的区别在于是否考虑了用户的兴趣。 v通用型文摘就是面向所有用户的、文摘内容不带有任何侧重 的、全面反映原文内容的文摘。 v对于一篇长的文章,如果用户只关心某一方面(例如工业) ,这 就涉及到了偏重问题。 1:按文摘面向的用户划分 v偏重文摘也称为用户聚焦文摘、主题聚焦文摘或查询聚焦文 摘。 v根据需要或者用户的兴趣提供相应的有侧重点的文摘。 v偏重文摘的结果 ›不仅仅决定于原文的主题 ›也决定于用户的个性化要求 v它能够把焦点放在用户关心的部分 v而不是把原文的每个部分平等对待 2:按文摘处理的文本对象划分 v单文档文摘 v多文档文摘 v单文档文摘处理的文本对象是单篇文摘 v它对每篇文章独立的生成文摘。 v处理文档集合时会有什么问题? 2:按文摘处理的文本对象划分 v处理文档集合时会有什么问题? › 内容重复 v多文档文摘就是从一个文档集中去除冗余 v考虑文档相互的关联性及各自的差异 v产生一个浓缩的信息集。 2:按文摘处理的文本对象划分 v多文档文摘实际上是对单文档文摘的一个扩展 v它与单文档相比较需要一些新的技术和方法来处理 v它主要考虑以下几个方面的问题 ›需要一个高效地去除冗余的方法。 ›系列文档可能包含时间及空间的变化。 ›文摘结果压缩比很大,通常1 %~10 % ,而单文档可以在30 %左右。 ›发生在不同文档中的事件及实体,它们的关联、融合处理是一个难题 。 基于统计的自动文摘 v基于统计的自动文摘 ›将文本视为句子的线性序列 ›将句子视为词的线性序列 v它通常分4 步进行: ›计算词的权值 ›计算句子的权值 ›对原文中的所有句子按权值高低降序排列,权值最高的 若干句子被确定为文摘句 ›将所有文摘句按照它们在原文中的出现顺序输出 权重计算依据 v词频 v标题 v位置 v句法结构 v特殊词 v…… 基于统计的自动文摘的优点 v基于统计的自动文摘所依据的是文本形式上 的规律 v总的来说,任何一篇文章都不同程度地符合 这些规律 v因此基于统计的自动文摘能够适用于非受限 领域 v这是它突出的优点 基于统计的自动文摘的不足 v然而,一篇文章常常 › 在某些形式特征上符合常规 › 而在另一些形式特征上违反常规 v摘录的结果能否抓住原文的中心内容要看文 章在多大程度上符合常规 v因此,基于统计的自动文摘的质量很不稳定 。 基于统计的自动文摘的不足 v当加权函数调整时又总是顾此失彼 › 对这一类文章的效果好了 › 对另一类文章的效果又差了 基于统计的自动文摘的不足 v不全面 › 对于多主题的文献 v不简洁 › 重复文章的中心内容 v不连贯 › 省略、指代、逻辑次序 基本步骤 v语法分析 ›借助词典中的语言学知识对原文中的句子进行语法分析,获得语法 结构 v语义分析 ›运用知识库中的语义知识将语法结构描述转换成以逻辑和意义为基 础的语义表示。 v语用分析和信息提取 ›根据知识库中预先存放的领域知识在上下文中进行推理,并将提取 出来的关键内容存入一张信息表。 v文本生成 ›将信息表中的内容转换为一段完整连贯的文字输出。 语法语义分析技术不成熟 v面向大规模真实语料的语法语义分析技术尚 未完全成熟 v因此如果想获得高质量的语言分析结果,就 必须将待处理的语料限制在某个范围之内。 知识表示难以移植 v理解文摘方法的基础是框架等知识表示 v框架需要根据领域知识预先拟定 v因此如果想把适用于某个领域的理解文摘系统推广 到另一领域,则需重新拟定框架 v这种填充和组织领域知识的沉重负担使理解文摘难 以移植 理解文摘的不足 v理解文摘的不足在于领域严格受限 v造成领域受限的原因在于: › 语法语义分析技术不成熟 › 知识表示难以移植 v怎么办? › 一步一步来
展开阅读全文
  麦档网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:信息检索课件-简版-自动文摘
链接地址:https://www.maidoc.com/p-15475598.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2018-2020 maidoc.com版权所有  文库上传用户QQ群:3303921 

麦档网为“文档C2C模式”,即用户上传的文档所得金币直接给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的金币归上传人(含作者)所有。
备案号:蜀ICP备17040478号-3  
川公网安备:51019002001290号 

本站提供办公文档学习资料考试资料文档下载


收起
展开