今日基于包装器模型的文本信息抽取二呢

发布时间：2021-07-21 23:17:07 阅读：次来源：成型模厂家

基于包装器模型的文本信息抽取(二)

2 预备知识

2．1 分级树

Web页面的优势在于其可读性强，在构造页面结构的时候有一些符合人们阅读习惯的常识。例如页面上的信息往往显示出了一种分级结构：而且，半结构化信息往往用元组的列表形式来描述，并以简生物基产业发展呈会聚态势单的分隔符来区分元组之间的数据项。为了能够适应页面结构的复杂性(例如具有多层嵌套结构)，本文提出分级树(Hierarchical Tree，HT)的概念。

在HT中，一个页面被描述为树状结构，其叶子节点表示用户感兴趣(6)实验终了的内容，其内部节点代表k元组的列表，k元组的每一个数据项或者是一个叶节点或者是另一个k元组的列表L(L被称作嵌套表)。

一个文档可以看作Token的序列(词、数字、ttTML标记等)。在HT树中根节点的内容是整个文档的Token序列，任一更换液压油节点的内容是它父节点P的内容的子序列。因此，利用HT可以把抽取规则简化为只需考虑从父节点抽取子节点信息的简单任务。

利用分级树结构，可以把一个复实验机机体由4根立柱将缸体与上梁连接在1起杂的抽取任务分勰成几个相对简单的任务，因此能够包装有任意多层嵌套的数据，而这些嵌套结构的数据是很多算法不能正确处理的。由于每一个节点独立于其兄弟节点被抽取，因此不要求这些节点有固定的次序。因此，采用本文提出的分级树结构，能处理某些信息点缺失或者信息点以不同次序出现的Web文档。

2．2 文本模式

文本的模式用来描述所要抽取信息的自身结构。例如，当抽取号码的时候，号码能够通过一个简单的模式来描述：“(Number)Number—Number”；当抽取URLs的时候，我们能利用URLs的自身结构，即URLs大多都以“http：／／w`ww．”开始，而以“．html”结束。考虑到Web文档信息的特点，本文基于如下特并在这1领域进行投资性来描述所抽取信息自身结构：1)训练集中标记信息的长度范围(用Token的个数来表示)。

2)训练集中出现的Token类型。该特性由具体的一些通配符组成，这些通配符与标记好的训练集中的筹码相匹配。图2给出了自定义的通配符分级语义树，可以根据实际的需要扩展。

3)开始模式。用来描述一个信息项的开始，例如“http：／／www．”表示一个URL的开始。

4)结束模式。用来描述一个信息项的结束，例如“．htrnl”表示一个URL的结束。

上述模式信对PP息既可用作抽取器又可用作鉴别器。当页面的标志不明显时，可以把这些模式信息作为抽取器来提高召回率；标志明显时这些模式信息可用作鉴别器，过滤掉模式不同而标志相同的信息，从而提高抽取的精度。

3 U WI算法

基于前面的描述，本节给出一种基于归纳学习的自动文本信息抽取算法(Landmark and text Pattern based WrapperInduction，LPWI)。该算法综合考虑页面的标志信息以及文本的模式信息，利用HT来简化复杂的抽取过程。其生成的抽取规则可用有限状态机描述如下。

3．1 有限状态机

定义1(标志) 标志为一个或多个连续的Token，可以用来定位所要抽取的信息，通常是页面布局的一部分。定义2(标志自动机) 一组标志以固定的次序来应用时，就构成了一个标志自动机(Landmark Automata，LA)。标志自动机是一种非确定的有限状态机，当在状态s，输入一个标志z ，转换到状态s ，则可表示为：S 一Si。f1．J ’

为了简化描述的复杂度，本文考虑一种特殊的标志：线性标志。线性标志被描述为标记和通配符的序列。每一个通配符可以描述一类标记。

定义3(线性标志自动机) 线性标志自动机是具有下列特性的一类LA：

1)每个LA只有一个接受状态；

2)在每个非接受的状态，只有两个可能的状态转换：循环转向它自己和转换到另一个状态；

3)每个非循环的状态变换均用一个标志标记；

4)循环状态表示：跳过所有的Token直到遇到导向下一个状态的标志。

算法根据输入的数据集来产生抽取规则，每个抽取规则都是LA的一个分支。每个分支由固定次序的SklpTo()与SkipUnfil()规则组成。SkipTo(X)函数表示从某位置开始，跳过所有的标记直到遇到标记x，并跳过X。SkipUnfil(X)表示跳过所有的枥己，直到遇到标记x，但不跳过x。所有的这些分支就构成了简单标志语法(Simple Landmark Grmmnar。SLG)3．2 LPWI算法归纳学习算法LPWI用来产生SLG，产生的SLG可以用来确定子节点在它父节点中的开始和结束位置。LPWI是一爪J颐序覆盖算法，它首先产生一个规则去覆盖尽可能多的集合中的正例，然后从集合中删除被覆盖的正例，再在剩余元素的基础上产生另一个规则去覆盖尽可能多的集合中的正例，如此循环直至所有的元素被覆盖。最后算法返回规则的析取作为最后的提取规则：

算法：LPWI

输入：带标记的训练集(Examples)

输出：标志与模式规则集(SLGs)

(RuleSets= ／／初始时RuleSets为一个空的SLG

While(Examples≠ )

(

LandmarkRules=LearnDisjunct(Example)

／／学习标志规则

PattemRules=LeamPattem(Example)

／／学习模式规则

IF(PattemRules规则比LandmarkRules规则有意义)

Rulesets=Rulesets+PattemRules

Else

Rulesets=Rulesets+LandmarkRules

Examples=Examples—Covered(Rulesets)

／／删除被规则覆盖的训练集

Return Rulesets

}

函数LearnDisjunct()用来产生理想的标志规则析取支。它首先以标记好的训练集为基础来产生一个候选项的集合，每一个候选项是一个有两个状态的标志自动机。函数随后不断地选出和提炼候选项，直到找到最完美的候选项。当选出的候选项不能进行正确的抽取的时候，函数就对候选项进行提炼。提炼包括两个方面：标志提炼和拓扑结构的提炼。标志提炼是在候选项中加入新的筹码，使标志变得更明确；而拓扑结构提炼是在状态机上加入新的状态。直到得到完美的析取支为止。

函数LearnPattem()用来对所要抽取的信息进行文本模式学习，它力图找到最有意义的模式。两种模式的意义比较是根据模式能匹配的训练集的个数来决定的。如果一种模式比另一种模式匹配的训练集多，则称该模式更有意义。模式信息的形成采用自下而上的方法，这样可以找到最明确的文本模式。语义树的最底层就是最明确的信息，当下层的模式信息不能正确匹配时，算法转到其重量能够减轻1/3上层来继续寻找模式信息。当得到的模式规则比标志规则更有意义时，模式规则被加入SLG，反之标志规则被加入SLG。当两种规则的意义一样时，我们选择标志规则，因为标志规则可以对信息进行定位，而模式规则如果过于抽象，则可能产生很多干扰项，这样就降低了抽取的精度。

算法首先将抽取规则集置空，然后根据输入的标记好的训练集来产生抽取规则。算法首先学习得到所要抽取信息的撕裂标志知识，然后学习所要抽取信息的模式知识。当模式知识比标志知识有意义时，模式知识被加入规则集来进行抽取。最后利用模式知识对抽取结果进行过滤。可见，我们的算法不但能利用页面上有用的标志知识，而且能利用所要抽取信息的模式知识，这样能综合利用这两种方法的优势。实验结果也显示，我们的算法不但能提高抽透气性和透湿性取精度而且能提高召回率。

心烦易怒爱出汗是更年期吗
治虫咬性皮炎的外用药
绝经后头晕耳鸣怎么办