SemanticKnowledgeResearch

2017-05-12

1. 简介

因为Parsing的需要，现开始调研Semantic Knowledge相关的知识，做一些记录。:)

《Parsing the Penn Chinese Treebank with Semantic Knowledge》

有效解决：

记录一下我们利用HowNet的过程：

	Words	HN1	HN2	HN2+CL
Words in train	40878	22207	22206	23787
Words in dev	8497	6270	6270	6493
Words in test	11196	8183	8183	8510
Classes in train	-	1562	465	465
Classes in dev	-	1094	391	392
Classes in test	-	1200	411	411

在抽取HN2的时候，我发现以下两个问题：

有一个义项：Entity|实体，已经是最顶层的的义项了，并没有再上一层的义项了，所以默认它本身就是上一层义项。
还有一个义项：Attribute|属性，并没有再上一层的义项了。
从上面的数据中，我们看到，其实Train数据集的覆盖率还是挺低的；输出了数据，但是我发现词频都很低2次的很多（可能是1次，不确定抽取word的时候，有没有重复，明天确定一下TODO）
在Dev中的words，6270；和Train重合的部分，5694；在Test中的words，8183.和Train重合的部分，7116
HowNet+聚类(2017-7-1)
因为在调用HowNet的过程中，我们发现了语料中存在着大量的词没有HN2，而且这些词基本都是低频词，所以我们希望利用聚类来弥补这个HN2的缺失。
在Train、Dev、Test三个语料中，总计有21630种词没有HN2，利用聚类之后，只剩下9种词没有HN2.
下面记录详细的实验结果。

Corpus	UAS	LAS	comments	position
Dev	81.10%	77.50%	Greedy	gpu-no-1:~/GN3Parser-beta/3.9.5.1-w-HN2+Word-cluster
Test	81.22%	77.55%	Greedy	gpu-no-1:~/GN3Parser-beta/3.9.5.1-w-HN2+Word-cluster
Dev	84.66%	81.15%	Global	gpu-no-1:~/GN3Parser-beta/3.9.5.1-w-HN2+Word-cluster
Test	84.90%	81.38%	Global	gpu-no-1:~/GN3Parser-beta/3.9.5.1-w-HN2+Word-cluster

我们尝试了一个工作，利用HowNet抽取语料里面的词的HN2，再按照词性进行分类，合并。
实验结果：

Bias	Corpus	UAS	LAS
120	Dev	78.11%	74.14%
120	Test	79.68%	75.75%
200	Dev	75.61%	70.98%
200	Test	78.32%	74.14%

我们尝试利用HowNet的知识，组织相关的实验。如何利用HowNet？在GN3Parser中，抽取每一个word的时候，会同时抽取该word的HN2，HN2的相关信息在上面已经给出。我们设置HN2的维度为50维，以embedding的方式加入到Parser中。

Corpus	UAS	LAS	comments	position
Dev	80.66%	77.03%	Greedy	gpu-no-1:~/GN3Parser-beta/debug-3.9.5.1
Test	81.11%	77.39%	Greedy	gpu-no-1:~/GN3Parser-beta/debug-3.9.5.1
Dev	84.48%	80.98%	Global	gpu-no-1:~/GN3Parser-beta/debug-3.9.5.1-global
Test	84.62%	81.10%	Global	gpu-no-1:~/GN3Parser-beta/debug-3.9.5.1-global
Dev	81.19%	77.57%	Greedy	gpu-no-1:~/GN3Parser-beta/3.9.5.1-w-HN2+CL
Test	81.28%	77.53%	Greedy	gpu-no-1:~/GN3Parser-beta/3.9.5.1-w-HN2+CL
Dev	84.53%	81.19%	Global	gpu-no-1:~/GN3Parser-beta/3.9.5.1-w-HN2+CL
Test	84.75%	81.28%	Global	gpu-no-1:~/GN3Parser-beta/3.9.5.1-w-HN2+CL

(这些实验的代码有问题，所以实验结果忽略不计，也是错误的)

Corpus	UAS	LAS	comments	position
Dev	79.32%	75.43%	Only train HN2, Greedy	gpu-no-1:~/GN3Parser-beta/debug-4.0
Test	80.14%	76.14%	Only train HN2, Greedy	gpu-no-1:~/GN3Parser-beta/debug-4.0
Dev	79.24%	75.33%	merged HN2, Greedy	gpu-no-1:~/GN3Parser-beta/4.0-w-mergeHN2
Test	80.19%	76.20%	merged HN2, Greedy	gpu-no-1:~/GN3Parser-beta/4.0-w-mergeHN2
Dev	82.88%	79.15%	merged HN2, Global	gpu-no-1:~/GN3Parser-beta/4.0-w-mergeHN2
Test	82.97%	79.05%	merged HN2, Global	gpu-no-1:~/GN3Parser-beta/4.0-w-mergeHN2