[發(fā)明專利]一種自然語言句子的語義關系樹的構造和比較方法無效
| 申請?zhí)枺?/td> | 200810243607.7 | 申請日: | 2008-12-10 |
| 公開(公告)號: | CN101446944A | 公開(公告)日: | 2009-06-03 |
| 發(fā)明(設計)人: | 周國棟;錢培德;朱巧明;李培峰;李軍輝;孔芳;王紅玲;錢龍華 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 蘇州創(chuàng)元專利商標事務所有限公司 | 代理人: | 陶海鋒 |
| 地址: | 215123江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自然語言 句子 語義 關系 構造 比較 方法 | ||
技術領域
本發(fā)明涉及一種對自然語言的語義關系進行分析的方法,尤其涉及語義關系樹的構造及其比較的方法,屬于計算語言學中的自然語言處理領域。
背景技術
在許多自然語言理解系統(tǒng)中,不但要識別文本中的實體,而且還要根據(jù)上下文確定和抽取這些實體之間的各種語義關系,即進行實體間語義關系抽取(簡稱語義關系抽取或關系抽取)。通常,實體關系的類型是預先定義的,例如某人是否在某地。實體間語義關系的抽取不僅是信息抽取中的重要環(huán)節(jié),而且在問答系統(tǒng)、知識獲取和自然語言接口等應用中也非常重要。
語義關系抽取要借助多種自然語言理解技術,對文本中的句子進行分析處理后才能完成;同時,語義關系抽取也依賴于機器學習方法。采用機器學習方法來實現(xiàn)語義關系抽取時,往往將它轉換成一個關系分類問題,即分類器把已經標注的語料庫作為訓練集,采用一定的分類方法產生分類模型,然后利用分類模型從未知文本中找出相應的語義關系。
根據(jù)語義關系實例表示方法的不同,基于機器學習的關系抽取分為基于特征的機器學習方法和基于核函數(shù)的機器學習方法。基于特征的機器學習方法通過獲取各種有效的詞法、語法、語義等特征,并把它們有效地集成起來,從而產生描述實體對象關系的各種局部特征和簡單的全局特征。基于核函數(shù)的方法可以充分利用(序列化數(shù)據(jù)中的)長距離特征和(結構樹中的)結構化特征,直接計算兩個特征向量甚至兩個對象(如語法結構樹)之間的相似度來進行分類,這使得基于核函數(shù)的方法理論上可探索隱含的高維特征空間。
基于核函數(shù)的語義關系抽取的主要問題包括:(1)有效的機器學習方法,即如何利用更有效的機器學習方法來提高關系抽取的性能和效率;(2)語義關系樹的自動獲取,即如何根據(jù)語言學知識,從句法樹中自動獲取語義關系樹(3)樹核函數(shù)的構造,即如何有效比較一對語義關系樹之間的相似度。目前對第一個方面的研究已取得很多成熟的方法,如最大熵、條件隨機場和支撐向量機等分類器。而對于其它兩個方面的研究還處于初步階段,要使抽取出的語義關系樹既涵蓋關鍵的結構化句法信息,又要減少不必要的噪音,同時,語義關系的比較方法(即樹核函數(shù)的構造)要更好地體現(xiàn)語義關系抽取所需的各種結構化句法信息,這些都具有一定的難度。
發(fā)明內容
本發(fā)明目的是本發(fā)明的目的是提供一種通過考慮上下文相關信息,從句法樹中產生和比較語義關系樹的方法,來解決語義關系抽取的性能問題。通過使用本發(fā)明所提供的方法,可構造一個基于機器學習的關系抽取系統(tǒng),達到提高關系抽取性能的目的。
為達到上述目的,本發(fā)明采用的技術方案是:一種自然語言句子的語義關系樹的構造方法,對于句子中待建立語義關系樹的兩個實體,采用下列構造方法:
(1)采用語法分析器產生與句子相對應的句法樹;
(2)在句法樹中確定兩個實體的位置,方法是,依據(jù)兩個實體的外延范圍在句法樹中從詞匯結點向上尋找,直到發(fā)現(xiàn)一個共同結點,即把它確定為實體在句法樹中的位置;
(3)在句法樹中找出連接兩實體的最短路徑,分別從兩個實體結點出發(fā),向上搜索,并記錄經過的路徑,直到發(fā)現(xiàn)一個最近的共同祖先結點,此時搜索過程中記錄下的連接兩實體的路徑即為最短路徑;
(4)在語義關系樹中,保留最短路徑及其所包含的部分,裁剪掉其余部分,最后得到的最小的語義關系樹即為最短路徑包含樹;
(5)確定句法樹中兩實體之間存在的結構類別,如果兩個實體之間用一個逗號分隔,則為半結構化;如果第二個實體是以介詞短語形式修飾第一個實體,則為PP附屬結構;如果第二個實體的外延包含了第一個實體,則為嵌入式結構;如果兩個實體作為名詞短語緊接在一起,則為描述性結構;除此之外的所有結構均視作謂詞鏈接結構;
(6)如果兩實體之間的結構類型不是謂詞結構,則最短路徑包含樹即為我們所需要的語義關系樹;
如果兩實體之間的結構類型是謂詞鏈接結構,則擴展與謂詞相關的上下文信息,得到上下文相關的路徑包含樹,其方法是,首先從最短路徑包含樹的根節(jié)點開始向上移動直到找到一個以謂詞為中心詞的節(jié)點,然后沿著以該謂詞為中心詞的路徑找到該謂詞,這樣被最短路徑包含樹和該謂詞查找路徑所涵蓋的子樹即我們要找的動態(tài)語義關系樹。
一種自然語言句子的語義關系樹的比較方法,對采用上述方法獲得的兩棵語義關系樹T1和T2,采用下列方法進行比較:
(1)列出樹T1和T2中除葉結點以外的所有結點列表L1和L2;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810243607.7/2.html,轉載請聲明來源鉆瓜專利網。





