[發明專利]一種自然語言句子的語義角色標注方法無效
| 申請號: | 200810243605.8 | 申請日: | 2008-12-10 |
| 公開(公告)號: | CN101446942A | 公開(公告)日: | 2009-06-03 |
| 發明(設計)人: | 王紅玲;朱巧明;錢培德;孔芳;李培峰;周國棟;錢龍華 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 蘇州創元專利商標事務所有限公司 | 代理人: | 陶海鋒 |
| 地址: | 215123江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自然語言 句子 語義 角色 標注 方法 | ||
技術領域
本發明涉及一種對自然語言的語義分析的方法,尤其涉及一種對自然語言句子的語義角色進行分析和標注的方法,屬于計算語言學中的自然語言處理領域。
背景技術
語義分析是自然語言處理的一個關鍵問題。作為目前的熱點研究課題之一,語義角色標注(Semantic?Role?Labeling,SRL)是淺層語義分析(ShallowSemantic?Parsing)的一種,其實質是在句子級別進行淺層的語義分析。所謂語義角色標注,就是對于給定句子,對句中的每個謂詞標注出句中的相應語義成分,并作相應的語義標記,如施事、受事、工具或附加語等。SRL能應用于問答系統、信息抽取、文本摘要、文本蘊含等領域,具有廣泛的應用前景。
基于機器學習的語義角色標注通??煞譃樗膫€階段:a)預處理,通常過濾掉不可能成為語義角色的句法成分;b)語義成分識別,識別出哪些標注單元是某一目標謂詞的語義角色;c)語義角色分類,為識別語義成分的單元進行語義角色的分類;d)后處理,對標注的語義角色進行全局優化,確定合理的角色組合。其中,識別和分類階段一般使用局部推導。所謂局部推導是指獨立決定句中每個成分的語義標簽,而不依賴于其他成分的標注,這樣訓練得到的模型稱為局部模型。相應地,全局推導一般發生在后處理階段。所謂全局推導是指在局部推導的基礎上,考慮各成分標簽之間的依賴關系,通過全局模型集成相關硬限制和軟約束條件,從而得到合理的語義角色組合。通常,合理地集成局部模型和全局模型,能大大提高系統的性能和健壯性。
局部模型的學習方法通??煞譃閮深悾夯谔卣飨蛄康姆椒ê突诤撕瘮档姆椒?。從目前而言,基于特征向量的方法,取得了較大的成功,速度和性能都大大優于基于核函數的方法。
基于特征向量的方法需要人為定義大量具有區分度的特征模板,然后根據此模板將每個實例轉化為特征向量進行學習或預測操作。目前主要集中于特征工程和機器學習模型的研究。但由于基于特征向量的方法僅僅反映了待標注單元的局部信息,不能很好地反映全局信息和結構化句法信息,因此人們探索基于核函數的方法進行語義角色標注?;诤撕瘮档姆椒ǖ幕舅枷胧菍⒌途S線性不可分問題映射到高維空間,使之成為線性可分問題。通常這種映射可以通過計算核函數隱式達到,從而降低時間和空間復雜性。核函數能很好的融入支持向量機、感知器等學習算法,因而引起了人們廣泛的興趣。
自然語言處理任務包括詞性標注、句法分析、語義分析、信息抽取等,通常是按序進行的,即后一項任務在前一項任務的基礎上進行,例如語義角色分析通常要基于句法分析的結果。句法分析(Syntactic?Parsing)是自然語言處理的一個基本問題和關鍵技術。它的任務是根據給定的語法,自動推導出句子的語法結構,即句子所包含的句法單位以及這些句法單位之間的關系。句法分析的目的主要有兩個:一個是確定句子所包含的“譜系”結構;另一個是確定句子的組成成份之間的關系。通常,輸入一個句子,即單詞之間的線性次序,輸出一個非線性的數據結構,如短語結構樹(如句法樹)或有向無環圖(如依存關系圖)等。
因此,現有技術中,總是首先進行句法分析,獲得句法樹,然后在句法樹的基礎上,進行語義分析,包括進行句子的語義角色標。這樣的做法會帶來一系列問題,其一,前項任務在進行時,無法考慮到后面任務的具體需求而不能滿足需求,通常句法分析面向后續的多個任務,因此輸出結果比較通用,而語義角色標注除需要這些通用信息外,還可能需要一些特定的信息,如句法樹或其子樹的概率信息等,這些信息句法分析系統通常比較欠缺;其二,后項任務的性能受到前面任務性能的制約,句法分析結果的好壞會直接影響到語義角色標注的性能。現有的研究表明,在英文手工句法樹和自動句法樹上進行的語義角色標注,其性能(F1值)相差10個百分點,而基于中文手工句法樹和自動句法樹上進行的語義角色標注,其F1值相差甚至達30個百分點。
發明內容
本發明目的是本發明的目的是提供一種有效的句子的語義角色標注方法,通過建立聯合推導模型,減少自動句法分析結果對語義角色標注性能的影響,從而解決基于自動句法分析的語義角色標注方法性能較差的問題。
為達到上述目的,本發明采用的技術方案是:一種自然語言句子的語義角色標注方法,采用聯合學習模型,同時實現中文句法分析和語義角色標注,包括如下步驟:
(1)生成語義角色標注模型:
生成訓練文件:從標注語料庫中,根據下表中的特征抽取特征,生成所需的訓練文件;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810243605.8/2.html,轉載請聲明來源鉆瓜專利網。





