[發(fā)明專利]一種高精度漢語謂詞識別方法有效
| 申請?zhí)枺?/td> | 201310080760.3 | 申請日: | 2013-03-14 |
| 公開(公告)號: | CN103150381A | 公開(公告)日: | 2013-06-12 |
| 發(fā)明(設(shè)計)人: | 羅森林;白建敏;潘麗敏;韓磊;魏超 | 申請(專利權(quán))人: | 北京理工大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 高精度 漢語 謂詞 識別 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于規(guī)則和統(tǒng)計相結(jié)合的漢語謂詞識別方法,屬于自然語言處理與機(jī)器學(xué)習(xí)領(lǐng)域。
背景技術(shù)
自然語言處理技術(shù)在詞法和句法上的研究已經(jīng)取得了重大進(jìn)展,相比較而言,對語義、語用和語境知識的研究一直是一個難以跨越的瓶頸。要想讓計算機(jī)真正的理解自然語言,語義分析是必經(jīng)之路。謂詞識別是進(jìn)行進(jìn)一步語義分析的基礎(chǔ),對于語義分析的后續(xù)工作起著關(guān)鍵性的作用,因此,高準(zhǔn)確率、高效率的謂詞識別方法尤其重要。
漢語謂詞識別需要解決兩個基本問題:1.如何提取代表性強(qiáng)、區(qū)分度高的規(guī)則或者特征組合來約束或者表征謂詞;2.采用何種準(zhǔn)確率高、判定速度快的模型來識別謂詞。綜觀現(xiàn)有謂詞識別方法,主要是基于規(guī)則的方法和基于統(tǒng)計的方法,還有規(guī)則和統(tǒng)計相結(jié)合的方法。
1.基于規(guī)則的方法
規(guī)則的方法通常由語言學(xué)家基于語料和內(nèi)省的辦法構(gòu)造規(guī)則庫進(jìn)行自然語言處理,對于語言學(xué)的知識有很好的概括性和解釋性,但是因為規(guī)則的顆粒度大小、覆蓋面大小、規(guī)則間競爭沖突等問題很難把握,基于規(guī)則的方法有其瓶頸之處。主要的方法有:
(1)面向基于實例的漢英機(jī)器翻譯系統(tǒng)(Example-Based?Machine?Translation,EBMT)的漢語謂詞識別:該方法提出了一種折中的漢語句子分析方法—骨架依存分析法,通過確定謂詞來把握句子的整體結(jié)構(gòu),提出了一種根據(jù)漢英例句集合中英語例句的謂詞來識別相應(yīng)的漢語例句的謂詞的策略。對例句集合中的3000漢語例句進(jìn)行謂詞的自動識別,識別準(zhǔn)確率達(dá)到87.3%。
(2)面向科技論文的謂詞識別:該方法是針對科技論文這一特定文體的句法分析研究提出的謂詞識別,僅對動詞做中心謂詞(限于句子第一層的謂詞)的情況進(jìn)行了識別,沒有給出實驗的具體識別準(zhǔn)確率。其識別的基本步驟為:1)按照字典對句子(以句號結(jié)尾)進(jìn)行分詞,將具有動詞性質(zhì)的詞放入集合D中;2)若D為空則給出錯誤信息;若D中只有一個元素則用一部分規(guī)則判斷,然后轉(zhuǎn)入句法分析;否則轉(zhuǎn)入第三步;3)運(yùn)用另一部分規(guī)則刪去D中不屬于中心謂詞的動詞,若D為空則給出錯誤信息;否則轉(zhuǎn)入第四步;4)運(yùn)用剩余的規(guī)則找出中心謂詞。
(3)利用主語和謂語的句法關(guān)系識別謂詞:在利用謂詞候選項的靜態(tài)語法特征和動態(tài)語法特征來識別謂詞的基礎(chǔ)上,提出了一種利用句子的主語和謂語之間句法關(guān)系來識別謂詞的方法。該方法的具體步驟為:1)根據(jù)詞性選擇出主語的初始候選項和謂詞的初始候選項;2)根據(jù)在訓(xùn)練集中習(xí)得的特征對謂詞候選項進(jìn)行進(jìn)一步篩選,將一些可以成為主語的謂詞候選項歸入主語候選項的集合;3)對主語候選項進(jìn)行一定的連接,使句子的結(jié)構(gòu)更加清晰,并為下一步判別句子的類型做準(zhǔn)備;4)判別句子的類型,并根據(jù)結(jié)果選擇出謂詞候選項所具有的句法特征;5)將謂詞候選項具有的特征組織并計算,計算得出的值作為度量謂詞候選項的標(biāo)準(zhǔn)。經(jīng)過測試,謂詞的識別準(zhǔn)確率達(dá)到了91.3%(開放測試中的結(jié)果)。
(4)面向數(shù)據(jù)分析的謂詞識別:該方法提出面向事件描述小句的漢語自動句法分析的方法和步驟,在句法分析之前對真實語料進(jìn)行小句劃分的預(yù)處理,預(yù)處理階段采用一種基于謂詞識別和規(guī)則方法,將漢語句子分割成多個事件描述小句;然后基于DOP對漢語事件描述小句進(jìn)行句法分析;最后通過組合處理實現(xiàn)完整句子的句法分析。該方法的好處是可以將句法分析的任務(wù)分步處理,將詞數(shù)較多的復(fù)雜句簡單化,從而提高句法分析的速度和精度。謂詞識別是作為事件描述小句識別的一部分開展的。該方法基于CIPS-ParsEval-2009提供的171篇TCT訓(xùn)練語料,對動詞、形容詞做謂詞的情況均進(jìn)行了識別,取得了89.94%的識別準(zhǔn)確率。
2.基于統(tǒng)計的方法
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京理工大學(xué),未經(jīng)北京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310080760.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:可放音樂的燙發(fā)機(jī)
- 下一篇:一種手機(jī)保護(hù)套





