[發明專利]一種高精度漢語謂詞識別方法有效
| 申請號: | 201310080760.3 | 申請日: | 2013-03-14 |
| 公開(公告)號: | CN103150381A | 公開(公告)日: | 2013-06-12 |
| 發明(設計)人: | 羅森林;白建敏;潘麗敏;韓磊;魏超 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 高精度 漢語 謂詞 識別 方法 | ||
1.高精度漢語謂詞識別方法,其特征在于:采用分步識別的方法,首先對待測句子進行詞法分析,得到可疑謂詞及其個數;接著利用可疑謂詞個數是否為1等判定條件進行初步謂詞識別;其次對不滿足初步識別判定條件的可疑謂詞,提取相關詞法和句法特征并利用C4.5算法訓練得到的決策樹判定模型對其進行謂詞識別;最終匯總兩步識別結果給出每個待測句子中的謂詞。本發明不僅能夠進一步提升謂詞識別準確率,還可以有效減少訓練和識別的時間開銷,并且對非動詞作謂詞的情況也能有效識別。包括如下步驟:
步驟1,對已進行詞法和句法標注的句子中的詞進行詞性分析,統計出每個句子中的可疑謂詞及其個數。由于在漢語中,具有某些詞性的詞,如介詞、助詞、代詞等,它們無法充當謂詞或者只在極少的情況下充當謂詞。因此,為了提高算法效率,并且不影響識別效果,首先對句子中的每個詞進行詞性分析,不可能作為謂詞的詞,則不對其進行特征提取及識別。僅對可能成為謂詞的詞(可疑謂詞)進行下一步處理。所述的句子在訓練過程中指的是訓練句子,在識別過程中指的是待測句子。
步驟2,在步驟1的基礎上,對標注語料進行特征提取和訓練最終得到決策樹判定模型,該步驟分為特征提取和C4.5算法訓練決策樹兩個步驟。所述的標注語料指的是具有謂詞標記的語料,具體過程如下:
步驟2.1,訓練階段的特征提取輸入的是經過詞法、句法標注的訓練句子以及步驟1得到的可疑謂詞及其個數,用人工形式總結歸納出相關的初始詞法、句法特征,再通過特征篩選實驗得到訓練句子的最終詞法、句法特征及謂詞標記。
所述的特征篩選實驗的目的是將無用的特征或作用較小的特征去除,最終選出最優的特征組合(或特征子集),特征子集選擇問題,就是找到原始特征集合的一個簡潔子集,使得機器學習算法在僅包含這個子集中特征的數據集合上運行后,產生一個盡可能高精確度的分類器。因此,特征子集選擇的關鍵是找到一個簡潔且優良的特征子集。具體步驟如下:
步驟2.1.1,去除單個特征,記錄識別結果,并按照識別效果從高到低排序。
步驟2.1.2,識別效果越好說明去除的特征對于特征組合的貢獻越小,所以按照步2.1.1的排序結果,根據識別效果從高到低依次去除特征,利用剩下特征進行測試。
步驟2.2,C4.5算法訓練決策樹過程是將步驟2.1得到的詞法、句法特征以及謂詞標記,輸入到C4.5算法進行訓練,最終得到謂詞決策樹判定模型。
步驟2.2.1,所述的C4.5算法是一種重要的機器學習算法,是ID3算法的一種改進算法,其優點是:產生的分類規則易于理解,準確率較高。缺點是:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致算法的低效。具體的算法流程如下:1.創建節點N,如果訓練集為空,在返回節點N標記為失敗,如果訓練集中的所有記錄都屬于同一個類別,則以該類別標記節點N;2.如果候選屬性為空,則返回N作為葉節點,標記為訓練集中最普通的類;3.對每一個候選屬性如果是聯系的就對該屬性進行離散化;4.選擇候選屬性中具有最高信息增益的屬性D,標記節點N為屬性D,對每一個屬性D的一致值d,由節點N長出一個條件為D=d的分支;5.設s是訓練集中D=d的訓練樣本的集合,如果s為空,則加上一個樹葉,標記為訓練集中最普通的類,否則加上一個有C4.5(R-{D},C,s)返回的點。
步驟2.2.2,本發明采用的是C4.5算法訓練決策樹,需要針對C4.5算法進行參數選取。對于C4.5算法,需要調整的參數主要有裁剪比例confidenceFactor和最小分支支撐事例數minNumObj。參數選擇實驗具體方法是:將裁剪比例和最小分支支撐事例數分別按一定大小步長取值,根據相應的取值得到謂詞識別準確率、召回率和F值,最好的識別結果所對應的參數即為最終的參數。
步驟3,訓練過程結束后是識別過程,包括初步識別、特征提取和謂詞判定三個步驟,具體步驟為:
步驟3.1,初步識別過程輸入的是步驟1得到的可疑謂詞及其個數以及經過詞法、句法標注的待測句子,利用相關的判定條件對可疑謂詞進行初步識別,符合判定條件的直接給出識別結果,不符合判定條件的則進行下一步特征提取操作。該步驟使用了基于規則的方法進行謂詞的初步識別。
所述的判定條件是:
(1)可疑謂詞的個數如果為1,則該可疑謂詞為謂詞。該判定條件基于一個約定:任何完整的句子必定含有至少一個謂詞。
(2)可疑謂詞為動詞“是”且處于“是……的”結構中,則判斷該可疑謂詞為非謂詞。
(3)可疑謂詞為“掉、完、完畢”且緊跟在一個動詞之后,則判斷其為非謂詞。
(4)可疑謂詞為“來說、說、來講、講、而言”且處在介詞“對”“就”“從”之后構成介詞性短語,則判斷其為非謂詞。
步驟3.2,識別過程的特征提取輸入的是經過詞法和句法標注的待測句子以及不符合初步識別判定條件的句子,輸出的是相應可疑謂詞的詞法、句法特征。
步驟3.3,謂詞判定過程輸入的是特征提取步驟3.2得到的特征和步驟2.2得到的決策樹判定模型,輸出的是可疑謂詞的判定結果,即是否為謂詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310080760.3/1.html,轉載請聲明來源鉆瓜專利網。





