[發(fā)明專利]基于領域本體結(jié)合機器學習模型的漢語文本共指消解方法無效
| 申請?zhí)枺?/td> | 200810246639.2 | 申請日: | 2008-12-31 |
| 公開(公告)號: | CN101770453A | 公開(公告)日: | 2010-07-07 |
| 發(fā)明(設計)人: | 黃河燕 | 申請(專利權)人: | 華建機器翻譯有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京北新智誠知識產(chǎn)權代理有限公司 11100 | 代理人: | 陳曦 |
| 地址: | 100083 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 領域 本體 結(jié)合 機器 學習 模型 漢語 文本 消解 方法 | ||
1.一種基于領域本體結(jié)合機器學習模型的漢語文本共指消解方法,其特征在于:
(1)構建完成領域本體;
(2)輸入待處理的漢語文本;
(3)對步驟(2)中的漢語文本進行分詞與詞性標注處理;
(4)將漢語文本中的命名實體分為常規(guī)命名實體和領域命名實體兩類,利用步驟(1)中構建的領域本體通過形式化實例獲取詞性規(guī)則模板,結(jié)合條件隨機場模型,針對領域命名實體進行識別處理;
(5)針對領域命名實體之外的普通名詞短語進行歸并處理;
(6)利用步驟(1)中構建的領域本體,獲取語義類特征,結(jié)合機器學習模型,針對領域命名實體及普通名詞短語進行共指消解處理。
2.如權利要求1所述的基于領域本體結(jié)合機器學習模型的漢語文本共指消解方法,其特征在于:
所述步驟(1)中,所述領域本體通過階段性層進法構建,所述階段性層進法分為原型期階段和進化期階段。
3.如權利要求2所述的基于領域本體結(jié)合機器學習模型的漢語文本共指消解方法,其特征在于:
所述原型期階段分為四個步驟,依次完成領域本體構建工具選擇及復用性分析,領域本體知識源選擇及確定,領域本體知識分析,領域本體生成及表示工作。
4.如權利要求2所述的基于領域本體結(jié)合機器學習模型的漢語文本共指消解方法,其特征在于:
所述進化期階段分為兩個步驟,分別完成領域本體的評價,領域本體的修正與完善工作。
5.如權利要求1所述的基于領域本體結(jié)合機器學習模型的漢語文本共指消解方法,其特征在于:
所述步驟(4)中,所述詞性規(guī)則模板通過領域本體的有限實例的形式化,再對形式化后的實例進行詞性標注得到的,其中有限的實例作為領域本體種子,用來產(chǎn)生具有共性的詞性組合規(guī)則。
6.如權利要求1所述的基于領域本體結(jié)合機器學習模型的漢語文本共指消解方法,其特征在于:
所述步驟(4)中,所述條件隨機場模型通過如下的步驟獲得:首先在標注語料的基礎上,采用L-BFGS算法進行模型的訓練,獲得條件隨機場模型的參數(shù);在訓練獲得的條件隨機場模型的參數(shù)基礎上,使用Vit?erb?i動態(tài)規(guī)劃算法進行解碼。
7.如權利要求1所述的基于領域本體結(jié)合機器學習模型的漢語文本共指消解方法,其特征在于:
所述步驟(6)中,所述語義類特征是指通過對領域本體實例進行特定標記標注獲得的特征。
8.如權利要求1所述的基于領域本體結(jié)合機器學習模型的漢語文本共指消解方法,其特征在于:
所述步驟(6)中,將所述語義類特征作為指代語和先行語的特征屬性,生成特征向量,結(jié)合決策樹模型,識別領域命名實體的共指關系。
9.如權利要求8所述的基于領域本體結(jié)合機器學習模型的漢語文本共指消解方法,其特征在于:
將指代語之前三個自然句內(nèi)出現(xiàn)的名詞短語作為先行語的候選集,根據(jù)先行語的候選集中候選項與指代語的特征屬性構成的特征向量,判斷兩者是否存在共指關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華建機器翻譯有限公司,未經(jīng)華建機器翻譯有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810246639.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





