[發明專利]分詞的方法及裝置有效
| 申請號: | 201610051438.1 | 申請日: | 2016-01-26 |
| 公開(公告)號: | CN105718586B | 公開(公告)日: | 2018-12-28 |
| 發明(設計)人: | 黃金才;陳發君;劉忠;程光權;朱承;修保新;陳超;馮旸赫;孟果;易作天 | 申請(專利權)人: | 中國人民解放軍國防科學技術大學;長沙市源本信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京中濟緯天專利代理有限公司 11429 | 代理人: | 胡偉華 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分詞 方法 裝置 | ||
1.分詞的方法,其特征在于,首先使用條件隨機場進行詞標注模型訓練,得到詞標注模型后即可進入分詞應用;
所述詞標注模型訓練包括以下步驟:
S1.采集語料庫和準備語料庫所屬領域的領域詞典;
隨機選取一定時期內一技術領域內的新聞語料,并選取該領域的領域詞典;
S2.對語料庫進行分詞并進行詞性標注,得到分詞列表;
S3.根據領域詞典對步驟S2的分詞結果采用“BIO”標記進行標注得到訓練語料;
①遍歷分詞列表:對詞進行向后取N個詞進行組合,遇到標點符號則停止,每個詞最多可產生N-1個詞組合,得到當前詞的詞組合列表;
②遍歷詞組合列表,將詞組合與領域詞典進行比較,獲取包含于領域詞典中的最長詞組合;
③若最長詞組合存在,則對最長詞組合中包含的第一個詞標注為“B”,其他詞標注為“I”;
④若當前詞的最長詞組合不存在,則將當前詞標注為“O”;
⑤將標注結果保存成CRF工具所要求的格式;
S4.采用CRF工具對訓練語料進行訓練得到詞標注模型;
S5.輸出詞標注模型,完成模型訓練;
所述分詞應用包括以下步驟:
a)讀取文本,加載詞標注模型,采用與模型訓練其步驟S2中相同的方法對文本進行初始分詞及詞性標注,得到初始分詞列表;
b)基于初始分詞列表構建特征表;
特征表是一個M*3大小的二維列表T[M][3],其中M為分詞列表的長度;遍歷初始分詞列表,對于第i個詞,將該詞的字符記錄在T[i][1],詞性記錄在T[i][2],其中假設列表的索引從1開始;
c)對特征表T使用模型訓練中得到的詞標注模型進行標注,將標注結果保存在特征表對應位置的第三列;標注過程采用維特比解碼算法;
d)根據詞標注結果進行詞合并;
①初始化分詞結果列表r;
②遍歷特征表T,假設當前位置為i,若T[i][3]為“B”標注,則繼續查找鄰接的最后一個“I”標注的位置j,將i到j之間的詞合并為一個詞,加入到分詞結果列表r并更新遍歷位置為j+1;
③若否則直接將當前詞加入到r;
e)輸出最終分詞結果。
2.根據權利要求1所述的分詞的方法,其特征在于,詞標注模型訓練方法中,步驟S2對語料庫進行初始分詞所采用的方法為N-最短路徑分詞方法、最短路徑分詞方法、正向最大匹配分詞方法、逆向最大匹配分詞方法、雙向最大匹配分詞方法、隱馬爾科夫模型分詞方法或條件隨機場模型分詞方法;詞標注模型訓練方法中,步驟S2對語料庫分詞結果進行詞性標注所采用的方法為隱馬爾科夫模型標注、最大熵模型標注或條件隨機場模型標注。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科學技術大學;長沙市源本信息科技有限公司,未經中國人民解放軍國防科學技術大學;長沙市源本信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610051438.1/1.html,轉載請聲明來源鉆瓜專利網。





