[發明專利]利用成語知識的判別式分詞系統及方法有效
| 申請號: | 201010221629.0 | 申請日: | 2010-07-08 |
| 公開(公告)號: | CN102314415A | 公開(公告)日: | 2012-01-11 |
| 發明(設計)人: | 毛新年 | 申請(專利權)人: | 盛樂信息技術(上海)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 上海浦一知識產權代理有限公司 31211 | 代理人: | 王函 |
| 地址: | 201203 上海市浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 成語 知識 判別式 分詞 系統 方法 | ||
1.一種利用成語知識的判別式分詞方法,其特征在于,包括如下步驟:
第一步,分詞知識庫的訓練,包括:
步驟1,對人工分詞的文本抽取基本特征;
步驟2,對人工分詞的文本抽取成語特征;
步驟3,對抽取的特征進行訓練,得到分詞用的知識庫;
第二步,從待切分的原始文本中獲取基本特征;
第三步,從待切分的原始文本中獲取成語特征;
第四步,利用第一步訓練得到的分詞知識庫對待切分的原始文本進行分詞。
2.如權利要求1所述的利用成語知識的判別式分詞方法,其特征在于,第一步的步驟1中,所述對人工分詞的文本抽取基本特征主要是抽取若干窗口的字特征。
3.如權利要求1所述的利用成語知識的判別式分詞方法,其特征在于,第一步的步驟2中,采用從成語詞典中抽取成語特征。
4.如權利要求1所述的利用成語知識的判別式分詞方法,其特征在于,第三步中,采用從成語詞典中獲取成語特征。
5.如權利要求3或4所述的利用成語知識的判別式分詞方法,其特征在于,所述成語特征通過成語詞典與待切分的原始文本進行匹配,如果某些文字被成功匹配,這些文字就被賦以如下特征:
該字是成功匹配的成語的首字:B-Idiom;
該字是成功匹配的成語的中間字:I-Idiom;
該字是成功匹配的成語的尾字:E-Idiom;
其他沒有被匹配成功的文字被賦以:Other。
6.如權利要求5所述的利用成語知識的判別式分詞方法,其特征在于,所述成語詞典與待切分的原始文本進行匹配采用正向最大匹配或者逆向最大匹配。
7.一種利用成語知識的判別式分詞系統,其特征在于,包括分詞知識庫訓練模塊、獲取基本特征模塊、獲取成語特征模塊和分詞模塊;所述分詞知識庫訓練模塊包括抽取基本特征模塊、抽取成語特征模塊和訓練模塊;
該抽取基本特征模塊用于對人工分詞的文本抽取基本特征;該抽取成語特征模塊用于對人工分詞的文本抽取成語特征;該訓練模塊用于對上述抽取的特征進行訓練,得到分詞知識庫;該獲取基本特征模塊用于從待切分的原始文本中獲取基本特征;該抽取成語特征模塊用于從待切分的原始文本中獲取成語特征;該分詞模塊用于利用分詞知識庫訓練模塊得到的分詞知識庫對待切分的原始文本進行分詞。
8.如權利要求7所述的利用成語知識的判別式分詞系統,其特征在于,所述抽取成語特征模塊和所述獲取成語特征模塊通過成語詞典與待切分的原始文本進行匹配,賦以成語特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于盛樂信息技術(上海)有限公司,未經盛樂信息技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010221629.0/1.html,轉載請聲明來源鉆瓜專利網。





