[發明專利]分詞詞典的生成方法和裝置及分詞處理方法和裝置有效
| 申請號: | 201510301079.6 | 申請日: | 2015-06-04 |
| 公開(公告)號: | CN104899190B | 公開(公告)日: | 2017-10-03 |
| 發明(設計)人: | 肖朔;李秀林;白潔 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙)11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分詞 詞典 生成 方法 裝置 處理 | ||
1.一種分詞詞典的生成方法,其特征在于,包括:
獲取原始句語料;
對所述原始句語料進行切分,得到分詞,并對所述分詞進行過濾,得到過濾結果,所述過濾包括如下項中的至少一項:基于詞頻和逆頻率的過濾,基于邊界的過濾,基于拼接的過濾;
根據所述過濾結果生成分詞詞典;
所述對所述分詞進行過濾,得到過濾結果,包括:
對所述分詞進行基于詞頻和逆頻率的過濾,得到第一次過濾結果;
根據所述第一次過濾結果,進行基于邊界的過濾,得到第二次過濾結果;
根據所述第一次過濾結果和所述第二次過濾結果,進行拼接過濾,得到所述過濾結果;
所述對所述分詞進行基于詞頻和逆頻率的過濾,得到第一次過濾結果,包括:
統計每個分詞的詞頻和逆頻率;
根據所述詞頻和逆頻率計算每個分詞的權重,并根據所述權重對分詞進行排序;
在排序后的分詞中,選擇預設個數的權重較大,且詞頻大于第一預設值以及逆頻率大于第二預設值的分詞,得到選擇后的分詞;
在所述選擇后的分詞中獲取第一長度的分詞,以及包含第一長度的分詞的第二長度的分詞,并計算所述第二長度的分詞的詞頻與所述第一長度的分詞的詞頻之間的比值,其中,所述第二長度和所述第一長度是相鄰的兩個長度,且所述第二長度大于所述第一長度;
如果所述比值大于或等于預設閾值,則將所述第一長度的分詞確定為第一次過濾結果的刪除詞條,將所述第二長度的分詞確定為第一次過濾結果的保留詞條;或者,如果所述比值小于預設閾值,則將所述第一長度的分詞確定為第一次過濾結果的保留詞條;
將所述第一次過濾結果的刪除詞條和所述第一次過濾結果的保留詞條,組成第一次過濾結果。
2.根據權利要求1所述的方法,其特征在于,所述根據所述第一次過濾結果,進行基于邊界的過濾,得到第二次過濾結果,包括:
在所述原始句語料中,獲取第一原始句語料,所述第一原始句語料是包含所述第一次過濾結果的保留詞條的原始句語料;
采用分詞器,對所述第一原始句語料進行切分,并對應每個第一次過濾結果的保留詞條,獲取與所述保留詞條對應的切分結果;
根據所述第一次過濾結果的保留詞條和所述切分結果的邊界情況,得到第二次過濾結果。
3.根據權利要求2所述的方法,其特征在于,所述根據所述第一次過濾結果的保留詞條和所述切分結果的邊界情況,得到第二次過濾結果,包括:
如果所述保留詞條和所述切分結果一致,或者,如果所述保留詞條的邊界和所述切分結果的邊界一致,則將所述保留詞條的第一值增加1;或者,
如果所述保留詞條的邊界與所述切分結果的邊界不一致,或者,如果所述保留詞條包含于所述切分結果的邊界內,則將所述保留詞條的第二值增加1;
計算所述保留詞條對應的如下比值:第一值/(第一值+第二值);
如果所述比值大于或等于閾值,則將所述保留詞條確定為第二次過濾結果的保留詞條;或者,如果所述比值小于閾值,則將所述保留詞條確定為第二次過濾結果的刪除詞條;
將所述第二次過濾結果的刪除詞條和所述第二次過濾結果的保留詞條,組成第二次過濾結果。
4.根據權利要求1所述的方法,其特征在于,所述根據所述第一次過濾結果和所述第二次過濾結果,進行拼接過濾,得到所述過濾結果,包括:
將存在于已有詞典中的刪除詞條確定為刪除備選詞,所述刪除詞條包括:第一次過濾結果的刪除詞條和所述第二次過濾結果的刪除詞條;
將所述刪除備選詞與保留詞條進行首尾拼接,得到拼接后的詞,所述保留詞條包括:所述第一次過濾結果的保留詞條和所述第二次過濾結果的保留詞條;
判斷所述拼接后的詞是否是一個穩定的詞條,如果是,則從已有詞典中刪除所述刪除備選詞,得到已有詞典的保留詞條;
將所述第二次過濾結果的保留詞條,以及所述已有詞典的保留詞條,確定為所述過濾結果。
5.根據權利要求4所述的方法,其特征在于,所述判斷所述拼接后的詞是否是一個穩定的詞條,包括:
如果所述拼接后的詞存在于所述保留詞條中,則確定所述拼接后的詞是一個穩定的詞條;或者,
如果所述拼接后的詞的詞頻大于預設值,且所述拼接后的詞不存在于所述刪除詞條中,則確定所述拼接后的詞是一個穩定的詞條;或者,
如果所述拼接后的詞存在于已有的人工數據中,則確定所述拼接后的詞是一個穩定的詞條。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510301079.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:外語文本現場查詢指路機信息的查詢裝置
- 下一篇:文字處理方法、裝置及系統





