[發明專利]基于統計的中文分詞方法、系統、裝置和存儲介質有效
| 申請號: | 201911392455.1 | 申請日: | 2019-12-30 |
| 公開(公告)號: | CN111160024B | 公開(公告)日: | 2023-08-15 |
| 發明(設計)人: | 寇永嫻;陳惠芳;藍飄;胡志樂;李娟 | 申請(專利權)人: | 廣州廣電運通信息科技有限公司;廣州廣電運通金融電子股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 黎揚鵬 |
| 地址: | 510663 廣東省廣州市廣州高*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 統計 中文 分詞 方法 系統 裝置 存儲 介質 | ||
1.一種基于統計的中文分詞方法,其特征在于,包括以下步驟:
獲取目標文本,所述目標文本含若干個詞;
根據預置語料庫對目標文本進行分詞處理,識別出第一概率和第二概率,所述第一概率指單個詞詞頻,所述第二概率是兩詞相鄰的詞頻;
結合第一概率與第二概率對目標文本所含的詞進行逆向匹配,輸出若干個分詞路徑,各所述路徑含若干個分詞節點;
結合維特比算法和預置比例因子對各所述分詞路徑上各分詞節點的詞進行逆向遞歸處理,獲取最優分詞序列;
根據最優分詞序列生成分詞結果;
所述結合第一概率與第二概率對目標文本所含的詞進行逆向匹配,輸出若干個分詞路徑,各所述路徑含若干個分詞節點這一步驟,具體包括以下步驟:
結合第一概率、第二概率和貝葉斯公式,獲取目標文本中各詞的條件概率,所述條件概率指在第一詞存在的前提下第二詞出現的概率;
結合二階隱馬爾可夫算法與獲得的各詞條件概率對目標文本各詞進行逆向匹配,輸出若干個分詞路徑,且各所述分詞路徑含若干個分詞節點。
2.根據權利要求1所述的一種基于統計的中文分詞方法,其特征在于,所述結合二階隱馬爾可夫算法與獲得的各詞條件概率對目標文本各詞進行逆向匹配,輸出若干個分詞路徑,且各所述分詞路徑含若干個分詞節點這一步驟,具體包括以下步驟:
采用二階隱馬爾可夫算法對目標文本各詞進行逆向匹配,生成若干個預分詞路徑;
獲取預置權值,所述預置權值指中文語法中詞長對語序影響值;
根據預置權值對生成的若干個預分詞路徑修正處理,輸出若干個分詞路徑,各所述路徑含若干個分詞節點。
3.根據權利要求1所述的一種基于統計的中文分詞方法,其特征在于,所述結合維特比算法和預置比例因子對各所述分詞路徑上各分詞節點的詞進行逆向遞歸處理,獲取最優分詞序列這一步驟,具體包括以下步驟:
根據每個分詞路徑上各分詞節點上詞的條件概率,生成不同節點長度的轉移概率矩陣;
采用維特比算法對轉移概率矩陣進行逆向遞歸處理,輸出若干個分詞序列;
結合預置比例因子與argmax函數對若干個分詞序列的概率進行取對數極值處理,獲取最優分詞序列,所述最優分詞序列的概率最大。
4.一種基于統計的中文分詞系統,其特征在于,包括:
獲取模塊,用于獲取目標文本,所述目標文本含若干個詞;
識別模塊,用于根據預置語料庫對目標文本進行分詞處理,識別出第一概率和第二概率,所述第一概率指單個詞詞頻,所述第二概率是兩詞相鄰的詞頻;
輸出模塊,用于結第一概率與第二概率對目標文本所含的詞逆向匹配,輸出若干個分詞路徑,所述路徑含若干個節點;
遞歸模塊,用于結合維特比算法和預置比例因子對各所述分詞路徑上各分詞節點的詞進行逆向遞歸處理,獲取最優分詞序列;
生成模塊,用于根據最佳分詞序列生成分詞結果;
所述輸出模塊包括:
第一獲取單元,用于結合第一概率、第二概率和貝葉斯公式獲取目標文本中各詞的條件概率,所述條件概率指在第一詞存在的前提下第二詞出現的概率;
逆向匹配單元,用于結合二階隱馬爾可夫算法與獲得的各詞條件概率對目標文本各詞進行逆向匹配,輸出若干個分詞路徑,且各所述分詞路徑含若干個分詞節點。
5.根據權利要求4所述的一種基于統計的中文分詞系統,其特征在于,所述逆向匹配單元包括:
生成子單元,用于采用二階隱馬爾可夫算法對目標文本各詞進行逆向匹配,生成若干個分詞序列;
獲取子單元,獲取預置權值,所述預置權值指基于中文語法對詞長與詞序的影響值;
輸出子單元,用于根據預置權值對生成的若干個分詞序列修正處理,輸出若干個分詞路徑,各所述路徑含若干個分詞節點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州廣電運通信息科技有限公司;廣州廣電運通金融電子股份有限公司,未經廣州廣電運通信息科技有限公司;廣州廣電運通金融電子股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911392455.1/1.html,轉載請聲明來源鉆瓜專利網。





