[發明專利]基于統計的中文分詞方法、系統、裝置和存儲介質有效
| 申請號: | 201911392455.1 | 申請日: | 2019-12-30 |
| 公開(公告)號: | CN111160024B | 公開(公告)日: | 2023-08-15 |
| 發明(設計)人: | 寇永嫻;陳惠芳;藍飄;胡志樂;李娟 | 申請(專利權)人: | 廣州廣電運通信息科技有限公司;廣州廣電運通金融電子股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 黎揚鵬 |
| 地址: | 510663 廣東省廣州市廣州高*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 統計 中文 分詞 方法 系統 裝置 存儲 介質 | ||
本發明公開了一種基于統計的中文分詞方法、系統、裝置和存儲介質,其中方法包括:獲取目標文本;根據預置語料庫對目標文本進行分詞處理,識別出第一概率和第二概率;結合第一概率與第二概率對目標文本所含的詞進行逆向匹配,輸出若干個分詞路徑,各所述路徑含若干個分詞節點;結合維特比算法和預置比例因子對各所述分詞路徑上各分詞節點的詞進行逆向遞歸處理,獲取最優分詞序列;根據最優分詞序列生成分詞結果,從而提高中文分詞處理的分詞準確率,并通過預置比例因此降低計算量,降低成本。
技術領域
本發明涉及信息處理技術領域,尤其涉及一種基于統計的中文分詞方法、系統、裝置和存儲介質。
背景技術
中文分詞是指將若干個連續的中文字按照一定的規范重新組合成詞序列的過程,是中文信息處理的基礎,在自然語言處理與人工智能領域有著非常多應用,常見的應用場景如搜索引擎、語音合成以及機器翻譯等。
現有的中文分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法。其中,基于字符串匹配的分詞又稱機械分詞方法,是指按照一定的策略將待分的漢字串與一個“充分大的”機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則認為匹配成功,但是基于字符串匹配的分詞方法不但需要詞典,而且分詞準確率低,尤其在歧義識別和新詞識別這兩方面。基于理解的分詞方法,是指通過讓計算機模擬人對句子的理解,達到識別詞的功能,其基本思想就是在分詞時,同步進行句法分析和語義分詞,采用句法信息和語義信息來處理歧義現象;然而由于漢語語言知識的特點,難以將各種信息組織成機器可直接讀取的形式同基于理解的分詞方法對語言知識與信息的大量的需求之間的矛盾,造成基于理解的分詞方法仍處于實驗階段?;诮y計的分詞方法指根據字符串在語料庫中出現的頻率來判斷其是否構成詞,詞是字的組合,相鄰的字同事出現的次數越多,構成一個詞的概率就越大?;诂F有技術不足,如何提高中文分詞的準確率成為業內亟待解決的一個技術問題。
發明內容
為了解決上述技術問題之一,本發明的目的是提供一種基于統計的中文分詞方法、系統、裝置和存儲介質。
本發明所采用的第一技術方案是:
一種基于統計的中文分詞方法,包括以下步驟:
獲取目標文本,所述目標文本含若干個詞;
根據預置語料庫對目標文本進行分詞處理,識別出第一概率和第二概率,所述第一概率指單個詞詞頻,所述第二概率是兩詞相鄰的詞頻;
結合第一概率與第二概率對目標文本所含的詞進行逆向匹配,輸出若干個分詞路徑,各所述路徑含若干個分詞節點;
結合維特比算法和預置比例因子對各所述分詞路徑上各分詞節點的詞進行逆向遞歸處理,獲取最優分詞序列;
根據最優分詞序列生成分詞結果。
進一步,所述結合第一概率與第二概率對目標文本所含的詞進行逆向匹配,輸出若干個分詞路徑,各所述路徑含若干個分詞節點這一步驟,具體包括以下步驟:
結合第一概率、第二概率和貝葉斯公式,獲取目標文本中各詞的條件概率,所述條件概率指在第一詞存在的前提下第二詞出現的概率;
結合二階隱馬爾可夫算法與獲得的各詞條件概率對目標文本各詞進行逆向匹配,輸出若干個分詞路徑,且各所述分詞路徑含若干個分詞節點。
進一步,所述結合二階隱馬爾可夫算法與獲得的各詞條件概率對目標文本各詞進行逆向匹配,輸出若干個分詞路徑,且各所述分詞路徑含若干個分詞節點這一步驟,具體包括以下步驟:
采用二階隱馬爾可夫算法對目標文本各詞進行逆向匹配,生成若干個預分詞路徑;
獲取預置權值,所述預置權值指中文語法中詞長對語序影響值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州廣電運通信息科技有限公司;廣州廣電運通金融電子股份有限公司,未經廣州廣電運通信息科技有限公司;廣州廣電運通金融電子股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911392455.1/2.html,轉載請聲明來源鉆瓜專利網。





