[發明專利]分詞方法及裝置在審
| 申請號: | 202010116865.X | 申請日: | 2020-02-25 |
| 公開(公告)號: | CN111274801A | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 周慧超;王風雷;李東軍 | 申請(專利權)人: | 蘇州躍盟信息科技有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06N3/08 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 董文倩 |
| 地址: | 215024 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分詞 方法 裝置 | ||
本申請公開了一種分詞方法及裝置。其中,該方法包括:依據預設詞表對待分詞語句進行分詞處理,得到待分詞語句的詞圖,其中,詞圖由多條詞路徑組成,每條詞路徑由待分詞語句包含的詞按照預設邏輯關系組合而成;將詞圖中的每條詞路徑分別輸入至分詞評分模型進行評分,得到多個評分結果,評分結果用于表征對待分詞語句進行分詞處理的準確度;將多個評分結果中評分最高的詞路徑作為待分詞語句的分詞結果;輸出分詞結果。本申請解決了由于現有的分詞方法僅僅通過簡單的詞頻計算分詞路徑得分,不能把握整個句子表達的含義造成的分詞效果差,而且需要人工標注大量數據,難度較大的技術問題。
技術領域
本申請涉及中文分詞領域,具體而言,涉及一種分詞方法及裝置。
背景技術
移動互聯網發展迅速,自然語言處理越來越重要,文本中可以挖掘出很多有商業價值的信息。漢語詞語之間沒有間隔,漢語分詞是把一段連續的詞語序列分割成一個一個詞語。例如一句話“人人參與環境保護活動”,可以被切分成“人人參與環境保護活動”。對于計算機處理漢語而言,分詞往往是第一步,精確的分詞有助于算法對語義的理解。漢語分詞除了挖掘信息外,還常常用于語音合成。
目前常見的分詞方法有:正向最大匹配法、逆向最大匹配法、最少切分法、雙向最大匹配法。這些只使用詞表的切詞方法效果不是很理想,后來基于詞圖掃描,再通過詞頻運算選擇出一個分詞方案。這種改進的方法效果要比前面幾種效果好很多。
圖1是根據本申請實施例的一種基于詞圖掃描的分詞方法的流程圖,如圖1所示,該分詞方法分為兩個階段,第一階段為訓練階段,根據分詞語料,統計出詞,以及詞頻。第二階段為分詞階段,利用第一階段產生的所有詞,把待分詞句子的可行路徑全部找出,這些路徑構成了詞圖。根據詞頻計算出最大得分的路徑,輸出最大得分路徑。例如“在這些人中華人數量比較多”可以構成的路徑有:“在,這些,人,中華,人數,量,比較,多”,“在,這些,人,中華,人,數量,比較,多”,“在,這些,人,中華人,數量,比較,多”,“在,這些,人,中,華人,數量,比較,多”,“在,這些,人中,華人,數量,比較,多”。計算把這些路徑存儲成有向無環圖的形式,如圖2所示,這個圖就是這句話的詞圖。然后使用式子Σln(f/n)計算每條路徑分數。其中f是詞頻,n是第一階段得到的詞表中所有的詞的頻率之和。Σln(f/n)=Σln(f)-Σln(n),從這個式子中可以看出該路徑詞越少得分越高,分出的詞詞頻越大得分越高。最后選取最大得分路徑,作為分詞結果。
該分詞方法僅僅通過簡單的詞頻計算分詞路徑得分,不能把握整個句子表達的含義,會出現比較多的錯誤,分詞效果差,而且需要人工標注大量數據,難度較大。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本申請實施例提供了一種分詞方法及裝置,以至少解決由于現有的分詞方法僅僅通過簡單的詞頻計算分詞路徑得分,不能把握整個句子表達的含義造成的分詞效果差,而且需要人工標注大量數據,難度較大的技術問題。
根據本申請實施例的一個方面,提供了一種分詞方法,包括:依據預設詞表對待分詞語句進行分詞處理,得到待分詞語句的詞圖,其中,詞圖由多條詞路徑組成,每條詞路徑由待分詞語句包含的詞按照預設邏輯關系組合而成;將詞圖中的每條詞路徑分別輸入至分詞評分模型進行評分,得到多個評分結果,評分結果用于表征對待分詞語句進行分詞處理的準確度;將多個評分結果中評分最高的詞路徑作為待分詞語句的分詞結果;輸出分詞結果。
可選地,將詞圖中的每條詞路徑分別輸入至分詞評分模型進行評分,得到多個評分結果之前,上述方法還包括:對分詞評分模型進行訓練。
可選地,對分詞評分模型進行訓練,包括:獲取第一樣本數據以及第二樣本數據,其中,第一樣本數據由未進行分詞處理的語料中獲取,第二樣本數據由進行了分詞處理的語料中獲取;基于第一樣本數據對預設神經網絡模型進行訓練,得到語義模型;基于第二樣本數據對語義模型進行遷移學習,得到分詞評分模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州躍盟信息科技有限公司,未經蘇州躍盟信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010116865.X/2.html,轉載請聲明來源鉆瓜專利網。





