[發明專利]用于分詞的方法和裝置有效
| 申請號: | 201811076566.7 | 申請日: | 2018-09-14 |
| 公開(公告)號: | CN109190124B | 公開(公告)日: | 2019-11-26 |
| 發明(設計)人: | 鄧江東 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 11204 北京英賽嘉華知識產權代理有限責任公司 | 代理人: | 王達佐;馬曉亞<國際申請>=<國際公布> |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞匯序列 分詞 詞匯集合 詞匯 預設 方法和裝置 文本 分詞結果 文本集合 預先生成 概率 申請 | ||
本申請實施例公開了用于分詞的方法和裝置。該方法的一具體實施方式包括:獲取預設詞匯集合和待分詞文本,其中,預設詞匯集合為基于預設文本集合預先生成的詞匯集合,預設詞匯集合中的詞匯包括第一信息和第二信息;基于預設詞匯集合,對待分詞文本進行分詞,獲得至少一個詞匯序列;對于至少一個詞匯序列中的詞匯序列,確定該詞匯序列中的詞匯的第一信息和第二信息,以及基于所確定的第一信息和第二信息,確定該詞匯序列的概率,其中,對于詞匯序列中的詞匯,該詞匯的第二信息為基于與該詞匯相鄰的詞匯確定出的第二信息;從至少一個詞匯序列中選取概率最大的詞匯序列作為分詞結果。該實施方式提高了分詞的準確性。
技術領域
本申請實施例涉及計算機技術領域,尤其涉及用于分詞的方法和裝置。
背景技術
通常,分詞指的是中文分詞。通過分詞,可以將一個漢字序列切分成一個或多個詞語。
分詞是文本挖掘的基礎。通過分詞,可以使計算機自動識別語句含義。在這里,這種通過分詞,使得計算機自動識別語句含義的方法又叫做機械分詞方法,它的主要原理是按照一定的策略將待分析漢字串與預先設置的機器詞典中的詞條進行匹配,以確定出待分析漢字串所對應的目標詞條。
發明內容
本申請實施例提出了用于分詞的方法和裝置。
第一方面,本申請實施例提供了一種用于分詞的方法,該方法包括:獲取預設詞匯集合和待分詞文本,其中,預設詞匯集合為基于預設文本集合預先生成的詞匯集合,預設詞匯集合中的詞匯包括第一信息和第二信息,第一信息用于表征詞匯在預設文本集合中出現的概率,對于預設詞匯集合中的詞匯,第二信息用于表征在預設文本集合中,以除該詞匯以外的詞匯出現作為條件,該詞匯出現的條件概率;基于預設詞匯集合,對待分詞文本進行分詞,獲得至少一個詞匯序列;對于至少一個詞匯序列中的詞匯序列,確定該詞匯序列中的詞匯的第一信息和第二信息,以及基于所確定的第一信息和第二信息,確定該詞匯序列的概率,其中,對于詞匯序列中的詞匯,該詞匯的第二信息為基于與該詞匯相鄰的詞匯確定出的第二信息;從至少一個詞匯序列中選取概率最大的詞匯序列作為分詞結果。
在一些實施例中,基于所確定的第一信息和第二信息,確定該詞匯序列的概率,包括:對該詞匯序列中相鄰的兩個詞匯進行連線,生成分詞路徑,其中,分詞路徑的節點由該詞匯序列中的詞匯表征,分詞路徑的邊為用于連接詞匯的線;基于該詞匯序列中的詞匯的第一信息和第二信息,確定分詞路徑的邊的權重;基于所確定的權重,確定該詞匯序列的概率。
在一些實施例中,對于詞匯序列中的詞匯,該詞匯的第二信息為基于與該詞匯相鄰,且位于該詞匯之前的詞匯確定出的第二信息。
在一些實施例中,確定該詞匯序列中的詞匯的第二信息,包括:對于該詞匯序列中的詞匯,執行以下步驟:確定該詞匯序列是否包括與該詞匯相鄰,且位于該詞匯之前的詞匯;響應于確定包括,基于與該詞匯相鄰,且位于該詞匯之前的詞匯,確定該詞匯的第二信息。
在一些實施例中,預設詞匯集合通過以下生成步驟獲得:獲取預設文本集合和針對預設文本集合中的預設文本預先標注的樣本分詞結果;將預設文本集合中的預設文本作為輸入,將所輸入的預設文本所對應的樣本分詞結果作為期望輸出,利用機器學習方法,訓練得到分詞模型;利用分詞模型對預設文本集合中的預設文本進行分詞,獲得第一分詞結果;基于所獲得的第一分詞結果,生成初始詞匯集合,其中,初始詞匯集合中的詞匯包括基于所獲得的第一分詞結果確定出的第一信息;基于初始詞匯集合,對預設文本集合中的預設文本進行分詞,獲得第二分詞結果;基于初始詞匯集合和所獲得的第二分詞結果,生成預設詞匯集合,其中,預設詞匯集合中的詞匯包括第一信息和基于所獲得的第二分詞結果確定出的第二信息。
在一些實施例中,訓練得到分詞模型,包括:對預先確定的至少兩個初始模型進行訓練,得到至少兩個分詞模型;以及利用分詞模型對預設文本集合中的預設文本進行分詞,獲得第一分詞結果,包括:利用至少兩個分詞模型對預設文本集合中的預設文本進行分詞,獲得至少兩個第一分詞結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811076566.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于輸出信息的方法和裝置
- 下一篇:醫學語言文本的處理方法、裝置和存儲介質





