[發明專利]文本切分方法及裝置在審
| 申請號: | 202210117834.5 | 申請日: | 2022-02-08 |
| 公開(公告)號: | CN114595681A | 公開(公告)日: | 2022-06-07 |
| 發明(設計)人: | 鄧柯;潘長在 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/284;G06F40/242 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 董永輝;曹素云 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 切分 方法 裝置 | ||
本發明公開一種文本切分方法及裝置,包括:構建貝葉斯模型框架,文本切分預測模型包括初始詞典D,詞邊界向量集合B和模型參數θ,文本切分預測模型用于將中文文本序列T中每一段未分詞文本Tj,根據初始詞典D、給定的詞邊界向量Bj和模型參數θ獲得分詞版本的文本Tj的概率;確定聯合先驗分布π(θ,B),將詞語使用和文本切分的先驗偏好整合到文本切分預測模型中;用EM算法估計模型參數θ的后驗峰值用后驗峰值從初始詞典中去除顯著性低詞語,D簡化為最終詞典Df;用后驗峰值最終詞典Df,獲得詞邊界向量的集合B,實現對文本T進行切分。本發明通過先驗信息,以及κ參數的選擇控制切詞的顆粒度,以使得能夠切分出詞語,提高文本切分效果。
技術領域
本發明涉及自然語言處理技術領域,具體地說,涉及一種文本切分方法及裝置。
背景技術
長期以來,分詞的方法多數是基于詞典,在大規模詞典的幫助下,基于詞典的分詞方法取得了較好的效果,但是該方法在識別未登錄詞時,結果并不理想,然而未登錄詞的識別在分詞應用中是不可避免的問題。
由于中文沒有詞邊界,中文自然語言處理面臨一些獨特的挑戰,在處理包含許多未記錄詞和命名實體的開放域中文語料庫時,這些挑戰變得更加嚴峻,因為它們經常糾纏在一起:通常在不知道真實詞表的情況下無法正確分詞;另一方面,如果沒有分詞的指導,通常很難從開放域語料庫中精確地發現未記錄的詞和命名實體。
由Deng et al.(2016)提出的TopWORDS是一種基于無監督統計學習的離線自然語言處理的通用方法。TopWORDS假設句子是通過從隱含詞典中隨機抽取詞語并拼接而生成的,從一個包含目標文本中所有可能的候選詞的完備的初始詞詞典開始,并通過基于統計模型的變量選擇原則來去除不重要的候選詞,逐漸簡化詞典,并最終利用詞典來對文本進行分詞。
在實際應用中,TopWORDS在從開放域中文文本中發現詞語、技術術語和短語方面特別有效,但其傾向于在短語級別而不是詞語級別對更粗粒度的文本進行切分。(這里短語級別指切分結果為例如“我們要端正態度”,而期望的詞語級別切分為“我們要端正態度”)。
發明內容
為解決以上問題,本發明提供一種文本切分方法,包括以下步驟:
構建貝葉斯模型框架,所述貝葉斯模型框架為:
P(θ,B|T,D)∝P(T|D,θ,B)·π(θ,B)
其中π(θ,B)是參數θ,B的聯合先驗分布,P(T|D,θ,B)是文本切分預測模型,P(θ,B|T,D)是參數θ,B的后驗概率,所述文本切分預測模型包括初始詞典D={w1,w2,...,wN,e},詞邊界向量的集合B和模型參數θ,所述文本切分預測模型用于將中文文本序列T={T1,…,Tn}中每一段未分詞文本根據初始詞典D、給定的詞邊界向量和模型參數θ獲得分詞版本的文本Tj的概率,其中,
wN表示D中有N個詞語;
e是結束標記;
j表示第j個未分詞文本;
A={a1,a2,··,aM}為T中涉及的漢字集合,M表示漢字集合中漢字的個數,
Lj表示文本中Tj一共有Lj個字,
表示第j個未分詞文本Tj的第Lj個字對應的詞邊界向量的分量;
如果文本Tj中第l個字的后面有詞邊界分隔符,則bjl=1,否則為0;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210117834.5/2.html,轉載請聲明來源鉆瓜專利網。





