[發明專利]文本切分方法及裝置在審
| 申請號: | 202210117834.5 | 申請日: | 2022-02-08 |
| 公開(公告)號: | CN114595681A | 公開(公告)日: | 2022-06-07 |
| 發明(設計)人: | 鄧柯;潘長在 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/284;G06F40/242 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 董永輝;曹素云 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 切分 方法 裝置 | ||
1.一種文本切分方法,其特征在于,包括以下步驟:
構建貝葉斯模型框架,所述貝葉斯模型框架為:
P(θ,B|T,D)∝P(T|D,θ,B)·π(θ,B)
其中π(θ,B)是參數θ,B的聯合先驗分布,P(T|D,θ,B)是文本切分預測模型,P(θ,B|T,D)是參數θ,B的后驗概率,所述文本切分預測模型包括初始詞典D={w1,w2,...,wN,e},詞邊界向量的集合B和模型參數θ,所述文本切分預測模型用于將中文文本序列T={T1,…,Tn}中每一段未分詞文本根據初始詞典D、給定的詞邊界向量和模型參數θ獲得分詞版本的文本Tj的概率,其中,
wN表示D中有N個詞語;
e是結束標記;
j表示第j個未分詞文本;
A={a1,a2,··,aM}為T中涉及的漢字集合,M表示漢字集合中漢字的個數,
Lj表示文本中Tj一共有Lj個字,
表示第j個未分詞文本Tj的第Lj個字對應的詞邊界向量的分量;
如果文本Tj中第l個字的后面有詞邊界分隔符,則bjl=1,否則為0;
n表示共n個未分詞文本;
為(θ,B)確定聯合先驗分布π(θ,B),以將詞語使用和文本切分的先驗偏好整合到所述文本切分預測模型中;
采用EM算法估計模型參數θ的后驗峰值并利用所述后驗峰值從所述初始詞典中去除顯著性低于閾值τψ的詞語,從而將最初詞典D簡化為最終詞典Df;
利用所述后驗峰值最終詞典Df,獲得詞邊界向量的集合B,從而實現對文本T進行切分。
2.根據權利要求1所述的文本切分方法,其特征在于,對于未分詞文本Tj,所述根據初始詞典D、給定的詞邊界向量和模型參數θ獲得分詞版本的文本Tj的概率,包括:
獲得似然函數:
其中θ={θw}w∈D,θw是T中詞語w的使用頻率,nw(Bj)是詞語w在基于Bj的分詞版本的文本Tj中出現的數量,P(Tj|D,θ,Bj)表示給定了詞邊界向量Bj、詞典D和模型參數θ,生成文本Tj的概率,
由此得到利用初始詞典D、給定的詞邊界向量的集合B和模型參數θ獲得中文文本序列T的概率,
其中
其中,nw(B)表示詞語w在基于B的分詞版本的中文文本序列T中出現的數量。
3.根據權利要求1所述的文本切分方法,其特征在于,使用獨立共軛先驗來確定聯合先驗分布π(θ,B),包括:
π(θ,B)=π(θ)π(B)
π(θ)=Dirichlet(θ|α),
π(bjl)=Binary(bjl|ρjl)
其中,π(θ)是θ的先驗分布;
π(B)是B的先驗分布;
Dirichlet是狄利克雷分布;
Binary是伯努利分布;
α={αw}w∈D和ρ={ρjl}是控制先驗信息強度的超參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210117834.5/1.html,轉載請聲明來源鉆瓜專利網。





