[發明專利]基于雙詞典模型的人工智能文本分析方法及相關設備有效
| 申請號: | 202110667892.0 | 申請日: | 2021-06-16 |
| 公開(公告)號: | CN113268979B | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 鄧柯;徐嘉澤 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/295;G06F40/44 |
| 代理公司: | 深圳市鼎言知識產權代理有限公司 44311 | 代理人: | 曾昭毅;陳實順 |
| 地址: | 100084 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 詞典 模型 人工智能 文本 分析 方法 相關 設備 | ||
1.一種基于雙詞典模型的人工智能文本分析方法,其特征在于,所述方法包括:
獲取預先構建的雙詞典模型,所述雙詞典模型包括初始詞語詞典初始超模式詞典和初始參數體系(γ,θw|c),所述雙詞典模型還包括:由目標文本中所有字符al組成的字符集合所述初始詞語詞典其中,i,l表示正整數;wn是由所述集合中的字符組成的詞語;目標文本中詞語類別的集合其中ck表示命名實體的類別,c0表示區別于所述命名實體的背景詞的類別,初始超模式詞典其中pm=t1|t2|…|tl,1≤m≤M,pm表示由形符tj組成的超模式,所述形符j表示正整數;e表示終止符;所述初始參數體系(γ,θw|c),其中γ表示超模式的抽樣概率分布,其中γp表示超模式p的抽樣概率;表示一組抽樣概率分布,其中表示給定詞語類別c的情況下詞語的抽樣概率分布,θw|c表示給定詞語類別c的情況下詞語w的抽樣概率;
從所述初始超模式詞典中抽取超模式,獲得超模式序列P,包括:按照每個超模式的抽樣概率γp,對所述初始超模式詞典中的超模式Pi進行隨機有放回抽樣,直至抽取到終止符e;設定所述超模式序列P=P1|P2|…|Pn|e,其中,超模式其中tij表示形符,j表示正整數;
根據所述超模式序列P抽取詞語w,獲得詞語序列Wi和所述詞語序列Wi的序列W,其中,所述詞語所述根據所述超模式序列P抽取詞語w,獲得詞語序列Wi和所述詞語序列Wi的序列W包括:確定超模式Pi中每個形符tij的類別;當形符時,令wij=tij;當形符時,根據抽樣概率從所述初始詞語詞典中抽取詞語wij;獲得所述序列和所述序列W=W1|W2|…|Wn;
基于所述序列W,獲得未分詞文本片段T,確定所述未分詞文本片段T的多個隱狀態H,計算每個所述隱狀態H的生成概率其中,所述基于所述序列W,獲得未分詞文本片段T包括:將所述序列W中的分隔符去掉,獲得未分詞文本片段T=T1T2…Tn,其中
選取最大的所述生成概率的值對應的隱狀態H,記為目標文本分析結果。
2.根據權利要求1所述的基于雙詞典模型的人工智能文本分析方法,其特征在于,所述方法還包括:
基于所述初始參數體系(γ,θw|c)計算更新的參數體系(γ,θw,θc|w);
設定所述更新的參數體系(γ,θw,θc|w)的先驗分布,以及所述更新的參數體系(γ,θw,θc|w)的后驗分布,其中,表示詞語w的抽樣概率分布,表示一組抽樣概率分布,表示給定詞語w的情況下詞語類別的條件分布,θc|w表示給定詞語w的情況下詞語類別c的抽樣概率。
3.根據權利要求1所述的基于雙詞典模型的人工智能文本分析方法,其特征在于,所述方法還包括:
計算所述超模式序列P的抽樣概率
其中γe表示終止符e的抽樣概率。
4.根據權利要求1所述的基于雙詞典模型的人工智能文本分析方法,其特征在于,所述方法還包括:
計算給定所述超模式序列P的情況下的所述序列Wi的抽樣概率其中,并且當時,當時,表示時wij的抽樣概率;
計算給定所述超模式序列P的情況下的所述序列W的抽樣概率
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110667892.0/1.html,轉載請聲明來源鉆瓜專利網。





