[發明專利]基于雙詞典模型的人工智能文本分析方法及相關設備有效
| 申請號: | 202110667892.0 | 申請日: | 2021-06-16 |
| 公開(公告)號: | CN113268979B | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 鄧柯;徐嘉澤 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/295;G06F40/44 |
| 代理公司: | 深圳市鼎言知識產權代理有限公司 44311 | 代理人: | 曾昭毅;陳實順 |
| 地址: | 100084 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 詞典 模型 人工智能 文本 分析 方法 相關 設備 | ||
本申請提供一種基于雙詞典模型的人工智能文本分析方法及相關設備,其中,所述方法包括:獲取預先構建的雙詞典模型,雙詞典模型包括初始詞語詞典、初始超模式詞典和初始參數體系;從初始超模式詞典中抽取超模式,獲得超模式序列;根據超模式序列抽取詞語,獲得詞語序列和詞語序列的序列W;基于序列W,獲得未分詞文本片段,確定未分詞文本片段的多個隱狀態,計算每個隱狀態的生成概率;選取最大的生成概率的值對應的隱狀態,記為目標文本分析結果。本申請可以輔助進行文本分析,提高文本分析結果的準確性。
技術領域
本申請涉及文本分析領域,特別是指一種基于雙詞典模型的人工智能文本分析方法及相關設備。
背景技術
中文自然語言理解是人工智能的重要研究問題和方向。在特定領域的中文文本分析中,如古文、醫療電子病歷、散文、詩歌等,由于標注數據集通常難以獲得,文本分析結果往往忽略了文本數據的句法和語義結構信息。
發明內容
鑒于以上內容,有必要提供一種基于雙詞典模型的人工智能文本分析方法及相關設備,可以輔助進行文本分析,提高文本分析結果的準確性。
所述基于雙詞典模型的人工智能文本分析方法,包括:獲取預先構建的雙詞典模型,所述雙詞典模型包括初始詞語詞典初始超模式詞典和初始參數體系(γ,θw|c);從所述初始超模式詞典中抽取超模式,獲得超模式序列P;根據所述超模式序列P抽取詞語w,獲得詞語序列Wi和所述詞語序列Wi的序列W,其中,所述詞語基于所述序列W,獲得未分詞文本片段T,確定所述未分詞文本片段T的多個隱狀態H,計算每個所述隱狀態H的生成概率選取最大的所述生成概率的值對應的隱狀態H,記為目標文本分析結果。
可選地,所述方法還包括:基于所述初始參數體系(γ,θw|c)計算更新的參數體系(γ,θw,θc|w);設定所述更新的參數體系(γ,θw,θc|w)的先驗分布,以及所述更新的參數體系(γ,θw,θc|w)的后驗分布,其中,表示詞語w的抽樣概率分布,表示一組抽樣概率分布,表示給定詞語w的情況下詞語類別的條件分布,θc|w表示給定詞語w的情況下詞語類別c的抽樣概率。
可選地,所述雙詞典模型還包括:由目標文本中所有字符al組成的字符集合1≤l≤L,所述初始詞語詞典其中,1≤n≤N,i,表示正整數;wn是由所述集合中的字符組成的詞語;目標文本中詞語類別的集合1≤k≤K,其中ck表示命名實體的類別,c0表示區別于所述命名實體的背景詞的類別,初始超模式詞典其中pm=t1|t2|…|tl,1≤m≤M,pm表示由形符tj組成的超模式,所述形符j表示正整數;e表示終止符;所述初始參數體系(γ,θw|c),其中γ表示超模式的抽樣概率分布,其中γp表示超模式p的抽樣概率;表示一組抽樣概率分布,其中表示給定詞語類別c的情況下詞語的抽樣概率分布,θw|c表示給定詞語類別c的情況下詞語w的抽樣概率。
可選地,所述從初始超模式詞典中抽取超模式,獲得超模式序列P包括:按照每個超模式的抽樣概率γp,對所述初始超模式詞典中的超模式Pi進行隨機有放回抽樣,直至抽取到終止符e;設定所述超模式序列P=P1|P2|…|Pn|e,具中,超模式
可選地,所述方法還包括:計算所述超模式序列P的抽樣概率其中γe表示終止符e的抽樣概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110667892.0/2.html,轉載請聲明來源鉆瓜專利網。





