[發(fā)明專利]一種基于同類型詞組的詞譜聚類智能生成方法在審
| 申請?zhí)枺?/td> | 202011264765.8 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112328811A | 公開(公告)日: | 2021-02-05 |
| 發(fā)明(設(shè)計)人: | 曾勇;楊琪 | 申請(專利權(quán))人: | 國衡智慧城市科技研究院(北京)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F16/31;G06F40/211;G06F40/253;G06F40/268;G06F40/295 |
| 代理公司: | 重慶百潤洪知識產(chǎn)權(quán)代理有限公司 50219 | 代理人: | 沈鋒 |
| 地址: | 100000 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 類型 詞組 詞譜 智能 生成 方法 | ||
本發(fā)明涉及人機交互領(lǐng)域,特別是涉及一種基于同類型詞組的詞譜聚類智能生成方法,包括如下步驟:S1、建立同類型詞組或知識匯集的詞譜數(shù)據(jù)庫、訓(xùn)練同類型詞組知識;S2、提取文本分詞序列;S3、同類型詞匯提取;S4、同類型詞組或知識匯集聚合;采用本發(fā)明,通過預(yù)先數(shù)據(jù)收集建立同類型詞組庫,比將詞譜數(shù)據(jù)庫建立為同類型的詞組訓(xùn)練集,作為訓(xùn)練用目標(biāo)數(shù)據(jù),可以根據(jù)不同的領(lǐng)域和知識,預(yù)先形成好對應(yīng)詞庫;通過對文本抓取,快速分析比對重點分句,進(jìn)行多維度拆分,實現(xiàn)分詞序列的規(guī)范化;再通過自已相似度對比,將詞組與入庫詞組集對比,實現(xiàn)了快速的知識點索引,完成詞譜聚類的生成,提高詞組生成的準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明涉及人機交互領(lǐng)域,特別是涉及一種基于同類型詞組的詞譜聚類智能生成方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)與自然語言處理技術(shù)的發(fā)展,對話系統(tǒng)作為一種全新的人機交互方式,正逐步走進(jìn)人們的生活。各大企業(yè)瞄準(zhǔn)對話系統(tǒng)的巨大商業(yè)價值,紛紛圍繞其進(jìn)行平臺布局,其中便有阿里巴巴的“阿里小蜜”,蘋果的“Siri”以及微軟的“小冰”等等。
對話系統(tǒng)依據(jù)不同的目標(biāo)可以大致分為兩類——面向任務(wù)型對話系統(tǒng)和非面向任務(wù)型對話系統(tǒng)。面向任務(wù)型對話系統(tǒng)旨在幫助人們完成某項具體的任務(wù)(例如訂購機票、訂餐、購物等),而非面向任務(wù)型對話系統(tǒng)則更關(guān)注于與人們進(jìn)行開放式的對話。
發(fā)明內(nèi)容
針對現(xiàn)有的技術(shù)的不足,本發(fā)明提供一種基于同類型詞組的詞譜聚類智能生成方法,主要是對不同類型的問題進(jìn)行數(shù)據(jù)準(zhǔn)備、訓(xùn)練模型,匯集通過對同類型詞組或知識匯集,實現(xiàn)知識點詞譜的智能生成。
為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
一種基于同類型詞組的詞譜聚類智能生成方法,其特征在于包括如下步驟:
S1、建立同類型詞組或知識匯集的詞譜數(shù)據(jù)庫、訓(xùn)練同類型詞組知識;
S2、提取文本分詞序列;
S3、同類型詞匯提取;
S4、同類型詞組或知識匯集聚合。
進(jìn)一步的,所述S1中,通過收集數(shù)據(jù),以建立同類型詞組或知識匯集的詞譜數(shù)據(jù)庫,所述同類型詞組或知識匯集的詞譜數(shù)據(jù)庫包括有大量的同類型知識詞組,每個同類型詞組中存儲有相同語義的詞語;將所述同類型詞組或知識匯集的詞譜數(shù)據(jù)庫中的詞語建立同類型詞組訓(xùn)練集,作為訓(xùn)練目標(biāo)數(shù)據(jù);
進(jìn)一步的,所述S2中,提取問題分詞的方式是通過各種信息抽取技術(shù)提取詞干預(yù)處理,得到文本知識訓(xùn)練集規(guī)范化的文本分詞序列。
進(jìn)一步的,所述S3中,同類型詞匯提取通過S2中的得到的文本分詞序列與S1中目標(biāo)數(shù)據(jù)進(jìn)行訓(xùn)練,提取步驟2文本分詞序列的同類型詞向量;
進(jìn)一步的,所述S4中,通過對根據(jù)詞義相似度計算比對,計算詞義詞向量與所有已入庫的同類型詞組中詞的相似度距離,并比對上述相似度距離;根據(jù)相似度閾值確定詞與詞的關(guān)聯(lián)關(guān)系,利用相似度距離排序規(guī)則以完成同類型詞組或知識匯集聚合;
與現(xiàn)有技術(shù)相比,本發(fā)明提供了一種基于同類型詞組的詞譜聚類智能生成方法,具備以下有益效果:
采用本發(fā)明,通過預(yù)先數(shù)據(jù)收集建立同類型詞組庫,比將詞譜數(shù)據(jù)庫建立為同類型的詞組訓(xùn)練集,作為訓(xùn)練用目標(biāo)數(shù)據(jù),可以根據(jù)不同的領(lǐng)域和知識,預(yù)先形成好對應(yīng)詞庫;通過對文本抓取,快速分析比對重點分句,進(jìn)行多維度拆分,實現(xiàn)分詞序列的規(guī)范化;再通過自已相似度對比,將詞組與入庫詞組集對比,實現(xiàn)了快速的知識點索引,完成詞譜聚類的生成,提高詞組生成的準(zhǔn)確性。
附圖說明
圖1是本發(fā)明的系統(tǒng)流程圖;
圖2是本發(fā)明的S2中數(shù)據(jù)處理過程圖意圖;
圖3是本發(fā)明的句法分析樹狀圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國衡智慧城市科技研究院(北京)有限公司,未經(jīng)國衡智慧城市科技研究院(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011264765.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





