[發(fā)明專利]一種基于同類型詞組的詞譜聚類智能生成方法在審
| 申請?zhí)枺?/td> | 202011264765.8 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112328811A | 公開(公告)日: | 2021-02-05 |
| 發(fā)明(設(shè)計)人: | 曾勇;楊琪 | 申請(專利權(quán))人: | 國衡智慧城市科技研究院(北京)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F16/31;G06F40/211;G06F40/253;G06F40/268;G06F40/295 |
| 代理公司: | 重慶百潤洪知識產(chǎn)權(quán)代理有限公司 50219 | 代理人: | 沈鋒 |
| 地址: | 100000 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 類型 詞組 詞譜 智能 生成 方法 | ||
1.一種基于同類型詞組的詞譜聚類智能生成方法,其特征在于,包括如下步驟:
S1、建立同類型詞組或知識匯集的詞譜數(shù)據(jù)庫、訓(xùn)練同類型詞組知識;
S2、提取文本分詞序列;
S3、同類型詞匯提取;
S4、同類型詞組或知識匯集聚合。
2.根據(jù)權(quán)利要求1所述的一種基于同類型詞組的詞譜聚類智能生成方法,其特征在于,所述S1中,通過收集數(shù)據(jù),以建立同類型詞組或知識匯集的詞譜數(shù)據(jù)庫,所述同類型詞組或知識匯集的詞譜數(shù)據(jù)庫包括有大量的同類型知識詞組,每個同類型詞組中存儲有相同語義的詞語;將所述同類型詞組或知識匯集的詞譜數(shù)據(jù)庫中的詞語建立同類型詞組訓(xùn)練集,作為訓(xùn)練目標(biāo)數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的一種基于同類型詞組的詞譜聚類智能生成方法,其特征在于,所述S2中,提取問題分詞的方式是通過各種信息抽取技術(shù)提取詞干預(yù)處理,得到文本知識訓(xùn)練集規(guī)范化的文本分詞序列。
4.根據(jù)權(quán)利要求1所述的一種基于同類型詞組的詞譜聚類智能生成方法,其特征在于,所述S3中,同類型詞匯提取通過S2中的得到的文本分詞序列與S1中目標(biāo)數(shù)據(jù)進行訓(xùn)練,提取步驟2文本分詞序列的同類型詞向量。
5.根據(jù)權(quán)利要求1所述的一種基于同類型詞組的詞譜聚類智能生成方法,其特征在于,所述S4中,通過對根據(jù)詞義相似度計算比對,計算詞義詞向量與所有已入庫的同類型詞組中詞的相似度距離,并比對上述相似度距離;根據(jù)相似度閾值確定詞與詞的關(guān)聯(lián)關(guān)系,利用相似度距離排序規(guī)則以完成同類型詞組或知識匯集聚合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國衡智慧城市科技研究院(北京)有限公司,未經(jīng)國衡智慧城市科技研究院(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011264765.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





