[發明專利]一種面向標準文檔編寫的模板推薦方法有效
| 申請號: | 202110730159.9 | 申請日: | 2021-06-29 |
| 公開(公告)號: | CN113378539B | 公開(公告)日: | 2023-02-14 |
| 發明(設計)人: | 蔡毅;彭淇;鄭昌萌 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F40/186 | 分類號: | G06F40/186;G06F40/289;G06F40/30 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 何淑珍;江裕強 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 標準 文檔 編寫 模板 推薦 方法 | ||
1.一種面向標準文檔編寫的模板推薦方法,其特征在于,包括以下步驟:
步驟S1、構建標準文檔庫;
步驟S2、用戶通過交互界面輸入需要尋找的標題;
步驟S3、對用戶輸入的字符進行匹配,在標準文檔庫中進行遍歷查找,若存在與用戶輸入字符完全匹配的標題,則返回給用戶標題、標題對應的標準文檔編號以及對應標題下的內容文本;若不存在完全匹配的標題,則轉步驟S4;
步驟S4、對用戶輸入的字符進行分詞,分詞后再進行遍歷匹配,若某標準文檔中的標題包含分詞后的單詞,則返回給用戶標題、標題對應的標準文檔編號以及對應標題下的內容文本,若不存在包含分詞后的單詞,則轉步驟S5;
步驟S5、將分詞后的單詞映射到對應的embedding向量,再對所有分詞單詞的embedding向量進行求平均,同樣對所有標準文檔中的所有標題進行分詞后映射到單詞對應的embedding向量后求平均,若用戶輸入字符的embedding和標題對應的embedding的cosine距離大于的設定值,則返回給用戶標題、標題對應的標準文檔編號以及對應標題下的內容文本;
將分詞后的單詞映射到對應的embedding向量,再對所有分詞單詞的embedding向量進行求平均,計算過程如下:
wi=emb(xi)
其中,emb(·)是embedding映射矩陣;xi是用戶輸入的文本分詞后對應的第i個單詞;wi是第i個單詞映射得到的embedding向量;n是用戶輸入文本分詞后的總單詞數;suser是用戶輸入分詞后所有單詞embedding的平均值;
對標準文檔中的標題進行分詞、分詞后映射到embedding向量、求平均操作,得到標題embedding,對應表示為stitle:
其中,wh是標準文檔中的標題第h個單詞映射得到的embedding向量;m是標準文檔中的標題分詞后的總單詞數;stitle是標準文檔中的標題分詞后所有單詞embedding的平均值;
若suser和stitle的cosine距離大于設定值,則返回對應標題、該標題對應的標準文檔編號以及標題下的文本。
2.根據權利要求1所述的面向標準文檔編寫的模板推薦方法,其特征在于,每一個標準文檔包括標準編號、標題以及對應標題下的文本內容。
3.根據權利要求2所述的面向標準文檔編寫的模板推薦方法,其特征在于,步驟S2中,在python的交互介面用戶需要輸入需要尋找的模板標題。
4.根據權利要求3所述的面向標準文檔編寫的模板推薦方法,其特征在于,步驟S4的分詞利用python的jieba分詞庫、pkuseg分詞庫、SnowNLP分詞庫或THULAC分詞庫對輸入進行分詞。
5.根據權利要求4所述的面向標準文檔編寫的模板推薦方法,其特征在于,步驟S5的分詞利用python的jieba分詞庫、pkuseg分詞庫、SnowNLP分詞庫或THULAC分詞庫對輸入進行分詞。
6.根據權利要求5所述的面向標準文檔編寫的模板推薦方法,其特征在于,所述embedding映射矩陣為預訓練的wiki-100中文embedding。
7.根據權利要求6所述的面向標準文檔編寫的模板推薦方法,其特征在于,所述embedding映射矩陣為百度百科語料庫預訓練的中文embedding。
8.根據權利要求7所述的面向標準文檔編寫的模板推薦方法,其特征在于,中文維基百科語料庫預訓練的中文embedding。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110730159.9/1.html,轉載請聲明來源鉆瓜專利網。





