[發明專利]一種對主題相似度進行計算的方法及裝置在審
| 申請號: | 202010966515.2 | 申請日: | 2020-09-15 |
| 公開(公告)號: | CN112733519A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 尚懷嬴;劉巖;鄭安剛;張琪;任民 | 申請(專利權)人: | 中國電力科學研究院有限公司;國網安徽省電力有限公司;國家電網有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/216;G06F40/242;G06F40/284;G06F40/30 |
| 代理公司: | 北京工信聯合知識產權代理有限公司 11266 | 代理人: | 夏德政 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 主題 相似 進行 計算 方法 裝置 | ||
1.一種對主題相似度進行計算的方法,其特征在于,所述方法包括:
獲取問題的文本內容和答案的文本內容,對所述問題的文本內容和所述答案的文本內容分別進行分詞,獲得所述問題的領域詞以及所述答案的領域詞,其中所述問題和所述答案相對應,領域詞為在詞匯領域內的語義單元;
利用預先建立的領域詞詞典,確定所述問題的領域詞在問題領域詞詞典的各個類別中的主題權重以及所述答案的領域詞在答案領域詞詞典的各個類別中的主題權重,其中所述領域詞詞典包括問題領域詞詞典以及答案領域詞詞典;以及
根據所述問題的主題權重與所述答案的主題權重,確定所述問題與所述答案的主題相似度。
2.根據權利要求1所述的方法,其特征在于,利用預先建立的領域詞詞典,確定所述問題的領域詞在問題領域詞詞典的各個類別中的主題權重,包括:
確定出所述問題的領域詞在各個類別中的問題權重值;
根據所述問題的領域詞在各個類別中的問題權重值,確定問題權重區間長度,其中所述問題權重區間長度中含有相似問題權重值,所述相似問題權重值表示在一定范圍內的問題權重值;以及
將屬于所述問題權重區間長度范圍內的問題權重值進行過濾。
3.根據權利要求1所述的方法,其特征在于,利用預先建立的領域詞詞典,確定所述答案的領域詞在答案領域詞詞典的各個類別中的主題權重,包括:
確定出所述答案的領域詞在各個類別中的答案權重值;
根據所述答案的領域詞在各個類別中的答案權重值,確定答案權重區間長度,其中所述答案權重區間長度中含有相似答案權重值,所述相似答案權重值表示在一定范圍內的答案權重值;以及
將屬于所述答案權重區間長度范圍內的答案權重值進行過濾。
4.根據權利要求1所述的方法,其特征在于,利用預先建立的領域詞詞典,確定所述問題的領域詞在問題領域詞詞典的各個類別中的主題權重以及所述答案的領域詞在答案領域詞詞典的各個類別中的主題權重,還包括:
將所述問題的領域詞以及所述答案的領域詞中長度小于第一閾值的漢字或者單詞進行去除;
將所述問題的領域詞以及所述答案的領域詞中長度大于第二閾值的數字字符串進行去除;以及
將所述問題的領域詞以及所述答案的領域詞中重復度大于第三閾值的數字串進行去除。
5.根據權利要求1所述的方法,其特征在于,確定出所述問題的領域詞在各個類別中的權重值以及所述答案的領域詞在各個類別中的權重值,包括:
確定領域詞在各個類別中的權重值的計算公式為:
其中,w(token,cj)表示領域詞token在各個類別中的主題權重,pij=Tij/Lj,Lj是類別cj含有的所有詞的次數總和,Tij是領域詞i在類別cj中出現的次數;其中m是類別數;表示詞頻在類別之間的差異性;N是訓練語料中所有詞出現次數總和,N(token)表示訓練預料中出現的次數;n為詞頻影響因子。
6.根據權利要求1所述的方法,其特征在于,利用預先建立的領域詞詞典,確定出所述問題的領域詞在各個類別中的主題權重,包括:
確定所述問題的標題領域詞、所述問題的正文領域詞以及所述問題的標簽領域詞;
根據所述問題的標題領域詞、所述問題的正文領域詞以及所述問題的標簽領域詞,確定所述問題的一元組標題領域詞、所述問題的二元組標題領域詞、所述問題的三元組標題領域詞、所述問題的一元組正文領域詞、所述問題的二元組正文領域詞、所述問題的三元組正文領域詞、所述問題的一元組標簽領域詞、所述問題的二元組標簽領域詞以及所述問題的三元組標簽領域詞;以及
根據所述問題的一元組標題領域詞、所述問題的二元組標題領域詞、所述問題的三元組標題領域詞、所述問題的一元組正文領域詞、所述問題的二元組正文領域詞、所述問題的三元組正文領域詞、所述問題的一元組標簽領域詞、所述問題的二元組標簽領域詞以及所述問題的三元組標簽領域詞,確定出所述問題的領域詞在各個類別中的主題權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電力科學研究院有限公司;國網安徽省電力有限公司;國家電網有限公司,未經中國電力科學研究院有限公司;國網安徽省電力有限公司;國家電網有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010966515.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電子設備及其使用方法和形成方法
- 下一篇:光學式體積測定裝置





