[發(fā)明專利]一種對主題相似度進(jìn)行計算的方法及裝置在審
| 申請?zhí)枺?/td> | 202010966515.2 | 申請日: | 2020-09-15 |
| 公開(公告)號: | CN112733519A | 公開(公告)日: | 2021-04-30 |
| 發(fā)明(設(shè)計)人: | 尚懷嬴;劉巖;鄭安剛;張琪;任民 | 申請(專利權(quán))人: | 中國電力科學(xué)研究院有限公司;國網(wǎng)安徽省電力有限公司;國家電網(wǎng)有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/216;G06F40/242;G06F40/284;G06F40/30 |
| 代理公司: | 北京工信聯(lián)合知識產(chǎn)權(quán)代理有限公司 11266 | 代理人: | 夏德政 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 主題 相似 進(jìn)行 計算 方法 裝置 | ||
本申請公開了一種基于領(lǐng)域詞詞典對主題相似度進(jìn)行計算的方法及裝置。其中,該方法包括:獲取問題的文本內(nèi)容和答案的文本內(nèi)容,對所述問題的文本內(nèi)容和所述答案的文本內(nèi)容分別進(jìn)行分詞,獲得所述問題的領(lǐng)域詞以及所述答案的領(lǐng)域詞,其中所述問題和所述答案相對應(yīng),領(lǐng)域詞為在詞匯領(lǐng)域內(nèi)的語義單元;利用預(yù)先建立的領(lǐng)域詞詞典,確定所述問題的領(lǐng)域詞在問題領(lǐng)域詞詞典的各個類別中的主題權(quán)重以及所述答案的領(lǐng)域詞在答案領(lǐng)域詞詞典的各個類別中的主題權(quán)重,其中所述領(lǐng)域詞詞典包括問題領(lǐng)域詞詞典以及答案領(lǐng)域詞詞典;以及根據(jù)所述問題的主題權(quán)重與所述答案的主題權(quán)重,確定所述問題與所述答案的主題相似度。
技術(shù)領(lǐng)域
本申請涉及人工智能領(lǐng)域,特別是涉及一種對主題相似度進(jìn)行計算的方法 及裝置。
背景技術(shù)
目前,在知道產(chǎn)品的許多應(yīng)用場景下,都會涉及到文本片段的相似度計算。 例如問題/回答對的rank值判定,知道問題推薦等等。主題分析需要龐大的領(lǐng) 域詞詞典支持,依靠具有強文本內(nèi)容表示功能的特征詞語(二元、三元組短語) 進(jìn)行類目或主題的區(qū)分、主題詞或關(guān)鍵詞的標(biāo)引?,F(xiàn)有的主題相似度計算方法 大多基于向量空間模型,其中向量的每一個維度以詞(term)來表示,這種方 法在應(yīng)用到短文本片段相似度計算時會遇到嚴(yán)重的詞匯不匹配的問題 (vocabulary mismatch problem)。
針對上述的現(xiàn)有技術(shù)中存在的主題相似度計算方法大多基于向量空間模 型,其中向量的每一個維度以詞(term)來表示,這種方法在應(yīng)用到短文本片 段相似度計算時會遇到嚴(yán)重的詞匯不匹配的技術(shù)問題,目前尚未提出有效的解 決方案。
發(fā)明內(nèi)容
本公開的實施例提供了一種對主題相似度進(jìn)行計算的方法及裝置,以至少 解決現(xiàn)有技術(shù)中存在的主題相似度計算方法大多基于向量空間模型,其中向量 的每一個維度以詞(term)來表示,這種方法在應(yīng)用到短文本片段相似度計算 時會遇到嚴(yán)重的詞匯不匹配的技術(shù)問題。
根據(jù)本公開實施例的一個方面,提供了一種對主題相似度進(jìn)行計算的方法, 包括:獲取問題的文本內(nèi)容和答案的文本內(nèi)容,對問題的文本內(nèi)容和答案的文 本內(nèi)容分別進(jìn)行分詞,獲得問題的領(lǐng)域詞以及答案的領(lǐng)域詞,其中問題和答案 相對應(yīng),領(lǐng)域詞為在詞匯領(lǐng)域內(nèi)的語義單元;利用預(yù)先建立的領(lǐng)域詞詞典,確 定問題的領(lǐng)域詞在問題領(lǐng)域詞詞典的各個類別中的主題權(quán)重以及答案的領(lǐng)域詞 在答案領(lǐng)域詞詞典的各個類別中的主題權(quán)重,其中領(lǐng)域詞詞典包括問題領(lǐng)域詞 詞典以及答案領(lǐng)域詞詞典;以及根據(jù)問題的主題權(quán)重與答案的主題權(quán)重,確定 問題與答案的主題相似度。
根據(jù)本公開實施例的另一個方面,還提供了一種存儲介質(zhì),存儲介質(zhì)包括 存儲的程序,其中,在程序運行時由處理器執(zhí)行以上任意一項所述的方法。
根據(jù)本公開實施例的另一個方面,還提供了一種對主題相似度進(jìn)行計算的 裝置,包括:獲得領(lǐng)域詞模塊,用于獲取問題的文本內(nèi)容和答案的文本內(nèi)容, 對問題的文本內(nèi)容和答案的文本內(nèi)容分別進(jìn)行分詞,獲得問題的領(lǐng)域詞以及答 案的領(lǐng)域詞,其中問題和答案相對應(yīng),領(lǐng)域詞為在詞匯領(lǐng)域內(nèi)的語義單元;確 定主題權(quán)重模塊,用于利用預(yù)先建立的領(lǐng)域詞詞典,確定問題的領(lǐng)域詞在問題 領(lǐng)域詞詞典的各個類別中的主題權(quán)重以及答案的領(lǐng)域詞在答案領(lǐng)域詞詞典的各 個類別中的主題權(quán)重,其中領(lǐng)域詞詞典包括問題領(lǐng)域詞詞典以及答案領(lǐng)域詞詞 典;以及確定主題相似度模塊,用于根據(jù)問題的主題權(quán)重與答案的主題權(quán)重, 確定問題與答案的主題相似度。
根據(jù)本公開實施例的另一個方面,還提供了一種對主題相似度進(jìn)行計算裝 置,包括:處理器;以及存儲器,與處理器連接,用于為處理器提供處理以下 處理步驟的指令:獲取問題的文本內(nèi)容和答案的文本內(nèi)容,對問題的文本內(nèi)容 和答案的文本內(nèi)容分別進(jìn)行分詞,獲得問題的領(lǐng)域詞以及答案的領(lǐng)域詞,其中 問題和答案相對應(yīng),領(lǐng)域詞為在詞匯領(lǐng)域內(nèi)的語義單元;利用預(yù)先建立的領(lǐng)域 詞詞典,確定問題的領(lǐng)域詞在問題領(lǐng)域詞詞典的各個類別中的主題權(quán)重以及答 案的領(lǐng)域詞在答案領(lǐng)域詞詞典的各個類別中的主題權(quán)重,其中領(lǐng)域詞詞典包括 問題領(lǐng)域詞詞典以及答案領(lǐng)域詞詞典;以及根據(jù)問題的主題權(quán)重與答案的主題 權(quán)重,確定問題與答案的主題相似度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國電力科學(xué)研究院有限公司;國網(wǎng)安徽省電力有限公司;國家電網(wǎng)有限公司,未經(jīng)中國電力科學(xué)研究院有限公司;國網(wǎng)安徽省電力有限公司;國家電網(wǎng)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010966515.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





