[發(fā)明專利]不同文檔中相關(guān)句子的匹配方法、系統(tǒng)和計算機可讀存儲介質(zhì)在審

申請?zhí)枺?/td>	202010559644.X	申請日：	2020-06-18
公開（公告）號：	CN112380830A	公開（公告）日：	2021-02-19
發(fā)明（設(shè)計）人：	王忠萌;陳運文;王文廣;賀夢潔;胡盟;紀(jì)達麒	申請（專利權(quán)）人：	達而觀信息科技（上海）有限公司
主分類號：	G06F40/194	分類號：	G06F40/194;G06F40/216
代理公司：	上海智力專利商標(biāo)事務(wù)所(普通合伙) 31105	代理人：	張文玄;周濤
地址：	201203 上海市浦東新區(qū)***	國省代碼：	上海;31
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	不同文檔相關(guān) 句子匹配方法系統(tǒng) 計算機可讀存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種不同文檔中相關(guān)句子的匹配方法，用于將基準(zhǔn)文檔中的基準(zhǔn)句子和比對文檔中的候選句子進行匹配，其特征在于，所述匹配方法包括：在淺層語義、統(tǒng)計信息、深層語義三個層面上，計算候選句子相對于基準(zhǔn)句子的表示匹配程度的淺層分?jǐn)?shù)、統(tǒng)計分?jǐn)?shù)、深層分?jǐn)?shù)；

基于線性回歸模型擬合所述淺層分?jǐn)?shù)、統(tǒng)計分?jǐn)?shù)和深層分?jǐn)?shù)，獲得用來表示所述候選句子相對于基準(zhǔn)句子的匹配度的最終分?jǐn)?shù)。

2.根據(jù)權(quán)利要求1所述的不同文檔中相關(guān)句子的匹配方法，其特征在于，所述淺層語義的獲取包括三個平行指標(biāo)的獲取，所述平行指標(biāo)分別為：字符、分詞、主干成分。

3.根據(jù)權(quán)利要求2所述的不同文檔中相關(guān)句子的匹配方法，其特征在于，所述主干成分的獲取包括：

找出句子中的名詞以及與其為定中結(jié)構(gòu)的形容詞；

從距離名詞最近的形容詞開始，依次向遠離名詞的方向進行多個形容詞的疊加，配合名詞組合得到多個主干成分。

4.根據(jù)權(quán)利要求3所述的不同文檔中相關(guān)句子的匹配方法，其特征在于，所述淺層分?jǐn)?shù)的計算方法包括：

分別獲取基準(zhǔn)句子中的字符、分詞、主干成分在候選句子中的召回率；以召回率構(gòu)成第一向量作為淺層分?jǐn)?shù)。

5.根據(jù)權(quán)利要求4所述的不同文檔中相關(guān)句子的匹配方法，其特征在于，所述統(tǒng)計分?jǐn)?shù)的計算方法包括：

基于包含基準(zhǔn)文檔、比對文檔所在的特定領(lǐng)域的多個文檔計算出所述主干成分的TF-IDF分?jǐn)?shù)；

取TF-IDF分?jǐn)?shù)較大的若干主干成分；

以主干成分是否同時出現(xiàn)在基準(zhǔn)句子和候選句子為第一變量，基準(zhǔn)句子和候選句子是否真實匹配為第二變量，對第一變量和第二變量進行卡方檢驗，將通過卡方檢驗的主干成分作為重點成分；

以所述重點成分是否同時出現(xiàn)在基準(zhǔn)句子和候選句子內(nèi)構(gòu)建第二向量，作為統(tǒng)計分?jǐn)?shù)。

6.根據(jù)權(quán)利要求5所述的不同文檔中相關(guān)句子的匹配方法，其特征在于，所述深層分?jǐn)?shù)的計算方法包括：

利用廣泛語料的Bert預(yù)訓(xùn)練的模型，得到Bert分類網(wǎng)絡(luò)；

基于分類網(wǎng)絡(luò)計算出候選句子在深層語義相對于基準(zhǔn)句子的相似度構(gòu)成第三向量，作為深層分?jǐn)?shù)。

7.根據(jù)權(quán)利要求6所述的不同文檔中相關(guān)句子的匹配方法，其特征在于，所述線性回歸模型包括權(quán)重和預(yù)設(shè)的偏置值，針對不同的所述特定領(lǐng)域的多個文檔訓(xùn)練得出不同的與領(lǐng)域相對的所述權(quán)重。

8.根據(jù)權(quán)利要求1所述的不同文檔中相關(guān)句子的匹配方法，其特征在于，所述匹配方法包括：

若候選句子與基準(zhǔn)句子在段落的同一位置，則最終分?jǐn)?shù)上調(diào)預(yù)定分?jǐn)?shù)。

9.一種不同文檔中相關(guān)句子的匹配系統(tǒng)，用于將基準(zhǔn)文檔中的基準(zhǔn)句子和比對文檔中的候選句子進行匹配，其特征在于，所述匹配系統(tǒng)包括：計算模塊，所述計算模塊在淺層語義、統(tǒng)計信息、深層語義三個層面上，計算候選句子相對于基準(zhǔn)句子的表示匹配程度的淺層分?jǐn)?shù)、統(tǒng)計分?jǐn)?shù)、深層分?jǐn)?shù)；

擬合模塊，所述擬合模塊基于線性回歸模型擬合所述淺層分?jǐn)?shù)、統(tǒng)計分?jǐn)?shù)和深層分?jǐn)?shù)，獲得用來表示所述候選句子相對于基準(zhǔn)句子的匹配度的最終分?jǐn)?shù)。

10.一種計算機可讀存儲介質(zhì)，其特征在于，所述可讀存儲介質(zhì)存儲有計算機指令，所述指令被處理器運行時實現(xiàn)權(quán)利要求1-8中任一所述匹配方法。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于達而觀信息科技（上海）有限公司，未經(jīng)達而觀信息科技（上海）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010559644.X/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】