[發明專利]不同文檔中相關句子的匹配方法、系統和計算機可讀存儲介質在審
| 申請號: | 202010559644.X | 申請日: | 2020-06-18 |
| 公開(公告)號: | CN112380830A | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 王忠萌;陳運文;王文廣;賀夢潔;胡盟;紀達麒 | 申請(專利權)人: | 達而觀信息科技(上海)有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/216 |
| 代理公司: | 上海智力專利商標事務所(普通合伙) 31105 | 代理人: | 張文玄;周濤 |
| 地址: | 201203 上海市浦東新區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 不同 文檔 相關 句子 匹配 方法 系統 計算機 可讀 存儲 介質 | ||
本發明公開了一種不同文檔中相關句子的匹配方法,用于將基準文檔中的基準句子和比對文檔中的候選句子進行匹配,所述匹配方法包括:在淺層語義、統計信息、深層語義三個層面上,計算候選句子相對于基準句子的表示匹配程度的淺層分數、統計分數、深層分數;基于線性回歸模型擬合所述淺層分數、統計分數和深層分數,獲得用來表示所述候選句子相對于基準句子的匹配度的最終分數。本發明提高文檔匹配準確性。
技術領域
本發明屬于計算機自然語言處理領域,具體涉及一種不同文檔中相關句子的匹配方法、系統和計算機可讀存儲介質。
背景技術
近年來隨著信息時代的發展,計算機要處理的文本數量與日俱增。面對海量的文本,讓機器自動處理文本成為了當前的熱潮。在這其中,文檔內容匹配的需求逐漸擴大,人們可以通過機器自動匹配,可以方便的找出不同文檔的區別與聯系,從而便于進行輿情比對、輔助決策等,在經濟、法律等領域發揮著巨大的作用。
常見的方法如TF-IDF算法,通過計算出文檔中每個詞的TF-IDF值,然后結合相似度計算方法(一般采用余弦相似度)就可以計算兩個文檔的相似度。采用TF-IDF的前提是“文章的詞語重要性與詞語在文章中出現的位置不相關”。該算法的核心思想是:在一篇文章中,某個詞語的重要性與該詞語在這篇文章中出現的次數成正相關,同時與整個語料庫中出現該詞語的文章數成負相關。
同時,還有深度學習的方法較為流行,深度神經網絡被廣泛用于句子建模,深度學習模型可以將句子表示為語義空間上的向量矩陣,利用向量之間的距離更準確的描述兩個句子之間的語義關系,卷積神經網絡善于提取句子中的抽象特征,循環神經網絡善于保持并利用長距離信息。如具有代表性的DSSM算法。DSSM是一種深度學習語義匹配模型,在檢索場景下,利用用戶的點擊數據來訓練語義層次的匹配。DSSM利用點擊率來代替相關性,點擊數據中包含大量的用戶問句和對應的點擊文檔,這些點擊數據將用戶的問題和匹配的文檔連接起來。谷歌提出BERT預訓練模型,利用Transformer結構進行雙向的編碼,運用海量數據進行Masked LM和Next Sentence Prediction的預訓練。進而,可以用于下游任務的微調。例如,在進行文本相似度任務時,調整輸出層的結構,使用線性層進行模型微調,得到最終結果。
目前,文檔匹配任務面臨著若干困難,首先,句子匹配本身存在問題。對同一個事物的不同的描述,會影響計算機難以將兩個文本判定相似,導致召回率降低;多樣化的語義結構,如“社會主義”,既可以作為描述主體也可以作為形容詞去修飾,如“社會主義法制”與“社會主義文化”。其次,文本匹配系統面臨著跨領域文本的問題,在不同的文本領域,其判定方法并非完全一致,需要具體判斷是否為描述主題。從而影響快速準確的做遷移。最后,孤立句子的匹配分數,和整個文檔范圍的匹配結果并不一致,和結果的可讀性也會不一致。這些問題都是當前文本相似系統的挑戰。
發明內容
針對現有技術中存在的問題,本發明提供一種不同文檔中相關句子的匹配方法,本發明的部分實施例能夠提高文檔匹配精度。
為實現上述目的,本發明采用以下技術方案:
一種不同文檔中相關句子的匹配方法,用于將基準文檔中的基準句子和比對文檔中的候選句子進行匹配,所述匹配方法包括:在淺層語義、統計信息、深層語義三個層面上,計算候選句子相對于基準句子的表示匹配程度的淺層分數、統計分數、深層分數;基于線性回歸模型擬合所述淺層分數、統計分數和深層分數,獲得用來表示所述候選句子相對于基準句子的匹配度的最終分數。
優選地,所述淺層語義的獲取包括三個平行指標的獲取,所述平行指標分別為:字符、分詞、主干成分。
優選地,所述主干成分的獲取包括:找出句子中的名詞以及與其為定中結構的形容詞;從距離名詞最近的形容詞開始,依次向遠離名詞的方向進行多個形容詞的疊加,配合名詞組合得到多個主干成分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于達而觀信息科技(上海)有限公司,未經達而觀信息科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010559644.X/2.html,轉載請聲明來源鉆瓜專利網。





