[發明專利]基于多模型融合的文本語義相似度信息處理方法及系統在審
| 申請號: | 202010735606.5 | 申請日: | 2020-07-28 |
| 公開(公告)號: | CN112036177A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 楊萬征;蔡超;程國艮 | 申請(專利權)人: | 中譯語通科技股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F16/33;G06N3/04;G06N3/08 |
| 代理公司: | 北京萬貝專利代理事務所(特殊普通合伙) 11520 | 代理人: | 馬紅 |
| 地址: | 100040 北京市石*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 模型 融合 文本 語義 相似 信息處理 方法 系統 | ||
本發明屬于專利檢索技術領域,公開了一種基于多模型融合的文本語義相似度信息處理方法及系統,獲取專利數據,并針對專利數據中專利的標題、摘要、權利要求、說明書采用不同模型分別進行分詞處理,得到相應的詞向量特征與句向量特征;通過融合標題的詞向量特征、摘要的詞向量特征、權利要求的句向量特征、說明書的句向量特征作為專利的組合特征向量;計算專利的組合特征向量與數據庫中其他專利組合特征向量的相似度。本發明使用無監督學習模型極大減少了算法模型對標注數據的需求,并且通過句向量的使用,可以深入挖掘文章的深層語義特征,極大減少了實時計算的計算量,加快反饋速度。
技術領域
本發明屬于專利檢索技術領域,尤其涉及一種基于多模型融合的文本語義相似度信息處理方法及系統。
背景技術
目前,文本語義相似度計算是自然語言處理領域一個重要的研究方向,其研究成果被廣泛應用于檢索系統、查重系統等,可以幫助用戶快速找到其想要的,挖掘用戶深層需求,規避因表達方式不同造成的結果差異,具有很高的學術研究價值及工業應用價值。
文本語義相似度計算研究方向大致分為兩種。一種是科研方向,其人員組成多為各高校學者或企業科研人員,其常用技術方法如:Simase_LSTM,RCNN,DSSM等,技術方向多為使用深層神經網絡,采用有監督學習方式進行模型訓練,追求更高的語義層面理解。以最簡單的Simase_LSTM模型為例,其模型結構如下,首先將文本進行分詞處理,隨后將單詞轉化為對應特征向量,再將其送入LSTM模型提取其語義特征,通過文本向量進行相似度計算。
文本語義相似度計算另一大研究方向為工業應用方向,其主要研究目的是為了提升檢索引擎質量、尋找相似文本,因工業應用的數量級要遠大于科研領域的樣本集,且工業應用有嚴格的速度要求,故而工業中使用的文本語義相似度計算方式往往相對簡單。如:LDA模型、PLSA模型、LFM模型,其通過一種先驗概率統計模型,計算不同詞集生成不同主題的概率統計,然后通過主題概率相似度計算兩篇文本的相似度。
現有科研類文本語義相似度計算方法多為使用深度神經網絡模型,采用有監督學習方法進行模型訓練,該類型算法需要大量有標注樣本支撐,然而在工業領域,數據量往往很多,但有標注的數據往往很少,尤其是項目創立之初,有標注數據便顯得更加可遇而不可求,文本類標注數據不同于圖像,因其需要對文章存在主觀理解,故而對標注人員的要求往往更高。因此在項目之初的工業領域是不便于開展大規模有監督學習算法的。
深度神經網絡類算法所需要的計算量也很大,在少量數據上可行,但將其應用于少則幾個G多則幾個T甚至是幾個PB的工業級數據上,為語義檢索一篇文章的相似文章,需要反復執行單個神經網絡上億次,其反饋時長注定無法接受。
現有工業領域語義相似度檢測算法多為基于字符的先驗概率統計模型,但其無法捕獲上下文及語序關系,故而只能定義為一種淺層語義相似度計算。
通過上述分析,現有技術存在的問題及缺陷為:(1)現有文本語義相似度計算方法采用有監督學習方法進行模型訓練,需要大量有標注樣本支撐;且計算量大;
(2)現有語義相似度檢測算法多為基于字符的先驗概率統計模型,但無法捕獲上下文及語序關系。
(3)現有基于深度學習的模型,如:Simase_LSTM,RCNN,DSSM等,計算量較大,需要高配置GPU服務器支持,硬件成本較高。
解決以上問題及缺陷的難度為:
解決上述問題及缺陷(1)需要大量的人工標注,不但需要投入人工雇傭成本,同時,專利屬于一種專業性強的問題,準確評價兩篇專利之間的相似程度需要非常專業的審查人員深思熟慮后才可確定,人員級別要求高,且標注效率低。
解決上述問題及缺陷(2)需要使用鏈式模型,如:RNN、LSTM等,該類模型的使用又會引發對硬件設備及標注數據的需求,即:引起問題及缺陷(1)和問題及缺陷(3)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技股份有限公司,未經中譯語通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010735606.5/2.html,轉載請聲明來源鉆瓜專利網。





