[發(fā)明專利]一種詞級別短文本語義匹配的迭代擴展方法和裝置在審
| 申請?zhí)枺?/td> | 202210950247.4 | 申請日: | 2022-08-09 |
| 公開(公告)號: | CN115292493A | 公開(公告)日: | 2022-11-04 |
| 發(fā)明(設計)人: | 戴佳駿;徐盛 | 申請(專利權)人: | 翼健(上海)信息科技有限公司;廈門翼方健數信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/247;G06F40/30;G06K9/62;G06N5/04 |
| 代理公司: | 北京華清迪源知識產權代理有限公司 11577 | 代理人: | 胡樂 |
| 地址: | 200050 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 級別 文本 語義 匹配 擴展 方法 裝置 | ||
本發(fā)明公開了一種詞級別短文本語義匹配的迭代擴展方法和裝置。方法包括:將大數據集D中帶有可信標注的數據部分作為初始訓練數據集D0;在D0中選取正樣本vpos和負樣本vneg,并訓練得到匹配模型M0;從D中抽取未標注數據集D1,new,并完成對D1,new的語義聚類;將聚類得到的結果和D0共同作為標注數據集D1,annotated;將Sintra低于Tintra并且Sinter高于Tinter的同義詞組作為不可靠標注數據集D1,todo,并將其余同義詞組作為可靠標注數據集D1,done;將不可靠標注數據集D1,todo中人工審核為標注正確的數據、D1,done和D0合并為訓練數據集D1;進行迭代訓練。本發(fā)明針對含少量標注數據的大數據集,以迭代的方式實現目標數據集上的高效精準匹配和可靠擴展,使短文本匹配的模型的訓練不再必須要求有大量的特定標注的數據。
技術領域
本申請涉及自然語言處理技術領域,特別是涉及一種詞級別短文本語義匹配的迭代擴展方法和裝置。
背景技術
自然語言處理是研究人和計算機之間通過自然語言進行交互的技術。隨著最近幾年機器學習與神經網絡技術的飛速發(fā)展,基于此類技術的自然語言處理技術也得到了突破性的進展,而與此相關的各項落地應用,比如信息搜索、智能推薦、自動問答等,也受益于此項核心技術的突破而獲得了迅猛發(fā)展。
在此類涉及自然文本語言處理的各項落地應用中,一個最為基礎的需求就是表達文本、語言的標準化和規(guī)范化,將各種不同來源的文本、語言等輸入數據轉化為能被計算機識別的輸入數據。而要實現這一目的,就需要對文本中的關鍵信息進行識別和提取,在語義層面對文本中的詞條進行匹配歸類;而對于某些應用,比如信息搜索等,本身甚至就是文本匹配的直接應用。所以短文本匹配這一自然語言處理中的基礎技術,其重要性日益顯著。
傳統(tǒng)的短文本匹配,大都基于字符相似程度,以詞語中的單個字符本身作為特征,輔以正則表達或模版匹配等技術,一般情況下,能有效解決文字高度相似的短語之間的匹配。但是對于實際應用中會遇到的各類復雜場景,其處理能力相當有限,比如同近義詞、錯別字、標點、詞字錯序表達、倒序表達、特殊符號干擾等,都會對匹配計算產生嚴重干擾,從而影響匹配準確性。也就是說,這種傳統(tǒng)的方法對于真正需要從語義理解上匹配的例子無法達到預期的效果,而且容易受到輸入樣本中各類噪音的干擾。
為了實現復雜環(huán)境下的輸入詞條在語義層面的正確匹配,需要引入更先進的技術手段。而隨著神經網絡為代表的深度學習、人工智能技術的出現,基于文本嵌入(embedding)的語義相似性技術讓詞條匹配應用獲得了突破性的進展:各種預訓練自然語言處理模型被提出,用于真實應用環(huán)境下的文本詞條標準化,成為目前自然語言處理相關應用中的主流。
以下述幾個現有方案對現有技術進行說明:
(1)背景方案1基于倒排索引的短文本匹配方法及裝置
中國專利文獻“CN 111581329 A基于倒排索引的短文本匹配方法及裝置”公開了一種基于傳統(tǒng)技術的文本匹配方法。
該方法適用于自然語言處理技術領域,提供了基于倒排索引的短文本匹配方法及裝置,該方法包括:對輸入的文字進行特征提取,并把提取后的特征與知識庫中的規(guī)則模板進行一一匹配,查找到最合適的模板。特別地,此項發(fā)明在特征提取之后,采用倒排索引技術對輸入的文字建立倒排索引,優(yōu)化了匹配時的計算效率,從而大大加快之后與知識庫中的模板進行一一匹配的過程。該裝置包括規(guī)則模板知識庫、特征提取器、特征擴展器、倒排索引生成器、模板編譯器和模板匹配器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于翼健(上海)信息科技有限公司;廈門翼方健數信息科技有限公司,未經翼健(上海)信息科技有限公司;廈門翼方健數信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210950247.4/2.html,轉載請聲明來源鉆瓜專利網。





