[發(fā)明專利]一種文本相似度的計算方法及計算機(jī)可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201711251955.4 | 申請日: | 2017-12-01 |
| 公開(公告)號: | CN107958061A | 公開(公告)日: | 2018-04-24 |
| 發(fā)明(設(shè)計)人: | 朱敬華;肖龍源;蔡振華;李稀敏;劉曉葳;譚玉坤 | 申請(專利權(quán))人: | 廈門快商通信息技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廈門果汁知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)35227 | 代理人: | 樂珠秀 |
| 地址: | 361007 福建省廈門*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 相似 計算方法 計算機(jī) 可讀 存儲 介質(zhì) | ||
技術(shù)領(lǐng)域
本發(fā)明關(guān)于文本處理技術(shù)領(lǐng)域,尤其涉及一種文本相似度的計算方法及計算機(jī)可讀存儲介質(zhì),以及基于所述方法的預(yù)測文本錄入位置的方法及計算機(jī)可讀存儲介質(zhì)。
背景技術(shù)
文本相似度是指不同文本之間的語義關(guān)聯(lián)程度,文本相似度的確定是文本挖掘、文本檢索、文本分析的核心工作之一。
目前文本相似度計算技術(shù)正處于發(fā)展階段,尤其是隨著互聯(lián)網(wǎng)技術(shù)的越來越成熟,文檔文稿的電子化、可結(jié)構(gòu)化及智能應(yīng)用等需求越來越旺盛,現(xiàn)有技術(shù)中實現(xiàn)文本相似度的計算方法和處理算法也越來越成熟,主要包含子序列與子字符串、字符串編輯距離、向量相似度、SimHash等類型的基礎(chǔ)算法。
根據(jù)不同的應(yīng)用需求,對具體算法的選定和優(yōu)化方向也是各不相同,尤其是針對一些特定的行業(yè)文檔例如合同、協(xié)議、證明文件等具有一定結(jié)構(gòu)規(guī)范且嚴(yán)謹(jǐn)?shù)奈臋n的處理更需要貼近實際需求的算法和優(yōu)化,以對其的更進(jìn)一步的處理加工提供良好的基礎(chǔ)。
發(fā)明內(nèi)容
基于上述對技術(shù)的需求,本發(fā)明提供了一種文本相似度的計算方法,包含步驟,對待比較的第一文本和第二文本進(jìn)行預(yù)處理,得到所述第一文本和所述第二文本中分別包含的屬性值;基于第一預(yù)設(shè)算法計算所述第一文本中各個所述屬性值與所述第二文本中各個所述屬性值的相似度;基于第二預(yù)設(shè)算法及各個所述屬性值的相似度計算得到所述第一文本與所述第二文本的相似度。
在一實施中,所述對待比較的第一文本和第二文本進(jìn)行預(yù)處理包含分別對所述第一文本和所述第二文本進(jìn)行分詞處理。
在一實施中,所述對待比較的第一文本和第二文本進(jìn)行預(yù)處理包含對所述屬性值設(shè)置權(quán)重,所述基于第二預(yù)設(shè)算法及各個所述屬性值的相似度計算得到所述第一文本和所述第二文本的相似度的步驟更包含基于所述權(quán)重、所述第二預(yù)設(shè)算法及各個所述屬性值的相似度計算得到所述第一文本和所述第二文本的相似度。
在一實施中,所述第二預(yù)設(shè)算法包含如下公式:
其中,c1,c2分別表示所述第一文本和所述第二文本,ci表示文本c的第i個屬性,wi為第i個屬性的權(quán)重,S(c1,c2)為兩份所述待比較文本的相似度,為兩份所述待比較文本中對應(yīng)屬性的相似度。
在一實施中,所述第一預(yù)設(shè)算法包含如下公式:
其中,c1,c2分別表示所述第一文本和所述第二文本,ci表示文本c的第i個屬性,為兩份所述待比較文本對應(yīng)屬性的相似度,V(ci)表示文本第i個屬性的值,為所述待比較文本中對應(yīng)屬性值的相似度。
在一實施中,當(dāng)所述屬性值的數(shù)據(jù)類型為數(shù)字時,取值為1。
在一實施中,當(dāng)所述屬性值的數(shù)據(jù)類型為文本時,的取值為根據(jù)預(yù)設(shè)文本訓(xùn)練模型計算出的結(jié)果。
基于上述文本相似度計算方法,本發(fā)明還提供一種預(yù)測文本錄入位置的方法,包含步驟:準(zhǔn)備歷史文本庫,其中所述歷史文本庫中的樣本與待預(yù)測文本的應(yīng)用類型相同;通過上述文本相似度的計算方法,分別計算所述待預(yù)測文本與所述歷史文本庫中的各樣本的相似度;選取相似度最高的所述樣本作為所述待預(yù)測文本的參考樣本;基于所述參考樣本的錄入位置預(yù)測所述待預(yù)測文本中的錄入位置。
在一實施中,所述方法更包含步驟,對所述歷史文本庫中的樣本中的錄入位置進(jìn)行標(biāo)注,如此一來,可基于所述標(biāo)注預(yù)測所述待預(yù)測文本中的對應(yīng)的錄入位置。
此外本發(fā)明還提供一種計算機(jī)可讀存儲介質(zhì),存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)上述的文本相似度的計算方法。
以及一種計算機(jī)可讀存儲介質(zhì),存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)上述預(yù)測文本錄入位置的方法。
綜上所述,基于本發(fā)明提供的文本相似度計算方法,可借助于與待預(yù)測文本行業(yè)相同的歷史樣本的相似度,且結(jié)果可數(shù)值化,進(jìn)一步的基于該方法和結(jié)果,可獲得歷史文本庫中與待預(yù)測文本最接近的歷史樣本,并以此作為參考對待預(yù)測文本的錄入位置進(jìn)行預(yù)測,可較簡便的獲得一個初步的預(yù)測結(jié)果,以便于后續(xù)的處理和應(yīng)用。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,對于本領(lǐng)域普通技術(shù)人員而言,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1繪示本發(fā)明一較佳實施例所提供的預(yù)測合同錄入位置的方法流程圖;
圖2繪示本實施例所提供的一種文本相似度計算方法流程圖。
具體實施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門快商通信息技術(shù)有限公司,未經(jīng)廈門快商通信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711251955.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 雙桌面遠(yuǎn)程控制系統(tǒng)及方法
- 一種基于網(wǎng)絡(luò)的計算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計算機(jī)信息檢索系統(tǒng)與方法
- 雙計算機(jī)系統(tǒng)
- 制導(dǎo)雷達(dá)計算機(jī)系統(tǒng)
- 一種服務(wù)部署方法及裝置
- 一種計算機(jī)集成系統(tǒng)及故障自動切換方法
- 一種計算機(jī)信息安全監(jiān)控系統(tǒng)
- 混合型量子計算機(jī)架構(gòu)及其執(zhí)行計算任務(wù)的方法





