[發(fā)明專利]一種文本排序方法及設(shè)備在審
| 申請?zhí)枺?/td> | 201310522789.2 | 申請日: | 2013-10-29 |
| 公開(公告)號: | CN104572789A | 公開(公告)日: | 2015-04-29 |
| 發(fā)明(設(shè)計)人: | 甘文杰;于曉明;楊建武;張濤 | 申請(專利權(quán))人: | 北大方正集團(tuán)有限公司;北京大學(xué);北京北大方正電子有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 李相雨 |
| 地址: | 100871 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 排序 方法 設(shè)備 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及到一種文本排序方法及設(shè)備。
背景技術(shù)
搜索引擎是當(dāng)前競爭非常激烈的一個領(lǐng)域。當(dāng)用戶輸入一個關(guān)鍵詞后,通常會得到成千上萬甚至更多的搜索結(jié)果,而對于用戶來說,其會希望在顯示頁面的第一頁甚至第一頁的前幾個網(wǎng)頁中即找到自己想要的結(jié)果,因此,如何對搜索到的各網(wǎng)頁進(jìn)行排序,將直接影響到用戶的用戶體驗(yàn)。
TF-IDF(term?frequency–inverse?document?frequency,字詞頻率-逆向文件頻率)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)。TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。根據(jù)搜索詞在不同文件中的重要程度,可以確定不同文件與搜索詞的關(guān)聯(lián)程度,進(jìn)而根據(jù)關(guān)聯(lián)程度對文件進(jìn)行排序。
然而,在實(shí)現(xiàn)本發(fā)明的過程中,申請人發(fā)現(xiàn),TF-IDF算法僅考慮搜索詞中的各個子詞在文件中的詞頻,然而詞頻的高低可能并不能真實(shí)反映該文件與搜索詞的相關(guān)程度,從而無法對搜索結(jié)果進(jìn)行更好的排名。
發(fā)明內(nèi)容
本發(fā)明提供了一種文本排序方法,能夠更為準(zhǔn)確的反映各個文本與檢索請求的相關(guān)程度,從而對各個文本進(jìn)行更好的排序。
本發(fā)明提供了一種文本排序方法,方法包括:
對每一個待排序文本,獲取檢索請求query中的每一個子詞相對于在所述query與該子詞相鄰的子詞的文本偏移差dpage,dpage表示一個子詞在該待排序文本中的位置相對于另一個子詞在該待排序文本中的位置的偏移,根據(jù)獲取到的文本偏移差dpage確定所述query在該待排序文本中的子詞偏離系數(shù)offset_ratio;
根據(jù)各個待排序文本對應(yīng)的子詞偏離系數(shù)offset_ratio對各個待排序文本進(jìn)行排序。
優(yōu)選的,所述獲取檢索請求query中的每一個子詞相對于在所述query與該子詞相鄰的子詞的文本偏移差dpage,包括:當(dāng)其中一個子詞ti在該待排序文本中對應(yīng)多個位置時,分別計算在所述query中與ti相鄰的子詞t(i+1)在該待排序文件中的位置相對于所述多個位置中的每一個位置的偏移,并取各個偏移中的最小值作為ti和t(i+1)在該待排序文本中的文本偏移差dpage。
優(yōu)選的,所述獲取檢索請求query中的每一個子詞相對于在所述query與該子詞相鄰的子詞的文本偏移差dpage,還包括:
當(dāng)在query中,子詞tj的位置在與其相鄰的子詞t(j+1)之前,且在一個待排序文本中,t(j+1)的位置f(j+1)在tj的位置fj之前,取位置f(j+1)相對于位置fj實(shí)際的偏移與預(yù)設(shè)值M的和作為位置f(j+1)相對于位置fj的偏移,根據(jù)t(j+1)所在的位置相對于tj所在的位置的偏移確定子詞tj和t(j+1)在該待排序文本中的文本偏移差dpage(j+1),tj,其中M大于0。
優(yōu)選的,所述根據(jù)獲取到的文本偏移差dpage確定所述query在該待排序文本中的子詞偏離系數(shù)offset_ratio之前,所述方法包括:
針對query中的每一個字詞,獲取該字詞相對于在所述query與該子詞相鄰的子詞的query偏移差dquery,dqurey用于表示一個子詞在一個query中的位置相對于另一個子詞在同一query中的位置的偏移;
針對query中的每一個字詞,獲取該字詞與在query中與該字詞相鄰的字詞的相交系數(shù),所述相交系數(shù)表示相鄰的兩個子詞所共同擁有的元素與所述兩個子詞合計擁有的元素之間的比值;
所述根據(jù)獲取到的文本偏移差dpage確定所述query在該待排序文本中的子詞偏離系數(shù)offset_ratio,具體包括:
分別獲取在query中所有相鄰的兩個子詞在該待排序文本中對應(yīng)的dpage與這兩個子詞對應(yīng)的dquery之間的差值dpos;
獲取各個dpos與對應(yīng)的相交系數(shù)之間的乘積的和作為所述query在該待排序文本中的偏離總量min_diff;
根據(jù)所述偏離總量min_diff確定所述query在該待排序文本中的子詞偏離系數(shù)offset_ratio。
優(yōu)選的,所述根據(jù)所述偏離總量min_diff確定所述query在該待排序文本中的子詞偏離系數(shù)offset_ratio,具體包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北大方正集團(tuán)有限公司;北京大學(xué);北京北大方正電子有限公司;,未經(jīng)北大方正集團(tuán)有限公司;北京大學(xué);北京北大方正電子有限公司;許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310522789.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗(yàn)設(shè)備、驗(yàn)證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點(diǎn)設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





