[發(fā)明專利]網(wǎng)頁主題句的抽取方法及裝置在審
| 申請?zhí)枺?/td> | 201510818653.5 | 申請日: | 2015-11-20 |
| 公開(公告)號: | CN105488024A | 公開(公告)日: | 2016-04-13 |
| 發(fā)明(設(shè)計(jì))人: | 李晨堯;曾洪雷 | 申請(專利權(quán))人: | 廣州神馬移動信息科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G06N3/08 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 510627 廣東省廣州市天河區(qū)黃埔大*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁 主題 抽取 方法 裝置 | ||
1.一種網(wǎng)頁主題句的抽取方法,其特征在于,包括:
獲取待確定網(wǎng)頁、以及預(yù)先構(gòu)建的機(jī)器學(xué)習(xí)模型;其中,所述待確定網(wǎng)頁中包含多個預(yù) 選取的備選主題句,每個所述備選主題句中包含若干分詞;
將表示所述分詞在待確定網(wǎng)頁中重要程度的詞語特征值輸入至所述機(jī)器學(xué)習(xí)模型,獲 得所述分詞的偏序值;
依據(jù)每個所述備選主題句包含的分詞的偏序值,確定每個所述備選主題句各自的偏序 值;
將偏序值大于預(yù)設(shè)閾值的備選主題句確定為目標(biāo)主題句。
2.根據(jù)權(quán)利要求1所述的網(wǎng)頁主題句的抽取方法,其特征在于,所述機(jī)器學(xué)習(xí)模型的構(gòu) 建方法具體包括:
獲取若干網(wǎng)頁樣本的網(wǎng)頁標(biāo)題;其中,每個所述網(wǎng)頁樣本均對應(yīng)若干用于召回網(wǎng)頁樣 本自身的查詢語句,每個所述查詢語句均具有權(quán)重值,所述權(quán)重值用于表示查詢語句與該 查詢語句召回的網(wǎng)頁樣本之間的關(guān)聯(lián)程度;
針對每個所述網(wǎng)頁標(biāo)題,依據(jù)標(biāo)注值公式
其中,所述termj表示網(wǎng)頁標(biāo)題中包含的第j個分詞,label(termj)表示分詞termj的標(biāo) 注值,m表示某一個查詢語句,k表示所述查詢語句的個數(shù),vm表示查詢語句m的權(quán)重值,wm(termj)表示分詞termj在查詢語句m中的權(quán)重值,n表示網(wǎng)頁標(biāo)題中的某一個分詞,s表示網(wǎng) 頁標(biāo)題中分詞的個數(shù);
針對每個所述網(wǎng)頁標(biāo)題,確定所述網(wǎng)頁標(biāo)題包含的每個分詞用于表示分詞在網(wǎng)頁樣本 中的重要程度的詞語特征值;
依據(jù)預(yù)設(shè)的機(jī)器訓(xùn)練算法,對所述若干網(wǎng)頁標(biāo)題中每個分詞的標(biāo)注值及詞語特征值進(jìn) 行訓(xùn)練,獲得機(jī)器學(xué)習(xí)模型。
3.根據(jù)權(quán)利要求2所述的網(wǎng)頁主題句的抽取方法,其特征在于,所述機(jī)器訓(xùn)練算法為 GBRank訓(xùn)練算法,所述GBRank訓(xùn)練算法中的偏序比較方式為pairwise偏序比較,所述 GBRank訓(xùn)練算法中的損失函數(shù)為交叉熵。
4.根據(jù)權(quán)利要求1所述的網(wǎng)頁主題句的抽取方法,其特征在于,所述依據(jù)每個所述備選 主題句包含的分詞的偏序值,確定每個所述備選主題句各自的偏序值,包括:
針對每個所述備選主題句,將所述備選主題句中分詞的偏序值進(jìn)行加權(quán)求和,獲得所 述備選主題句的偏序值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州神馬移動信息科技有限公司,未經(jīng)廣州神馬移動信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510818653.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





