[發(fā)明專利]用于獲取信息的方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201810178394.8 | 申請(qǐng)日: | 2018-03-05 |
| 公開(公告)號(hào): | CN108287927B | 公開(公告)日: | 2019-10-22 |
| 發(fā)明(設(shè)計(jì))人: | 孫飛;劉明浩;鄧射衛(wèi);韓超;朱翰聞;張發(fā)恩;郭江亮;唐進(jìn);尹世明 | 申請(qǐng)(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號(hào): | G06F16/332 | 分類號(hào): | G06F16/332 |
| 代理公司: | 北京英賽嘉華知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11204 | 代理人: | 王達(dá)佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 待處理文件 內(nèi)容關(guān)鍵詞 獲取信息 位置查詢 文件內(nèi)容 表征結(jié)構(gòu) 查詢目標(biāo) 查找文件 對(duì)應(yīng)文件 目標(biāo)信息 輸入信息 申請(qǐng) | ||
本申請(qǐng)實(shí)施例公開了用于獲取信息的方法及裝置。該方法的一具體實(shí)施方式包括:從接收的待處理輸入信息中提取至少一個(gè)結(jié)構(gòu)關(guān)鍵詞和至少一個(gè)內(nèi)容關(guān)鍵詞,其中,結(jié)構(gòu)關(guān)鍵詞用于查找文件中對(duì)應(yīng)文件結(jié)構(gòu)的文件內(nèi)容,內(nèi)容關(guān)鍵詞用于從結(jié)構(gòu)關(guān)鍵詞對(duì)應(yīng)的文件內(nèi)容中查詢目標(biāo)信息;將上述至少一個(gè)結(jié)構(gòu)關(guān)鍵詞導(dǎo)入預(yù)先訓(xùn)練的位置查詢模型,得到對(duì)應(yīng)結(jié)構(gòu)關(guān)鍵詞的至少一個(gè)待處理文件內(nèi)容,上述位置查詢模型用于表征結(jié)構(gòu)關(guān)鍵詞與待處理文件內(nèi)容之間的對(duì)應(yīng)關(guān)系;將包含上述至少一個(gè)內(nèi)容關(guān)鍵詞的待處理文件內(nèi)容作為目標(biāo)信息。該實(shí)施方式提高了獲取信息的準(zhǔn)確性和有效性。
技術(shù)領(lǐng)域
本申請(qǐng)實(shí)施例涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及用于獲取信息的方法及裝置。
背景技術(shù)
隨著信息技術(shù)的發(fā)展,海量的數(shù)據(jù)通過(guò)多種方式在用戶的終端設(shè)備之間傳輸,極大地提高了用戶獲取信息的效率。用戶在獲取信息前,通常首先需要通過(guò)與需要的信息相關(guān)的關(guān)鍵詞等進(jìn)行信息搜索獲取到搜索信息;然后再?gòu)乃阉餍畔⒅刑暨x需要的信息。
發(fā)明內(nèi)容
本申請(qǐng)實(shí)施例的目的在于提出了用于獲取信息的方法及裝置。
第一方面,本申請(qǐng)實(shí)施例提供了一種用于獲取信息的方法,該方法包括:從接收的待處理輸入信息中提取至少一個(gè)結(jié)構(gòu)關(guān)鍵詞和至少一個(gè)內(nèi)容關(guān)鍵詞,其中,結(jié)構(gòu)關(guān)鍵詞用于查找文件中對(duì)應(yīng)文件結(jié)構(gòu)的文件內(nèi)容,文件結(jié)構(gòu)用于對(duì)文件的內(nèi)容進(jìn)行劃分,內(nèi)容關(guān)鍵詞用于從結(jié)構(gòu)關(guān)鍵詞對(duì)應(yīng)的文件內(nèi)容中查詢目標(biāo)信息;將上述至少一個(gè)結(jié)構(gòu)關(guān)鍵詞導(dǎo)入預(yù)先訓(xùn)練的位置查詢模型,得到對(duì)應(yīng)結(jié)構(gòu)關(guān)鍵詞的至少一個(gè)待處理文件內(nèi)容,上述位置查詢模型用于表征結(jié)構(gòu)關(guān)鍵詞與待處理文件內(nèi)容之間的對(duì)應(yīng)關(guān)系;將包含上述至少一個(gè)內(nèi)容關(guān)鍵詞的待處理文件內(nèi)容作為目標(biāo)信息。
在一些實(shí)施例中,上述方法包括構(gòu)建位置查詢模型的步驟,上述構(gòu)建位置查詢模型的步驟包括:將歷史文件按照文件類型進(jìn)行劃分,得到至少一種文件類型的文件集合;對(duì)于上述至少一種文件類型的文件集合中的每一個(gè)文件集合,獲取該文件集合中文件的結(jié)構(gòu)信息,從結(jié)構(gòu)信息中提取結(jié)構(gòu)關(guān)鍵詞,上述結(jié)構(gòu)信息用于對(duì)文件的文件內(nèi)容進(jìn)行劃分;利用機(jī)器學(xué)習(xí)方法,將結(jié)構(gòu)關(guān)鍵詞作為輸入,將與結(jié)構(gòu)關(guān)鍵詞對(duì)應(yīng)的文件內(nèi)容作為輸出,訓(xùn)練得到位置查詢模型。
在一些實(shí)施例中,上述獲取該文件類型的文件的結(jié)構(gòu)信息,包括:若與文件類型對(duì)應(yīng)的文件沒(méi)有結(jié)構(gòu)信息,則為該文件類型對(duì)應(yīng)的文件設(shè)置結(jié)構(gòu)信息。
在一些實(shí)施例中,上述構(gòu)建位置查詢模型的步驟包括:通過(guò)文件類型和結(jié)構(gòu)關(guān)鍵詞建立結(jié)構(gòu)關(guān)鍵詞查詢表。
在一些實(shí)施例中,上述從接收的待處理輸入信息中提取至少一個(gè)結(jié)構(gòu)關(guān)鍵詞和至少一個(gè)內(nèi)容關(guān)鍵詞包括:通過(guò)待處理輸入信息中的詞條組成詞條集合;將上述詞條集合中包含在上述結(jié)構(gòu)關(guān)鍵詞查詢表中的詞條作為結(jié)構(gòu)關(guān)鍵詞。
第二方面,本申請(qǐng)實(shí)施例提供了一種用于獲取信息的裝置,該裝置包括:關(guān)鍵詞提取單元,用于從接收的待處理輸入信息中提取至少一個(gè)結(jié)構(gòu)關(guān)鍵詞和至少一個(gè)內(nèi)容關(guān)鍵詞,其中,結(jié)構(gòu)關(guān)鍵詞用于查找文件中對(duì)應(yīng)文件結(jié)構(gòu)的文件內(nèi)容,文件結(jié)構(gòu)用于對(duì)文件的內(nèi)容進(jìn)行劃分,內(nèi)容關(guān)鍵詞用于從結(jié)構(gòu)關(guān)鍵詞對(duì)應(yīng)的文件內(nèi)容中查詢目標(biāo)信息;待處理文件內(nèi)容獲取單元,用于將上述至少一個(gè)結(jié)構(gòu)關(guān)鍵詞導(dǎo)入預(yù)先訓(xùn)練的位置查詢模型,得到對(duì)應(yīng)結(jié)構(gòu)關(guān)鍵詞的至少一個(gè)待處理文件內(nèi)容,上述位置查詢模型用于表征結(jié)構(gòu)關(guān)鍵詞與待處理文件內(nèi)容之間的對(duì)應(yīng)關(guān)系;目標(biāo)信息篩選單元,用于將包含上述至少一個(gè)內(nèi)容關(guān)鍵詞的待處理文件內(nèi)容作為目標(biāo)信息。
在一些實(shí)施例中,上述裝置包括位置查詢模型構(gòu)建單元,用于構(gòu)建位置查詢模型,上述位置查詢模型構(gòu)建單元包括:文件類型劃分子單元,用于將歷史文件按照文件類型進(jìn)行劃分,得到至少一種文件類型的文件集合;結(jié)構(gòu)關(guān)鍵詞提取子單元,用于對(duì)于上述至少一種文件類型的文件集合中的每一個(gè)文件集合,獲取該文件集合中文件的結(jié)構(gòu)信息,從結(jié)構(gòu)信息中提取結(jié)構(gòu)關(guān)鍵詞,上述結(jié)構(gòu)信息用于對(duì)文件的文件內(nèi)容進(jìn)行劃分;位置查詢模型構(gòu)建子單元,用于利用機(jī)器學(xué)習(xí)方法,將結(jié)構(gòu)關(guān)鍵詞作為輸入,將與結(jié)構(gòu)關(guān)鍵詞對(duì)應(yīng)的文件內(nèi)容作為輸出,訓(xùn)練得到位置查詢模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810178394.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 電子讀物制作和瀏覽的新的方法、裝置以及系統(tǒng)
- 信息訂閱處理裝置和信息訂閱處理方法
- 一種移動(dòng)互聯(lián)網(wǎng)關(guān)鍵詞廣告投放方法
- 關(guān)于通信內(nèi)容的信息提示方法和裝置
- 確定備選展示內(nèi)容的方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)頁(yè)敏感信息的檢測(cè)方法、裝置及電子設(shè)備
- 用于獲取信息的方法及裝置
- 搜索內(nèi)容處理方法、裝置及存儲(chǔ)設(shè)備、計(jì)算機(jī)設(shè)備
- 情感對(duì)話內(nèi)容的生成方法和系統(tǒng)、存儲(chǔ)介質(zhì)
- 意圖詞的確定方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)





