[發(fā)明專利]一種信息挖掘方法和裝置、一種用于信息挖掘的裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201710062815.6 | 申請(qǐng)日: | 2017-01-25 |
| 公開(公告)號(hào): | CN108345625B | 公開(公告)日: | 2022-09-30 |
| 發(fā)明(設(shè)計(jì))人: | 邸楠;尹順順;鄧超 | 申請(qǐng)(專利權(quán))人: | 北京搜狗科技發(fā)展有限公司 |
| 主分類號(hào): | G06F16/9535 | 分類號(hào): | G06F16/9535;G06F16/33 |
| 代理公司: | 北京潤(rùn)澤恒知識(shí)產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 劉祥景 |
| 地址: | 100084 北京市海淀區(qū)中關(guān)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 信息 挖掘 方法 裝置 用于 | ||
本發(fā)明實(shí)施例提供了一種信息挖掘方法和裝置、一種用于信息挖掘的裝置,其中的方法具體包括:從網(wǎng)頁(yè)文本語(yǔ)料中獲取包含預(yù)置謂語(yǔ)的目標(biāo)語(yǔ)句;從所述目標(biāo)語(yǔ)句對(duì)應(yīng)的句法分析結(jié)果中提取主語(yǔ)和賓語(yǔ);依據(jù)提取得到的主語(yǔ)和賓語(yǔ),建立實(shí)體?屬性對(duì),并保存所述實(shí)體?屬性對(duì)。本發(fā)明實(shí)施例可以從時(shí)效性更強(qiáng)的網(wǎng)頁(yè)文本中及時(shí)地挖掘出新增實(shí)體或者實(shí)體的最新屬性,進(jìn)而能夠提高實(shí)體信息的時(shí)效性。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)信息技術(shù)領(lǐng)域,特別是涉及一種信息挖掘方法和裝置、一種用于信息挖掘的裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)信息技術(shù),特別是無(wú)線互聯(lián)網(wǎng)信息技術(shù)的快速發(fā)展,信息服務(wù)變得越來(lái)越普遍。信息服務(wù)提供商提供信息服務(wù)時(shí),例如,搜索引擎提供搜索服務(wù)等,通常會(huì)利用實(shí)體提供信息服務(wù)。具體地,可將現(xiàn)實(shí)世界中的客觀事物稱為實(shí)體,例如概念、事物或事件等。舉例來(lái)說(shuō),影視劇“劇名A”、明星“人名A”、作家“人名B”都是實(shí)體的實(shí)例。同時(shí),每個(gè)實(shí)體具有屬性,屬性反映實(shí)體的相關(guān)信息,例如,“題材A”、“174cm”、“民族A”分別是上述實(shí)體“劇名A”、“人名A”、“人名B”對(duì)應(yīng)的屬性。
現(xiàn)有的信息挖掘方案可以從網(wǎng)站的結(jié)構(gòu)化數(shù)據(jù)中定向抓取實(shí)體屬性對(duì),抓取的實(shí)體屬性對(duì)中,一個(gè)實(shí)體可以包括多個(gè)屬性。例如,“人名B”對(duì)應(yīng)的屬性可以包括:“出生地”、“畢業(yè)院校”、“信仰”、“界別”、“民族”、“職務(wù)”、“國(guó)籍”、“代表作品”、“出生日期”、“身高”、“成名作品”、“所獲榮譽(yù)”等。現(xiàn)有的信息挖掘方案具有較高的挖掘精度和挖掘效率。
在實(shí)際應(yīng)用中,隨著互聯(lián)網(wǎng)信息技術(shù)的發(fā)展,實(shí)體或者實(shí)體對(duì)應(yīng)屬性的更新速度較快,這樣,將出現(xiàn)新增實(shí)體或者實(shí)體的屬性發(fā)生變化等。例如,隨著時(shí)間的推移,將新增網(wǎng)絡(luò)流行的實(shí)體“實(shí)體A”、“實(shí)體B”等;或者,隨著時(shí)間的推移,實(shí)體“人名C”對(duì)應(yīng)的“主要成就”、“目標(biāo)”等屬性將發(fā)生變化,例如,在2016百富榜公布后,其對(duì)應(yīng)的“主要成就”將新增“2016中國(guó)首富”。然而,網(wǎng)站的結(jié)構(gòu)化數(shù)據(jù)對(duì)于實(shí)體或者實(shí)體對(duì)應(yīng)屬性的更新速度通常低于實(shí)體或者實(shí)體對(duì)應(yīng)屬性本身的更新速度,因此,現(xiàn)有的信息挖掘方案將無(wú)法及時(shí)地挖掘出新增實(shí)體或者實(shí)體的最新屬性。
發(fā)明內(nèi)容
鑒于上述問(wèn)題,提出了本發(fā)明實(shí)施例以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的信息挖掘方法、信息挖掘裝置及用于信息挖掘的裝置,本發(fā)明實(shí)施例可以從時(shí)效性更強(qiáng)的網(wǎng)頁(yè)文本中及時(shí)地挖掘出新增實(shí)體或者實(shí)體的最新屬性,進(jìn)而能夠提高實(shí)體信息的時(shí)效性。
為了解決上述問(wèn)題,本發(fā)明公開了一種信息挖掘方法,包括:
從網(wǎng)頁(yè)文本語(yǔ)料中獲取包含預(yù)置謂語(yǔ)的目標(biāo)語(yǔ)句;
從所述目標(biāo)語(yǔ)句對(duì)應(yīng)的句法分析結(jié)果中提取主語(yǔ)和賓語(yǔ);
依據(jù)提取得到的主語(yǔ)和賓語(yǔ),建立實(shí)體-屬性對(duì),并保存所述實(shí)體-屬性對(duì)。
另一方面,本發(fā)明公開了一種信息挖掘裝置,包括:
目標(biāo)語(yǔ)句獲取模塊,用于從網(wǎng)頁(yè)文本語(yǔ)料中獲取包含預(yù)置謂語(yǔ)的目標(biāo)語(yǔ)句;
主賓提取模塊,用于從所述目標(biāo)語(yǔ)句對(duì)應(yīng)的句法分析結(jié)果中提取主語(yǔ)和賓語(yǔ);
實(shí)體屬性對(duì)建立模塊,用于依據(jù)提取得到的主語(yǔ)和賓語(yǔ),建立實(shí)體-屬性對(duì);以及
實(shí)體屬性對(duì)保存模塊,用于保存所述實(shí)體-屬性對(duì)。
可選地,所述裝置還包括:
關(guān)鍵屬性獲取模塊,用于從實(shí)體對(duì)應(yīng)的多個(gè)屬性中獲取對(duì)所述實(shí)體有指向性的關(guān)鍵屬性;
實(shí)體關(guān)鍵屬性對(duì)建立模塊,用于依據(jù)所述實(shí)體和所述關(guān)鍵屬性,建立實(shí)體-關(guān)鍵屬性對(duì);
實(shí)體關(guān)鍵屬性對(duì)保存模塊,用于保存所述實(shí)體-關(guān)鍵屬性對(duì)。
可選地,所述關(guān)鍵屬性獲取模塊包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京搜狗科技發(fā)展有限公司,未經(jīng)北京搜狗科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710062815.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





