[發(fā)明專利]基于知識網(wǎng)絡(luò)的文本標(biāo)引系統(tǒng)及其方法有效
| 申請?zhí)枺?/td> | 201010168526.2 | 申請日: | 2010-05-11 |
| 公開(公告)號: | CN102207945A | 公開(公告)日: | 2011-10-05 |
| 發(fā)明(設(shè)計(jì))人: | 張偉偉;張旭成;孫威;宋傳寶;陶鵬 | 申請(專利權(quán))人: | 天津海量信息技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京汲智翼成知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11381 | 代理人: | 陳曦 |
| 地址: | 300384 天津市華苑*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 知識 網(wǎng)絡(luò) 文本 標(biāo)引 系統(tǒng) 及其 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種實(shí)現(xiàn)文本標(biāo)引的系統(tǒng)及其方法,尤其涉及一種在文本信息處理的過程中,基于知識網(wǎng)絡(luò)(Knowledge?Network)實(shí)現(xiàn)的文本標(biāo)引系統(tǒng)及文本標(biāo)引方法,屬于文本信息處理技術(shù)領(lǐng)域。
背景技術(shù)
文本是最基本、最常用的信息載體。隨著互聯(lián)網(wǎng)的日益普及,文本信息迅速膨脹。例如,在Internet上每天有數(shù)十萬的網(wǎng)頁更新,數(shù)百萬新的網(wǎng)頁加入,使得Internet上的信息豐富而又復(fù)雜。如何有效地組織和管理這些信息,并快速、準(zhǔn)確、全面地從中找到用戶所需要的信息是當(dāng)前文本信息處理領(lǐng)域面臨的一大挑戰(zhàn)。
在文本信息處理工作中,文本的內(nèi)容詞提取、類別標(biāo)注和短語(phrase)的提取(統(tǒng)稱為文本標(biāo)引)一直是有關(guān)科研人員進(jìn)行研究的一個(gè)主要問題。如何系統(tǒng)地整合這些功能在一個(gè)文本標(biāo)引框架下,并能持續(xù)互相改進(jìn),將是一個(gè)非常有意義的工作。
在申請?zhí)枮?00710000966.5的中國發(fā)明專利申請中,提出了一種相關(guān)信息的發(fā)布方法和裝置。該方法包括以下步驟:收集互聯(lián)網(wǎng)中符合預(yù)置條件的網(wǎng)絡(luò)文本;計(jì)算得到網(wǎng)絡(luò)文本相應(yīng)的文本特征參數(shù);比對特征參數(shù),依次完成網(wǎng)絡(luò)文本的歸類;發(fā)布相應(yīng)的相關(guān)信息。該方法能夠在用戶不關(guān)心當(dāng)前瀏覽文本關(guān)鍵詞的情況下,發(fā)布最準(zhǔn)確的相關(guān)信息,以及能夠準(zhǔn)確的將相關(guān)信息發(fā)布至終端用戶的虛擬空間,以滿足互聯(lián)網(wǎng)相關(guān)信息發(fā)布的發(fā)展需要。
另外,在申請?zhí)枮?00810079685.8的中國發(fā)明專利申請中,提出了一種基于數(shù)據(jù)挖掘技術(shù)的文本多精度表示方法。它利用數(shù)據(jù)挖掘技術(shù)從海量文本中發(fā)現(xiàn)重要的文本特征信息,這些特征信息是多層次、多精度的。利用這些特征形成文本的精確表示,計(jì)算機(jī)基于這種精確的文本表示進(jìn)行文本檢索、聚類和分類等處理,能產(chǎn)生更佳的效果。
互聯(lián)網(wǎng)搜索引擎是文本信息處理技術(shù)的具體應(yīng)用之一。但是,現(xiàn)有的互聯(lián)網(wǎng)搜索引擎普遍采用基于關(guān)鍵詞的索引機(jī)制,很容易將籃球的火箭隊(duì)與火箭發(fā)動機(jī)混為一談,嚴(yán)重影響用戶檢索時(shí)獲取所需要的知識的效率。目前,人們利用知識網(wǎng)絡(luò)來研究人及企業(yè)間的知識傳播、合作及創(chuàng)新行為,表示各類知識資源,分析個(gè)人及組織知識體系的結(jié)構(gòu)、組成等,但沒有在文本標(biāo)引技術(shù)中使用知識網(wǎng)絡(luò)的成熟技術(shù)方案。雖然在專利號為ZL?200510050198.5的中國發(fā)明專利中,浙江大學(xué)的研究人員提出了一種基于鏈接分析的個(gè)性化搜索引擎方法,是通過建立知識網(wǎng)絡(luò)模型描述用戶興趣,建立多態(tài)鏈接網(wǎng)絡(luò)記錄網(wǎng)絡(luò)節(jié)點(diǎn)之間鏈接的不同類別,進(jìn)而在此基礎(chǔ)上展開鏈接分析得到搜索結(jié)果。但是,該個(gè)性化搜索引擎方法建立在多態(tài)鏈接網(wǎng)絡(luò)基礎(chǔ)上,適用面有限,不能在文本標(biāo)引技術(shù)中得到有效使用。
發(fā)明內(nèi)容
本發(fā)明所要解決的首要技術(shù)問題在于提供一種基于知識網(wǎng)絡(luò)的文本標(biāo)引系統(tǒng)。該系統(tǒng)可以在一個(gè)統(tǒng)一平臺下,提供若干種不同的維度索引,有效解決現(xiàn)有文本標(biāo)引技術(shù)準(zhǔn)確率低的問題。
本發(fā)明所要解決的另外一個(gè)技術(shù)問題在于提供上述文本標(biāo)引系統(tǒng)進(jìn)行文本標(biāo)引的具體方法。
為實(shí)現(xiàn)上述的發(fā)明目的,本發(fā)明采用下述的技術(shù)方案:
一種基于知識網(wǎng)絡(luò)的文本標(biāo)引系統(tǒng),其特征在于:
所述文本標(biāo)引系統(tǒng)包括單文本特征提取單元、多文本詞關(guān)系提取單元、知識樹生成單元、知識樹應(yīng)用單元以及知識庫存儲單元;其中,
所述單文本特征提取單元接收非結(jié)構(gòu)化的文檔,提取文檔中的內(nèi)容關(guān)鍵詞并送入所述多文本詞關(guān)系提取單元;
所述多文本詞關(guān)系提取單元與所述知識樹生成單元中的知識樹操作模型進(jìn)行連接,用于完成多文本詞之間的關(guān)系提取以及聚類工作;
所述知識樹生成單元包括網(wǎng)頁結(jié)構(gòu)化信息模塊、知識樹初始化模塊、屬性存儲模塊、知識樹存儲模塊、知識樹操作模型和知識樹運(yùn)營平臺,所述網(wǎng)頁結(jié)構(gòu)化信息模塊連接所述知識樹初始化模塊,所述知識樹初始化模塊連接所述知識樹存儲模塊,所述屬性存儲模塊也連接所述知識樹存儲模塊,所述知識樹存儲模塊和所述知識樹運(yùn)營平臺分別與所述知識樹操作模型進(jìn)行雙向的信息交互;
所述知識庫存儲單元分別與所述知識樹操作模型和所述單文本特征提取單元進(jìn)行連接,用于提供分類用知識庫,所述知識樹存儲模塊將相關(guān)的應(yīng)用導(dǎo)出至所述知識樹應(yīng)用單元。
其中,所述多文本詞關(guān)系提取單元包括針對語義網(wǎng)絡(luò)的關(guān)系挖掘模塊、詞間網(wǎng)絡(luò)關(guān)系數(shù)據(jù)模塊和詞與TAG間關(guān)系數(shù)據(jù)模塊,其中該關(guān)系挖掘模塊一方面連接所述單文本特征提取單元中的關(guān)鍵詞提取模塊,另一方面分別連接詞間網(wǎng)絡(luò)關(guān)系數(shù)據(jù)模塊和詞與TAG間關(guān)系數(shù)據(jù)模塊。
所述知識樹操作模型分別與所述多文本詞關(guān)系提取單元中的詞間網(wǎng)絡(luò)關(guān)系數(shù)據(jù)模塊和詞與TAG間關(guān)系數(shù)據(jù)模塊進(jìn)行連接。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津海量信息技術(shù)有限公司,未經(jīng)天津海量信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010168526.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





