[發(fā)明專利]基于關(guān)鍵詞抽取的多文本對照方法有效
| 申請?zhí)枺?/td> | 201410031338.3 | 申請日: | 2014-01-23 |
| 公開(公告)號: | CN103744837B | 公開(公告)日: | 2017-01-04 |
| 發(fā)明(設(shè)計(jì))人: | 陳里波;胡子揚(yáng);祁點(diǎn)點(diǎn) | 申請(專利權(quán))人: | 北京優(yōu)捷信達(dá)信息科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 蘇州市中南偉業(yè)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)32257 | 代理人: | 李廣 |
| 地址: | 100123 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 關(guān)鍵詞 抽取 文本 對照 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及文本識別領(lǐng)域,更具體的說,涉及一種基于關(guān)鍵詞抽取的多文本對照方法。
背景技術(shù)
統(tǒng)計(jì)和分析大量文本信息的一種常用技術(shù)就是關(guān)鍵詞提取。通常情況下,受制于人力和時(shí)間資源,人們無法逐字閱讀海量的文本庫。關(guān)鍵詞抽取技術(shù)的目標(biāo),就是找出文本里最能體現(xiàn)文本主旨的詞匯,方便快速瀏覽,甄選信息。
專利文獻(xiàn)CN101216825公開了一種預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的方法,該方法包括:獲取訓(xùn)練數(shù)據(jù)集,根據(jù)所獲取的訓(xùn)練數(shù)據(jù)集訓(xùn)練決策樹;利用訓(xùn)練得到的決策樹生成標(biāo)引關(guān)鍵詞的過濾器;利用訓(xùn)練得到的決策樹和所生成的過濾器,預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞。該思路是從文本中過濾、剪除非核心詞匯,保留下來的作為關(guān)鍵詞。這種方法較適用于目標(biāo)關(guān)鍵詞集很小的應(yīng)用。
專利文獻(xiàn)CN103399901A描述了一種基本的關(guān)鍵詞抽取方法。先對文本進(jìn)行預(yù)處理;基于預(yù)處理后的文本,統(tǒng)計(jì)詞頻和詞對的共現(xiàn)信息;將詞頻大于或等于預(yù)設(shè)閾值的詞作為候選關(guān)鍵詞;根據(jù)詞對的共現(xiàn)信息,計(jì)算各候選關(guān)鍵詞對文本的重要性;根據(jù)計(jì)算結(jié)果,對候選關(guān)鍵詞進(jìn)行排序,將前N個(gè)候選關(guān)鍵詞作為文本的關(guān)鍵詞。這種方法在傳統(tǒng)關(guān)鍵詞提取方法的基礎(chǔ)上,添加詞對共現(xiàn)信息作為關(guān)鍵詞對于文本的重要程度的衡量標(biāo)準(zhǔn),可提高關(guān)鍵詞抽取的精度。
專利文獻(xiàn)CN101196904提供了一種基于詞頻和多元文法的新聞關(guān)鍵詞抽取方法。通過挖掘文本中潛在關(guān)鍵詞的多元文法的詞性模式,將其作為關(guān)鍵詞抽取算法的依據(jù)。在進(jìn)行新聞關(guān)鍵詞抽取時(shí),首先根據(jù)潛在詞性模式挖掘文本中的多元詞組,抽取關(guān)鍵詞的候選詞集,然后從標(biāo)題中挖掘未登錄的潛在關(guān)鍵詞,將潛在關(guān)鍵詞也加入候選關(guān)鍵詞集中。這種方法可以抽取符合詞性模式的多元詞組,通常這樣的詞組表述是連貫的、有意義的。
實(shí)際應(yīng)用中,人們往往需要對比討論相同或相近主題的不同文本彼此間有何異同,從對照中發(fā)現(xiàn)變化、分析潛在規(guī)律。常用關(guān)鍵詞提取方法無法滿足這一需求。關(guān)鍵詞是被定義為最能體現(xiàn)文本主旨的少量核心詞匯,因而從相同或相近主題的文本中提取的關(guān)鍵詞也必定是相同或相似的,所以我們無法單從提取出的關(guān)鍵詞集中區(qū)分相近主題的文本的不同側(cè)重點(diǎn)。
CN101216825公開的剔除非核心詞匯的過程,一方面需要事先準(zhǔn)備相當(dāng)數(shù)量的訓(xùn)練數(shù)據(jù)集,這提高了應(yīng)用該方法的復(fù)雜度,還需要格外注意待處理的文本與訓(xùn)練數(shù)據(jù)集中的文本的相似程度。另一方面,該方法過濾排除非目標(biāo)關(guān)鍵詞的執(zhí)行過程,實(shí)際上也是削弱文本差異的顯著性的過程。
CN103399901A和CN101196904所述的技術(shù)方案先從單個(gè)文本中找出候選詞匯表,再從中選取最有可能表述文本主旨的詞匯作為關(guān)鍵詞輸出。CN103399901A以詞匯出現(xiàn)的頻率和詞對共現(xiàn)作為依據(jù),CN101196904以詞頻和詞性模式作為依據(jù),這兩種方法針對單文本提取關(guān)鍵字,無法顧及到多文本的異同對照。
發(fā)明內(nèi)容
本發(fā)明的目的就是提出一種不需要額外語料庫的,可供快速對比多文本異同的基于關(guān)鍵詞抽取的多文本對照方法。
本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的:
一種基于關(guān)鍵詞抽取的多文本對照方法,包括步驟:
A、把自然語言中的每一句話當(dāng)作是一個(gè)隱馬爾科夫鏈,求出詞性標(biāo)注和分詞;
B、在隱馬爾科夫鏈模型中,依用戶需要定制并加入自定義詞庫,通過把自定義詞庫中的詞設(shè)置為強(qiáng)相關(guān),在標(biāo)記詞性序列的時(shí)候,優(yōu)先將自定義詞庫中的詞結(jié)合為一個(gè)詞;
C、根據(jù)給定的詞性列表對分詞結(jié)果進(jìn)行過濾,去掉停用詞;
D、根據(jù)最終的詞性標(biāo)注和分詞進(jìn)行多文本對照。
進(jìn)一步的,所述步驟D包括:
D1、將每個(gè)文本設(shè)為一組,以組為單位統(tǒng)計(jì)對應(yīng)文本的關(guān)鍵詞的詞頻和權(quán)重;將同時(shí)出現(xiàn)在兩組或兩組以上文本的關(guān)鍵詞列入中間組;
D2、采用去重計(jì)算減少每組的重復(fù)詞匯;
D3、采用保中運(yùn)算,強(qiáng)制降低中間組中的關(guān)鍵詞在其他組出現(xiàn)的頻率。
進(jìn)一步的,所述步驟D1中,如果關(guān)鍵詞同時(shí)出現(xiàn)在兩組或兩組以上文本時(shí),其權(quán)重以詞頻最小的文本為準(zhǔn)。
進(jìn)一步的,所述步驟D2中,用一組預(yù)設(shè)的規(guī)則重新依組別判定組內(nèi)的每個(gè)關(guān)鍵詞是否能夠繼續(xù)出現(xiàn)在該組內(nèi):
組內(nèi)頻率:是指關(guān)鍵詞在特定組里的詞頻;
組間頻率:是指關(guān)鍵詞在所有組里邊出現(xiàn)的平均頻率;
只有關(guān)鍵詞A組內(nèi)詞頻與該組內(nèi)各詞的平均詞頻之比值>關(guān)鍵詞A在所有組別內(nèi)的平均詞頻與各詞在所有組別內(nèi)的平均詞頻之比值時(shí),我們才會保留關(guān)鍵詞A繼續(xù)留在特定組內(nèi),否則將從某特定組內(nèi),刪去關(guān)鍵詞A。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京優(yōu)捷信達(dá)信息科技有限公司,未經(jīng)北京優(yōu)捷信達(dá)信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410031338.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測方法和裝置
- 關(guān)鍵詞排名的檢測方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動化否定關(guān)鍵詞方法及裝置
- 一種長尾關(guān)鍵詞識別方法、關(guān)鍵詞搜索方法及計(jì)算機(jī)設(shè)備
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





