[發(fā)明專利]一種文摘生成方法及裝置在審
| 申請?zhí)枺?/td> | 201611111235.3 | 申請日: | 2016-12-02 |
| 公開(公告)號: | CN106599148A | 公開(公告)日: | 2017-04-26 |
| 發(fā)明(設(shè)計)人: | 王偉 | 申請(專利權(quán))人: | 東軟集團(tuán)股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司11227 | 代理人: | 劉曉菲,王寶筠 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文摘 生成 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言文本智能分析領(lǐng)域,尤其涉及一種文摘生成方法及裝置。
背景技術(shù)
隨著信息技術(shù)的飛速發(fā)展,信息傳輸?shù)钠款i已被打破,人們可以方便的接觸到海量的信息內(nèi)容,如何從中快速的了解信息內(nèi)容,成為當(dāng)前智能信息處理發(fā)展的方向和技術(shù)研究的熱點。特別是隨著互聯(lián)網(wǎng)上文檔信息的急劇膨脹,用于面對大量的文檔信息,迫切需要能夠有效處理這些文檔信息的工具。自動生成文摘,是以自然語言處理技術(shù)為基礎(chǔ),通過對文檔內(nèi)容進(jìn)行分析處理,自動生成文檔摘要內(nèi)容的智能文本處理應(yīng)用技術(shù)。自動生成文摘可以為用戶提供文檔內(nèi)容的概要性描述,便于用戶在有限的時間內(nèi)了解更多的文檔信息。
發(fā)明內(nèi)容
本發(fā)明提供了一種文摘生成方法和裝置,實現(xiàn)了自動生成文摘的目的。
本發(fā)明實施例提供了一種文摘生成方法,所述方法包括:
獲取待處理文本的關(guān)鍵詞集合,并分別計算所述關(guān)鍵詞集合中各個關(guān)鍵詞的權(quán)重,所述關(guān)鍵詞用于表達(dá)所述待處理文本的內(nèi)容,所述關(guān)鍵詞的權(quán)重表示所述關(guān)鍵詞在所述待處理文本中的重要程度;
以句子為單位對所述待處理文本進(jìn)行劃分,得到目標(biāo)句子;
確定所述目標(biāo)句子中包含的關(guān)鍵詞,并根據(jù)所述目標(biāo)句子中包含的關(guān)鍵詞的數(shù)量和關(guān)鍵詞的權(quán)重得到所述目標(biāo)句子的第一相似度;
根據(jù)所述目標(biāo)句子的第一相似度得到所述目標(biāo)句子是否能夠加入文摘的判斷結(jié)果。
優(yōu)選的,所述根據(jù)所述目標(biāo)句子中包含的關(guān)鍵詞的數(shù)量和關(guān)鍵詞的權(quán)重得到所述目標(biāo)句子的第一相似度包括:
將所述目標(biāo)句子中包含的關(guān)鍵詞的權(quán)重之和與所述包含的關(guān)鍵詞的數(shù)量的乘積作為所述目標(biāo)句子的第一相似度。
優(yōu)選的,所述方法還包括:
確定所述目標(biāo)句子與所述關(guān)鍵詞集合之間的語義相關(guān)度,和/或所述目標(biāo)句子在所述待處理文本中的位置;
所述根據(jù)所述目標(biāo)句子中包含的關(guān)鍵詞的數(shù)量和關(guān)鍵詞的權(quán)重得到所述目標(biāo)句子的第一相似度包括:
根據(jù)所述目標(biāo)句子與所述關(guān)鍵詞集合之間的語義相關(guān)度和所述目標(biāo)句子在所述待處理文本中的位置的至少其一,以及所述目標(biāo)句子中包含的關(guān)鍵詞的數(shù)量和關(guān)鍵詞的權(quán)重得到所述目標(biāo)句子的第一相似度。
優(yōu)選的,所述確定所述目標(biāo)句子與所述關(guān)鍵詞集合之間的語義相關(guān)度包括:
對所述目標(biāo)句子進(jìn)行分詞,得到各個特征詞;
分別計算所述關(guān)鍵詞集合中各個關(guān)鍵詞與所述目標(biāo)句子的各個特征詞之間的詞相似度;
根據(jù)所述關(guān)鍵詞集合中各個關(guān)鍵詞與所述目標(biāo)句子的各個特征詞之間的詞相似度,利用加權(quán)二部圖的最大權(quán)重匹配算法來得到所述目標(biāo)句子與所述關(guān)鍵詞集合之間的語義相關(guān)度。
優(yōu)選的,所述方法還包括:
獲取所述目標(biāo)句子與已加入文摘的文摘句之間的第二相似度;
所述根據(jù)所述目標(biāo)句子的第一相似度得到所述目標(biāo)句子是否能夠加入文摘的判斷結(jié)果包括:
根據(jù)所述目標(biāo)句子的第一相似度和所述第二相似度得到所述目標(biāo)句子是否能夠加入文摘的判斷結(jié)果。
優(yōu)選的,所述獲取所述目標(biāo)句子與已加入文摘的文摘句之間的第二相似度包括:
獲取所述目標(biāo)句子與所述已加入文摘的文摘句的重合詞,并計算所述重合詞的權(quán)重,所述重合詞的權(quán)重表示所述重合詞在所述文本中的重要程度;
根據(jù)所述目標(biāo)句子中包含的重合詞的數(shù)量和重合詞的權(quán)重,得到所述目標(biāo)句子與已加入文摘的文摘句之間的第二相似度。
優(yōu)選的,所述根據(jù)所述目標(biāo)句子中包含的重合詞的數(shù)量和重合詞的權(quán)重,得到所述目標(biāo)句子與已加入文摘的文摘句之間的第二相似度包括:
將所述目標(biāo)句子中包含的重合詞的權(quán)重之和,與包含的重合詞的數(shù)量的乘積,作為所述目標(biāo)句子與已加入文摘的文摘句之間的第二相似度。
優(yōu)選的,所述獲取所述目標(biāo)句子與已加入文摘的文摘句之間的第二相似度還包括:
獲取所述目標(biāo)句子與所述已加入文摘的文摘句之間的語義相似度;
所述根據(jù)所述目標(biāo)句子中包含的重合詞的數(shù)量和重合詞的權(quán)重,得到所述目標(biāo)句子與已加入文摘的文摘句之間的第二相似度包括:
根據(jù)所述目標(biāo)句子中包含的重合詞的數(shù)量和重合詞的權(quán)重,以及所述目標(biāo)句子與所述已加入文摘的文摘句之間的語義相似度,得到所述目標(biāo)句子與已加入文摘的文摘句之間的第二相似度。
優(yōu)選的,所述方法還包括:
若所述目標(biāo)句子為對所述待處理文本進(jìn)行劃分得到的句子集合中第一相似度最高的句子,則將所述目標(biāo)句子加入所述文摘作為首個文摘句。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東軟集團(tuán)股份有限公司,未經(jīng)東軟集團(tuán)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611111235.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種瀏覽器瀏覽記錄的管理方法及裝置
- 下一篇:一種工程文本的編碼方法





