[發明專利]提取文檔關鍵句的方法及裝置在審
| 申請號: | 201510587652.4 | 申請日: | 2015-09-15 |
| 公開(公告)號: | CN105243053A | 公開(公告)日: | 2016-01-13 |
| 發明(設計)人: | 姜迪;石磊;連榮忠;殷瑞;蔣佳軍 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/62 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆;胡彬 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 提取 文檔 關鍵 方法 裝置 | ||
技術領域
本發明實施例涉及信息技術領域,尤其涉及一種提取文檔關鍵句的方法及裝置。
背景技術
在互聯網快速發展的今天,信息獲取已不再是一個難題,而如何從成千上萬的信息中快速篩選出有效信息才是我們面臨的挑戰。而文檔關鍵句可以簡明扼要地歸納文檔信息,不僅可以使用戶快速獲取文檔的主要信息,而且顯著降低了用戶獲取信息的時間成本。然而,如何從包含大量信息的文檔中自動提取出關鍵句仍然存在巨大的挑戰。
目前,文檔關鍵句抽取的方法,主要是利用了詞頻、位置和關鍵詞等統計信息對文檔信息進行抽取,得到關鍵句。主要包括以下步驟:A、統計文檔中出現的高頻詞匯;B、定位高頻詞匯所在的句子;C、根據句子在文檔中的出現位置及句子中包含的關鍵詞,對每個句子進行評分;D、將評分最高的句子作為文檔的關鍵句。
但是,上述關鍵詞提取方法只利用到了詞頻和位置等信息,忽略了語義上的信息,生成的關鍵句并不能精確反應文檔的信息。
發明內容
本發明實施例提供一種提取文檔關鍵句的方法及裝置,能夠精確提取出表達文檔信息的關鍵句。
第一方面,本發明實施例提供了一種提取文檔關鍵句的方法,包括:
根據層級語義向量模型訓練得到與文檔相關的句子向量和文檔向量,所述層級語義向量模型包含預先根據文檔訓練資料庫訓練得到的句子向量更新公式和文檔向量更新公式;
計算所述句子向量和所述文檔向量之間的相關性;
選取所述相關性滿足預設條件的句子向量對應的句子作為所述文檔的第一關鍵句。
第二方面,本發明實施例還提供一種提取文檔關鍵句的裝置,包括:
向量訓練模塊,用于根據層級語義向量模型訓練得到與文檔相關的句子向量和文檔向量,所述層級語義向量模型包含預先根據文檔訓練資料庫訓練得到的句子向量更新公式和文檔向量更新公式;
相關性計算模塊,用于計算所述句子向量和所述文檔向量之間的相關性;
關鍵句選取模塊,用于選取所述相關性滿足預設條件的句子向量對應的句子作為所述文檔的第一關鍵句。
本發明實施例通過根據層級語義向量模型訓練得到與文檔相關的句子向量和文檔向量,所述層級語義向量模型包含預先根據文檔訓練資料庫訓練得到的句子向量更新公式和文檔向量更新公式;計算所述句子向量和所述文檔向量之間的相關性;選取所述相關性滿足預設條件的句子向量對應的句子作為所述文檔的第一關鍵句。本發明實施例能夠提取出的精確表達文檔信息的關鍵詞信息。
附圖說明
圖1為本發明實施例一提供的提取文檔關鍵句的方法的流程示意圖;
圖2為本發明實施例二提供的提取文檔關鍵句的裝置的結構示意圖。
具體實施方式
下面結合附圖和實施例對本發明作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用于解釋本發明,而非對本發明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發明相關的部分而非全部結構。
本發明實施例提供的提取文檔關鍵句的方法的執行主體,可為本發明實施例提供的提取文檔關鍵句的裝置,或者集成了提取文檔關鍵句的裝置的終端設備(例如,智能手機、平板電腦等),該提取文檔關鍵句的裝置可以采用硬件或軟件實現。
實施例一
圖1為本發明實施例一提供的提取文檔關鍵句的方法的流程示意圖,如圖1所示,具體包括:
S11、根據層級語義向量模型訓練得到與文檔相關的句子向量和文檔向量,所述層級語義向量模型包含預先根據文檔訓練資料庫訓練得到的句子向量更新公式和文檔向量更新公式;
其中,句子向量和文檔向量的維數可自定義設置。
具體的,根據文檔中的詞、句子信息采用所述層級語義向量模型中包含的句子向量更新公式訓練得到句子向量,進一步根據句子向量采用所述層級語義向量模型中包含的文檔向量更新公式訓練得到文檔向量。
S12、計算所述句子向量和所述文檔向量之間的相關性;
其中,相關性表述了所述句子向量和所述文檔向量之間關聯,當相關性越高時,則表明所述句子向量能夠準確的表示所述文檔的重要內容。
S13、選取所述相關性滿足預設條件的句子向量對應的句子作為所述文檔的第一關鍵句。
其中,預設條件可設為獲取的關鍵句的數量上限,或者相關性下限。所述相關性可采用計算所述句子向量與所述文檔向量之間的余弦距離、歐式距離或正選距離來進行衡量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510587652.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于電子天平的硅片自動計片裝置
- 下一篇:一種沖裁夾緊式防變形百搭格擋





