[發明專利]一種從文本提取所需內容的方法有效
| 申請號: | 201410667560.2 | 申請日: | 2014-11-19 |
| 公開(公告)號: | CN104360993B | 公開(公告)日: | 2018-03-30 |
| 發明(設計)人: | 彭宏利 | 申請(專利權)人: | 廣州極盛信息科技開發有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 廣州市越秀區哲力專利商標事務所(普通合伙)44288 | 代理人: | 湯喜友 |
| 地址: | 510000 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 提取 內容 方法 | ||
技術領域
本發明涉及計算機程序。
背景技術
報告是匯報工作、反映情況、提出建議、答復上級機關詢問時使用的公文,同時,報告是謀事之道、成事之基,是領導作出正確判斷和決策的前提基礎。近年來,隨著市場經濟的推動,報告成為了一種新興產業,報告的用途逐步擴大,用于新產品開發、投融資、公司發展規劃、年度發展等方面。當前撰寫報告的機構有全國高校、社科、研究會、研究院、智庫等國家的研究機構,例如:中國科學院、中國社會科學院、北京大學、清華大學、中國非國有經濟研究會、北京創新中實信息科學研究院等。撰寫報告的形式主要是當前各機構工作人員主要是通過人工整理資料,篩選素材,自主撰寫情報。
由于目前都是基于人工去處理文本資料,因此,從文本中提取出所需的內容的效率就比較低下。
發明內容
本發明的目的在于提出一種從文本提取所需內容的方法,其能解決提取效率低的問題。
為了達到上述目的,本發明所采用的技術方案如下:
一種從文本提取所需內容的方法,其包括以下步驟:
步驟1、根據預設的分詞包對目標文本進行預處理,以使所述目標文本的每個句子中的每個詞賦予詞性類別,所述詞性類別包括主語、謂語、賓語、定語、狀語和補語;
步驟2、接收用戶輸入的標簽,根據預設的分詞包對所述標簽中的每個詞賦予性類別,根據依存句法提取出所述標簽中的主語以及目標查找詞,根據同義詞詞林和語義場的類義詞,統計目標文本的每個句子中與所述目標查找詞同義的類義詞出現的總次數,將總次數超過預設閾值的句子保存至提取庫;
步驟3、計算提取庫中每個句子各自的向量值,并根據所述向量值計算每兩個句子之間的夾角,若出現夾角小于預設角度的兩個句子,則隨機刪除該兩個句子中的一個句子。
優選的,在步驟1之前還有以下步驟:
步驟11、接收用戶設置的關鍵詞和該關鍵詞的權重,以及接收用戶上傳的文本;
步驟12、根據公式一選取關聯度大于預設值的文本作為目標文本;
公式一為:其中,G為文本的關聯度,Pn為第n個關鍵詞在文本中出現的次數,Mn為第n個關鍵詞的權重,L預設次數。
優選的,當Pn≥L時,Pn取L。
優選的,L=10。
優選的,預設值為20%。
優選的,預設閾值為3。
優選的,夾角為0.5°。
本發明還提出一種從文本提取所需內容的裝置,其包括以下模塊:
預處理模塊,用于根據預設的分詞包對目標文本進行預處理,以使所述目標文本的每個句子中的每個詞賦予詞性類別,所述詞性類別包括主語、謂語、賓語、定語、狀語和補語;
提取模塊,用于接收用戶輸入的標簽,根據預設的分詞包對所述標簽中的每個詞賦予性類別,根據依存句法提取出所述標簽中的主語以及目標查找詞,根據同義詞詞林和語義場的類義詞,統計目標文本的每個句子中與所述目標查找詞同義的類義詞出現的總次數,將總次數超過預設閾值的句子保存至提取庫;
去重模塊,用于計算提取庫中每個句子各自的向量值,并根據所述向量值計算每兩個句子之間的夾角,若出現夾角小于預設角度的兩個句子,則隨機刪除該兩個句子中的一個句子。
優選的,在預處理模塊之前還有以下模塊:
接收模塊,用于接收用戶設置的關鍵詞和該關鍵詞的權重,以及接收用戶上傳的文本;
篩選模塊,用于根據公式一選取關聯度大于預設值的文本作為目標文本;
公式一為:其中,G為文本的關聯度,Pn為第n個關鍵詞在文本中出現的次數,Mn為第n個關鍵詞的權重,L預設次數。
本發明具有如下有益效果:
能夠自動地根據用戶輸入的標簽,即可提取出用戶所需要的內容,從而有效提高文本內容的提取效率。
附圖說明
圖1為本發明較佳實施例的從文本提取所需內容的方法的流程圖。
具體實施方式
下面,結合附圖以及具體實施方式,對本發明做進一步描述。
如圖1所示,一種從文本提取所需內容的方法,其包括以下步驟:
步驟S1、接收用戶設置的關鍵詞和該關鍵詞的權重,以及接收用戶上傳的文本。用戶上傳的文本可能有多篇,文本獲取的途徑包括網上收集。設置的關鍵詞的數量也可以是多個,例如,設置兩個關鍵詞:馬云和上市,馬云的權重為0.5,上市的權重為0.3。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州極盛信息科技開發有限公司,未經廣州極盛信息科技開發有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410667560.2/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





