[發明專利]一種多段落文本的特征抽取系統的方法有效
| 申請號: | 201710287337.9 | 申請日: | 2017-04-27 |
| 公開(公告)號: | CN107122350B | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 許延祥;王飛劍;劉宗福;周東紅;黃世祥 | 申請(專利權)人: | 北京易麥克科技有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/289;G06F40/30 |
| 代理公司: | 北京細軟智谷知識產權代理有限責任公司 11471 | 代理人: | 付登云 |
| 地址: | 100089 北京市海淀區西三環*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 段落 文本 特征 抽取 系統 方法 | ||
本發明涉及一種多段落文本的特征抽取系統及方法,包括第一計算模塊、主控模塊、權重設置模塊、文本處理模塊、分詞器和第二計算模塊;所述第一計算模塊、權重設置模塊、文本處理模塊、分詞器和第二計算模塊均與主控模塊進行數據交互。本發明提供的技術方案通用、可行的來實現文本特征提取,并在文本特征提取過程中,能夠體現文本中不同段落的權重差異。
技術領域
本發明涉及一種文本特征抽取技術,具體涉及一種多段落文本的特征抽取系統的方法。
背景技術
原始文檔經過文本處理系統的預處理、分詞、詞頻統計、TF-IDF計算及向量生成等步驟被存儲在持久化存儲體中,以備進一步的文本計算應用調用。
通過提取文本特征并轉化為向量存儲,滿足了文本之間可以進行計算比較的目的,同時需要保證文本的主要語義在文本向量中得以保留。那么衡量文本特征提取好壞的關鍵就是:文本的語義是否能夠較好的保留。現有技術在文本特征提取時存在著一個顯著的缺點,就是把文本通篇內容對等待。但是,人們在組織文本內容時,是把文本作為一個完整篇章來對待的,通常是用標題來概括全篇的主題,隱含了文章的領域和范疇,在文本首段落明確全文的主要內容和核心思想,其它段落分別針對主題的某個方面進行闡述,通常每個段落的首句會表達全段的主題(但這點經常被打破)。一般最后一段會作為總結段落陳述結論或回顧中心思想(資訊或簡單文章可能不遵循這點)。因而,對于各段落來講,同樣語句、用詞及詞頻在不同的段落其語義權重(即表達文本語義的相對重要性)是不一樣的。
總體來說,對于段落:標題權重摘要(如果有)權重首段落權重尾段落權重其它段落權重;對于段落內各語句:首句權重其它句權重。而當前的文本特征提取技術并沒有把這種行文過程中按段落組織語義的特點考慮進去。
發明內容
針對現有技術中的不足,本發明的目的是提供一種多段落文本的特征抽取系統的方法,本發明是實現一種通用、可行的方法來實現文本特征提取,并在文本特征提取過程中,能夠體現文本中不同段落的權重差異。
本發明的目的是采用下述技術方案實現的:
本發明提供一種多段落文本的特征抽取系統,其改進之處在于,包括第一計算模塊、主控模塊、權重設置模塊、文本處理模塊、分詞器和第二計算模塊;所述第一計算模塊、權重設置模塊、文本處理模塊、分詞器和第二計算模塊均與主控模塊進行數據交互。
進一步地,還包括文本向量庫,所述文本向量庫用于存儲所述主控模塊傳輸的段落文本向量。
進一步地,所述第一計算模塊用于計算段落文本中的方程組;所述第二計算模塊用于信息檢索與數據挖掘的常用加權的TF-IDF計算。
進一步地,所述權重設置模塊用于對生成的方程組進行權重設置,所述文本處理模塊用于對段落文本進行分段處理。
本發明還提供一種多段落文本的特征抽取系統的抽取方法,其改進之處在于,包括:
對任一文本T的段落進行標記;
對任一文本T設置期望相對權重向量;
采用權重設置模塊和文本處理模塊分別對上述的標記段落和期望相對權重向量進行特征抽取,得到段落不同權重的文本向量。
進一步地,所述對任一文本T的段落進行標記,包括:
對任一文T,由n個段落組成,第i個段落標記為Pi,則T=[P1,P2,…,Pn]。
進一步地,所述對任一文本T設置期望相對權重向量,包括:
對于任一文本T,存在一個期望相對權重向量weights=[w1,w2,…wn],其中,wi表示Pi的相對權重;wi用絕對數值或相對數值表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京易麥克科技有限公司,未經北京易麥克科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710287337.9/2.html,轉載請聲明來源鉆瓜專利網。





