[發(fā)明專利]一種多段落文本的特征抽取系統(tǒng)的方法有效
| 申請?zhí)枺?/td> | 201710287337.9 | 申請日: | 2017-04-27 |
| 公開(公告)號: | CN107122350B | 公開(公告)日: | 2021-02-05 |
| 發(fā)明(設計)人: | 許延祥;王飛劍;劉宗福;周東紅;黃世祥 | 申請(專利權(quán))人: | 北京易麥克科技有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/289;G06F40/30 |
| 代理公司: | 北京細軟智谷知識產(chǎn)權(quán)代理有限責任公司 11471 | 代理人: | 付登云 |
| 地址: | 100089 北京市海淀區(qū)西三環(huán)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 段落 文本 特征 抽取 系統(tǒng) 方法 | ||
1.一種多段落文本的特征抽取系統(tǒng)的方法,其特征在于,所述系統(tǒng)包括第一計算模塊、主控模塊、權(quán)重設置模塊、文本處理模塊、分詞器和第二計算模塊;所述第一計算模塊、權(quán)重設置模塊、文本處理模塊、分詞器和第二計算模塊均與主控模塊進行數(shù)據(jù)交互;
所述系統(tǒng),還包括文本向量庫,所述文本向量庫用于存儲所述主控模塊傳輸?shù)亩温湮谋鞠蛄浚?/p>
所述第一計算模塊用于計算段落文本中的方程組;所述第二計算模塊用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)的TF-IDF計算;
所述權(quán)重設置模塊用于對生成的方程組進行權(quán)重設置,所述文本處理模塊用于對段落文本進行分段處理;
所述多段落文本的特征抽取系統(tǒng)的方法,包括:
對任一文本T的段落進行標記;
對任一文本T設置期望相對權(quán)重向量;
采用權(quán)重設置模塊和文本處理模塊分別對標記段落和期望相對權(quán)重向量進行特征抽取,得到段落不同權(quán)重的文本向量;
所述對標記段落和期望相對權(quán)重向量進行特征抽取,得到段落不同權(quán)重的文本向量,包括下述步驟:
1)對于T中的每個段落P,采用分詞器和第二計算模塊進行向量化處理,并將得到的段落文本向量存入n維向量數(shù)組,其中數(shù)組元素為段落Pi所對應的文本向量;
2)對于n維向量數(shù)組中的每個數(shù)組元素,文本處理模塊生成段落Pi所對應的文本向量的權(quán)重和,并存入權(quán)重和數(shù)組;
3)基于權(quán)重和數(shù)組和期望相對權(quán)重向量weights,生成用于權(quán)重分配的齊次線性方程組,并為方程組添加調(diào)節(jié)系數(shù);
4)采用第一計算模塊解方程組,得出解為調(diào)節(jié)系數(shù)數(shù)組;
5)調(diào)節(jié)各段落文本向量:把調(diào)節(jié)系數(shù)與對應的文本向量相乘,得出調(diào)節(jié)后的段落文本向量;
6)合并段落文本向量:將n維向量數(shù)組中乘過調(diào)節(jié)系統(tǒng)的段落文本向量進行累加,得到最終的體現(xiàn)各段落不同權(quán)重的段落文本向量,將段落文本向量存儲至文本向量庫中。
2.如權(quán)利要求1所述的多段落文本的特征抽取系統(tǒng)的方法,其特征在于,所述對任一文本T的段落進行標記,包括:
對任一文本T,由n個段落組成,第i個段落標記為Pi,則T=[P1,P2,…,Pn]。
3.如權(quán)利要求1所述的多段落文本的特征抽取系統(tǒng)的方法,其特征在于,所述對任一文本T設置期望相對權(quán)重向量,包括:
對于任一文本T,存在一個期望相對權(quán)重向量weights=[w1,w2,…,wn],其中,Wi表示Pi的相對權(quán)重;Wi用絕對數(shù)值或相對數(shù)值表示。
4.如權(quán)利要求1所述的多段落文本的特征抽取系統(tǒng)的方法,其特征在于,所述步驟2)中,文本向量的權(quán)重和計算方法為:將段落Pi所對應的文本向量中每個元素值相加,返回累加結(jié)果,文本向量的權(quán)重和存入權(quán)重和數(shù)組的相應位置。
5.如權(quán)利要求1所述的多段落文本的特征抽取系統(tǒng)的方法,其特征在于,所述步驟3)中,齊次線性方程組以矩陣表示,最終返回一個二維數(shù)組;對每個段落增加一個調(diào)節(jié)系數(shù),包括:調(diào)節(jié)系數(shù)ci滿足等式
其中:ci為段落Pi的調(diào)節(jié)系數(shù);得到特定解時,在方程組中添加約束條件sum(ci)=1;paragraphWeight[]為權(quán)重和數(shù)組;weights[i]為期望相對權(quán)重向量;
所述步驟5)中,即對于n維向量數(shù)組中的每個數(shù)組元素,滿足vectorArray[i][j]*coefficients[i],然后保存在原文本向量的原位置上;
其中:coefficients[i]為調(diào)節(jié)系數(shù)數(shù)組元素,vectorArray[i][j]為n維向量數(shù)組,i、j=1、2、3、……、n,i表示數(shù)組的行,j表示數(shù)組的列。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京易麥克科技有限公司,未經(jīng)北京易麥克科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710287337.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





