[發明專利]一種基于調和級數的文本圖結構表示模型無效
| 申請號: | 201210059404.9 | 申請日: | 2012-03-08 |
| 公開(公告)號: | CN102629266A | 公開(公告)日: | 2012-08-08 |
| 發明(設計)人: | 陳雪;吳超 | 申請(專利權)人: | 上海大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海上大專利事務所(普通合伙) 31205 | 代理人: | 何文欣 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 調和級數 文本 結構 表示 模型 | ||
技術領域
??本發明涉及一種文本的表示模型,具體是涉及采用圖結構對文本進行表示,使用調和級數對關鍵詞和關鍵詞對進行權重計算的模型,是一種基于調和級數的文本圖結構表示模型。
背景技術
??人類善于處理非結構化文本,因為非結構化文本符合人類語言表達習慣,更重要的是人類具有很強的邏輯推理能力。而機器則善于處理結構化文本,例如圖和表。人機交互時,必然需要將人類可理解的非結構化文本轉化為機器可理解的結構化文本,這就需要文本表示模型。
目前應用最廣的文本表示模型是向量空間模型。向量空間模型將文本表示成一個權值向量,向量中的每一項均由詞項組成,而每個詞項的權重由TFIDF方法確定。其中TFIDF方法用詞項權重公式計算一個詞項對于文集中的單篇文本的重要程度。TFIDF方法的詞項權重就是詞頻TF(Term?Frequency)與逆文檔頻率IDF(Inverse?Document?Frequency)的乘積。TFIDF具體公式如下:
?????????????????????????????????????????????????
???其中,TFi為詞項i的詞頻,即詞項i在文本中出現的次數;IDFi為詞項i的逆文檔頻率,它由log(N/ni)計算;N為文本集的文本總數;ni為文本集中包含詞項i的文本數。
?但是使用向量空間模型結合TFIDF方法對文本進行表示時,存在以下不足:
??(1)向量空間模型把文本看成詞項的集合,把詞項與詞項之間的關系看成是獨立的,這樣就損失了大量的文本結構信息。
?(2)TFIDF方法在計算詞項的詞頻時,沒有考慮它們所處位置因素對它們權重的影響,而單獨考慮出現次數或共現次數,并不足以表達其實際權重。
(3)TFIDF方法在計算詞項的逆文檔頻率時,需要基于領域的文本集,而無法針對單篇的文本。
發明內容
??本發明的目的在于針對向量空間模型與TFIDF方法的不足,提供一種基于調和級數的文本圖結構表示模型,該模型能夠避免文本結構信息的缺失,并同時能夠針對單篇文本的結構信息對關鍵詞和關鍵詞對的權重進行計算。
???為了達到上述的目的,本發明的構思如下:采用圖結構模型對單篇文本進行表示,避免文本結構信息的缺失,并同時能夠針對單篇文本的結構信息對關鍵詞和關鍵詞對的權重進行計算;所述的圖結構模型是:使用圖結構對文本的關鍵詞及其之間的關系進行組織,再通過調和級數法進行權重的計算。
???????根據上述的發明思想,本發明采用下述技術方案:
??????一種基于調和級數的文本圖結構表示模型,其特征在于,其具體步驟如下:
??????(1)打開領域文集中的單篇文本;
?????(2)將文本內容按照重要性程度由大到小重新排列;
??????(3)對文本進行分詞并保留標點符號;
?????(4)統計關鍵詞和關鍵詞對的出現次數;
?????(5)以關鍵詞為圖的節點,將共現次數不為0的關鍵詞對進行連接;
???(6)使用調和級數法對關鍵詞和關鍵詞對的權重進行計算.
????所述的調和級數法,記為HP,其關鍵詞和關鍵詞對權重計算式如下:
???
???其中,n為關鍵詞和關鍵詞對的出現次數,為歐拉常數,。
????本發明的一種基于調和級數的文本圖結構表示模型與現有的技術相比較,具有如下突出特點和優點:在沒有領域文本集,無法確定關鍵詞在文本集中的區分能力的情況下,能夠通過掃描單篇文本,用關鍵詞的出現次數與出現位置來確定關鍵詞的權重;雖然只使用出現次數對權重進行評價,但是簡便易操作,而且效果好;由于調和級數法中的對數是可擴展的數量級,因此能夠兼具TFIDF的功能,而且更加簡便。
附圖說明
圖1是本發明的一種基于調和級數的文本圖結構表示模型的流程圖。
具體實施方式
?以下結合附圖對本發明的實施例作進一步的說明。
實施例一:參見圖1,本基于調和級數的文本圖結構表示模型,其特征在于:采用圖結構模型對單篇文本進行表示,其中使用調和級數法對關鍵詞和關鍵詞對的權重進行計算;
??所述的圖結構模型就是將文本的關鍵詞根據關鍵詞對在同一個句子中的共現關系建立連接關系;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海大學,未經上海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210059404.9/2.html,轉載請聲明來源鉆瓜專利網。





