[發明專利]一種新的文本特征詞匯提取方法在審
| 申請號: | 201610864551.1 | 申請日: | 2016-09-29 |
| 公開(公告)號: | CN106611042A | 公開(公告)日: | 2017-05-03 |
| 發明(設計)人: | 金平艷 | 申請(專利權)人: | 四川用聯信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610054 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 特征 詞匯 提取 方法 | ||
1.一種新的文本特征詞匯提取方法,本發明涉及語義網絡技術領域,具體涉及一種新的文本特征詞匯提取方法,其特征是,包括如下步驟:
步驟1:利用中文分詞技術對文本進行分詞處理,其具體分詞技術過程如下:
步驟1.1:根據《分詞詞典》找到待分詞句子中與詞典中匹配的詞,把待分詞的漢字串完整的掃描一遍,在系統的詞典里進行查找匹配,遇到字典里有的詞就標識出來;如果詞典中不存在相關匹配,就簡單地分割出單字作為詞;直到漢字串為空
步驟1.2:依據概率統計學,將待分詞句子拆分為網狀結構,即得n個可能組合的句子結構,把此結構每條順序節點依次規定為,其結構圖如圖2所示
步驟1.3:基于信息論方法,給上述網狀結構每條邊賦予一定的權值,其具體計算過程如下:
根據《分詞詞典》匹配出的字典詞與未匹配的單個詞,第i條路徑包含詞的個數為,即n條路徑詞的個數集合為
得
在上述留下的剩下的(n-m)路徑中,求解每條相鄰路徑的權重大小
在統計語料庫中,計算每個詞的信息量,再求解路徑相鄰詞的共現信息量,既有下式:
上式為文本語料庫中詞的信息量,為含詞的文本信息量
上式為在文本語料庫中的概率,n為含詞的文本語料庫的個數
上式為含詞的文本數概率值,N為統計語料庫中文本總數
同理
為在文本語料庫中詞的共現信息量,為相鄰詞共現的文本信息量
同理
上式為在文本語料庫中詞的共現概率,m為在文本庫中詞共現的文本數量
為文本庫中相鄰詞共現的文本數概率
綜上可得每條相鄰路徑的權值為
步驟1.4:找到權值最大的一條路徑,即為待分詞句子的分詞結果,其具體計算過程如下:
有n條路徑,每條路徑長度不一樣,假設路徑長度集合為
假設經過取路徑中詞的數量最少操作,排除了m條路徑,m<n,即剩下(n-m)路徑,設其路徑長度集合為
則每條路徑權重為:
上式分別為第1,2到路徑邊的權重值,根據步驟1.4可以一一計算得出,為剩下(n-m)路徑中第條路徑的長度
權值最大的一條路徑:
步驟2:根據停用表對文本詞匯進行去停用詞處理,其具體描述如下:
停用詞是指在文本中出現頻率高,但對于文本標識卻沒有太大作用的單詞,去停用詞的過程就是將特征項與停用詞表中的詞進行比較,如果匹配就將該特
征項刪除
綜合分詞和刪除停用詞技術,中文文本預處理過程流程圖如圖3
步驟3:根據詞匯在文本中的位置得到一系列詞匯位置權重值;
步驟4:根據詞匯在文本中的詞性得到一系列詞匯詞性權重值、、、;
步驟5:綜合上述位置與詞性,根據詞匯在文本中信息量,得到詞匯的權重貢獻公式,提取第一位與值更大的前m-1位,即得此文本的特征詞匯向量。
2.根據權利要求1中所述的一種新的文本特征詞匯提取方法,其特征是,以上所述步驟3中的具體描述如下:
步驟3:根據詞匯在文本中的位置得到一系列詞匯位置權重值,其具體描述如下:
各個詞在文本中的分布是不同的,而不同位置的詞對于表示文本內容的能力也是不同的,這個可以根據統計調查得出一系列的位置權重值。
3.根據權利要求1中所述的一種新的文本特征詞匯提取方法,其特征是,以上所述步驟4中的具體描述如下:
步驟4:根據詞匯在文本中的詞性得到一系列詞匯詞性權重值、、、,其具體描述如下:
現代漢語語法中,一個句子主要由主語、謂語、賓語、定語和狀語等成分構成,從詞性的角度看,名詞一般擔當主語和賓語的角色,動詞一般擔當謂語的角色,形容詞和副詞一般擔當定語的角色,詞性的不同,造成了它們對文本或者句子的表示內容的能力的不一樣,根據調查統計得出名詞、動詞、形容詞、副詞的權重值依次為、、和,且。
4.根據權利要求1中所述的一種新的文本特征詞匯提取方法,其特征是,以上所述步驟5中的具體描述如下:
步驟5:綜合上述位置與詞性,根據詞匯在文本中信息量,得到詞匯的權重貢獻公式,提取第一位與值更大的前m-1位,即得此文本的特征詞匯向量,其具體計算過程如下:
利用下列公式,先提取文中信息量最大的詞匯作為文本的核心詞匯;
上式為文本詞匯集合總的個數,為第i個詞匯在文本出現的次數,為位置權重值,為詞性權重值,
再根據對應的詞匯作為參考詞匯,計算其他詞匯與它的相關度,公式如下:
為詞匯與核心詞匯在文本中同一句話中出現的次數,為詞匯在文本中出現的次數,為核心詞匯在文本中出現的次數,為詞匯與的平均權重值,為詞匯在文本中的權重值
上式
提取前m位作為文本的特征詞匯,即參考詞匯與值更大的前m-1位所對應的詞匯集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川用聯信息技術有限公司,未經四川用聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610864551.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新的文本相似度求解方法
- 下一篇:一種煤巖體裂隙定量化處理方法





