[發明專利]一種改進的中文自動分詞算法在審
| 申請號: | 201610814785.5 | 申請日: | 2016-09-12 |
| 公開(公告)號: | CN106610936A | 公開(公告)日: | 2017-05-03 |
| 發明(設計)人: | 金平艷;胡成華 | 申請(專利權)人: | 四川用聯信息技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610054 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 改進 中文 自動 分詞 算法 | ||
1.一種改進的中文自動分詞算法,本發明涉及中文語義網絡技術領域,具體涉及一種改進的中文自動分詞算法,其特征是,包括如下步驟:
步驟1:初始化訓練模型,可以是《分詞詞典》或相關領域的語料庫,或是兩者結合模型
步驟2:根據《分詞詞典》找到待分詞句子中與詞典中匹配的詞
步驟3:依據概率統計學,將待分詞句子拆分為網狀結構,即得n個可能組合的句子結構,把此結構每條順序節點依次規定為
步驟4:利用統計學概念理論知識,給上述網狀結構每條邊賦予一定的權值
步驟5:找到權值最大的一條路徑,即為待分詞句子的分詞結果
步驟6:驗證此分詞結果的準確率和召回率。
2.根據權利要求1中所述的一種改進的中文自動分詞算法,其特征是,以上所述步驟4中的具體計算過程如下:
步驟4:利用統計學概念理論知識,給上述網狀結構每條邊賦予一定的權值,其具體計算過程如下:
步驟4.1)取路徑中詞的數量最少min()
根據《分詞詞典》匹配出的字典詞與未匹配的單個詞,第i條路徑包含詞的個數為,即n條路徑詞的個數集合為
得
步驟4.2)計算相鄰兩個詞相關度
將兩個詞映射到概念模型中,得到相應的概念即概念的相關度即為相鄰兩個詞相關度
這里考慮了本體間的基本屬性關系、路徑距離與路徑數量、密度與深度等影響因子計算兩本體概念間的相關度
步驟4.2.1)構造基于基本屬性關系對兩本體概念相似度的影響函數
兩本體概念相似度與屬性相似度成正比,與屬性權重也成正比
路徑為
假設的屬性個數各為
每個屬性對相應概念的影響權重是不同的,按照權重系數分別對概念屬性進行排序,對每個概念屬性取前i個屬性權重值
這里
即得下列屬性權重矩陣
從專業領域本體樹中,可以很清楚的知道概念中的共有屬性,記為這里j為共有屬性的個數,且
為概念中屬性相同,則取出其對應權重值
所以構建的影響函數為:
步驟4.2.2)構造基于路徑距離、與路徑數量對兩本體概念相似度的影響函數
兩本體概念相似度與其路徑長度成反比,找到兩本體概念間最長路徑,其中經過的概念節點有n個,即
即經過路徑的長度為
兩本體概念相似度與路徑數量成反比,即當路徑數量越多,兩本體概念相似度越大,這里根據專業領域本體樹可知路徑數量為N,如下式:
即
上式為路徑長度與路徑個數的權重比值,這個可以根據實驗迭代出來
步驟4.2.3)構造密度與深度對兩本體概念相似度的影響函數
步驟4.2.3.1)兩本體概念深度函數
概念節點的深度是指概念在所處的本體樹中的層次深度,在本體樹中,每個概念節點都是對上一層節點的一次細化,因此概念節點處于本體樹中層次越深,則表示的內容越具體,概念間的相似度越大,反之概念間的相似度越小
這里深度值從根節點開始,根節點的深度值為1,從概念與共同父節點構成的樹子集中找到同一層中兩本體概念數量最多的,其對應的深度為h
如果兩本體概念不在同一層,則其平均,即有下式:
與分別為從概念與共同父節點構成的樹子集中兩本體概念數量最多的深度值
步驟4.2.3.2)兩本體概念密度函數
概率節點密度越大,則其直接子節點數目越多,節點細化的越具體,各直接子節點之間的相似度越大
從概念的直接子節點中找到共同直接子節點個數,如上為N
步驟4.2.3.3)由上述步驟可得:
上式分別為深度與密度的權重系數,越大表示概念深度對相關度的影響越大,反之影響越小,越大表示概念密度對相關度的影響越大,反之影響越小,為平滑因子,可以通過非線回歸迭代估計來確定
綜上所述,有下式:
上式A、B、C為相應的影響系數,根據其值大小,影響相關度的程度也不一樣,值越大,對相關度影響也越大,A+B+C=1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川用聯信息技術有限公司,未經四川用聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610814785.5/1.html,轉載請聲明來源鉆瓜專利網。





