[發明專利]按文檔的字符屬性碎片化的方法有效
| 申請號: | 201310750311.5 | 申請日: | 2013-12-30 |
| 公開(公告)號: | CN103761226B | 公開(公告)日: | 2017-09-05 |
| 發明(設計)人: | 江潮 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430073 湖北省武漢市東湖開發區光谷軟件*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 字符 屬性 碎片 方法 | ||
1.一種按文檔的字符屬性碎片化的方法,其特征在于包括:
確定分詞處理后的各個文檔的所有詞匯和所有語句的字符屬性;
根據所述字符屬性在建立的多種字符屬性與級別標識的關聯關系中進行匹配;
根據匹配后的級別標識賦予相應的所述文檔;
合并級別標識相同的文檔;
所述確定分詞處理后的各個文檔的所有詞匯的字符屬性的過程包括:
確定所有詞匯的詞匯等級grade_word、類符形符比STTR和實義詞密度density_notional,得到所述詞匯的字符屬性,記為詞匯復雜度diff_word,diff_word=K11·grade_word+K12·STTR+K13·density_notional
其中,K11、K12、K13為通過給定樣本所計算出的詞匯復雜度調節系數;
確定所述類符形符比的過程包括:
統計所述文檔的形符和類符,所述形符為所述文檔的總詞匯數量,所述類符為所述文檔的不相同的詞匯數量,若所述形符不足標準數量,則計算類符與形符之比,得到所述類符形符比;
若所述形符大于等于標準數量,則將所述文檔劃分為若干個含標準數量個詞匯的子文檔和1個不足標準數量的子文檔;
按照類符形符比計算公式,計算得到所述類符形符比,所述類符形符比計算公式如下:
其中,token為所述不足標準數量的子文檔的形符數,type為所述不足標準數量子文檔的類符數,n為所述含標準數量個詞匯的子文檔的數量, typei為n子文檔中第i個子文檔的類符數,ST為所述標準數量的表示值。
2.根據權利要求1所述的方法,其特征在于,確定所述詞匯等級grade_word的過程包括:
將所述詞匯與其所屬語種的詞匯分級表進行匹配,得到所述所有詞匯的等級,分別為一級、二級和三級,未出現在這3個級別中的詞匯為四級;統計二級和二級以上的詞匯數量和所述文檔的總詞匯數;計算得到如下詞匯等級grade_word,
其中,word2、word3和word4分別為二級、三級和四級的詞匯數量,word為所述文檔的總詞匯數量,K111、K112、K113為通過給定樣本所計算出的詞匯等級調節系數。
3.根據權利要求1所述的方法,其特征在于,確定所述實義詞詞義密度的過程包括:
對所有詞匯進行詞匯標注,得到所述文檔的實義詞,所述實義詞至少包括以下詞性之一:名詞、代名詞、動詞、形容詞、副詞和感嘆詞;
統計所述文檔中的所述所有詞匯中的實義詞的數量;統計每個實義詞的義項數;根據所述每個實義詞的義項數,將每個實義詞的義項數相加得到所有實義詞的實義總數;
根據實義詞實義密度計算公式,計算得到實義詞詞義密度,所述實義詞實義密度計算公式如下:
其中,count_notional為所述實義詞的數量,word為所述文檔的總詞匯數量,meaningsi為第i個實義詞的義項數,其中1≤i≤count_notional。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310750311.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種金屬管的連接結構
- 下一篇:一種承插式鋼接頭連接裝置





