[發明專利]一種規則約束下的文本信息質量度量方法在審
| 申請號: | 201810561187.0 | 申請日: | 2018-05-29 |
| 公開(公告)號: | CN110543628A | 公開(公告)日: | 2019-12-06 |
| 發明(設計)人: | 何鐵科;廉昊;嚴格;陳振宇;李玉瑩 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N7/02 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210093 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 質量指標 規則約束 文本數據 信息論 規則構建 理論基礎 數學建模 文本書寫 文本信息 文書數據 質量度量 粗糙集 大數據 度量 文本 量化 司法 幫助 | ||
1.規則約束下的文本數據質量度量方法,其特征是:(1)被度量的文本具有規定的書寫格式且可被解析為XML格式;(2)對解析為XML格式的文本數據度量其數據質量;(3)文本數據具有很強的上下文相關性,且表征某個概念的語義集合邊界不固定;(4)文本的數據質量可以通過其包含信息的信息質量來反映;(5)通過六元組客觀信息論定義文本信息質量的九個評價指標;(6)使用粗糙集理論對九個指標進行數學建模。
2.據權利要求1所述的一種規則約束下的文本信息質量度量方法,其特征是依據文本書寫的規則可將其解析為XML格式的文本文件,根據規則可將用戶關心的數據字段提取出來作為信息集,數據質量的度量是在XML格式的半結構化文本基礎上進行的。文本的數據質量通過文本的信息質量反映,因此可基于六元組客觀信息論和粗糙集理論對文本的信息質量進行度量,從而反映文本的數據質量。該方法從九個維度定義了數據質量:適配性、廣闊性、細致性、遍及性、持續性、包容性、延遲性、豐富性、真實性。
3.據權利1,2所述的一種規則約束下的文本信息質量度量方法,其特征是具體步驟如下:
1)依據規則將文本解析為XML格式的半結構化文本。
2)文本集合可依據概念劃分為許多類,每一類的文本都有其特征字段,在每一類下將用戶關心的關鍵字段提取出來,構成該類下的規則集。
3)結合規則集和具體文本內容,依據九個維度的信息質量度量指標對文本信息質量進行計算。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810561187.0/1.html,轉載請聲明來源鉆瓜專利網。





