[發明專利]一種內容提取方法及裝置在審
| 申請號: | 201611151284.X | 申請日: | 2016-12-14 |
| 公開(公告)號: | CN106598946A | 公開(公告)日: | 2017-04-26 |
| 發明(設計)人: | 曾超;林藝濱;朱健偉;江漢祥 | 申請(專利權)人: | 廈門市美亞柏科信息股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 廈門市精誠新創知識產權代理有限公司35218 | 代理人: | 何家富 |
| 地址: | 361000 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 內容 提取 方法 裝置 | ||
技術領域
本發明涉及通信技術領域,具體涉及一種內容提取方法及裝置。
背景技術
隨著移動終端的快速發展,手機已經成為人民生活中的必需品。在電子數據取證中聊天內容數據量最大,平均占總數據量70%,每個移動終端的聊天信息通常也在幾十萬條,多的可達幾百萬條。聊天內容信息對研判分析價值很大,可以從中找到很多蛛絲馬跡。通知類短信內容中經常包含很多關鍵信息,比如銀行、移動運營商、天然氣提供商等。通知類的內容經常會包含用戶的基本信息,銀行的消費通知短信中包含機主姓名、銀行卡號后四位、銀行卡類型等,車船票、機票預定信息會包含旅客姓名、行程信息等。
目前對于這類數據的提取基本都是采用模板的方式來提取,通過預先設置的模板進行匹配,獲取所需提取的關鍵內容信息,通過模板來提取數據的優點是精確和快速,缺點是需要人為持續的提取大量的模板。因為不同機構的短信內容模板不一樣,同一機構不同地區的短信內容模板也可能不一樣,同一機構同一地區在不同的時間段的短信內容模板也可能變化。
發明內容
針對此問題,本發明提出一種基于語義分析和規則的內容提取方法及裝置,并在此基礎上結合傳統的基于模板的內容提取方法。同時具備模板提取速度快,數據準確的優點,以及語義分析和規則解析適應性強的優點,通過兩種方式的結合,實現快速、精確地提取內容數據。
具體方案如下:
一種內容提取方法,包括:
S01,對樣本數據進行語義分析,根據語義分析結果以及目標內容構建內容提取規則;
S02,使用多個樣本數據構建的內容提取規則建立規則庫;
S03,對待提取的數據進行語義分析,根據語義分析結果匹配規則庫中對應的內容提取規則,若匹配成功,則使用該內容提取規則進行內容提取,若匹配失敗,則記錄語義分析結果,并建立新的內容提取規則,將該新建立的內容提取規則更新至規則庫。
進一步的,在步驟S01前,還包括:步驟S00,對待提取的數據進行模板匹配,若匹配成功,則使用該模板進行內容提取,若匹配失敗,則執行所述步驟S01至S03。
其中,所述的語義分析具體包括:
對數據進行分詞和詞性標注;對分詞的結果進行實體標注,該實體標注包括但不限于人名標注、時間標注以及金額標注;構建數據中各詞之間的依存和關聯關系。
一種內容提取裝置,包括:
規則構建模塊,被配置成對樣本數據進行語義分析,根據語義分析結果以及目標內容構建內容提取規則;
規則庫模塊,被配置成使用多個樣本數據構建的內容提取規則建立規則庫;
內容提取模塊,被配置成對待提取的數據進行語義分析,根據語義分析結果匹配規則庫中對應的內容提取規則,若匹配成功,則使用該內容提取規則進行內容提取,若匹配失敗,則記錄語義分析結果,并建立新的內容提取規則,將該新建立的內容提取規則更新至規則庫。
進一步的,還包括:模板匹配模塊,被配置成對待提取的數據進行模板匹配,若匹配成功,則使用該模板進行內容提取,若匹配失敗,則進入規則構建模塊、規則庫模塊及內容提取模塊處理。
一種內容提取裝置,包括:
處理器以及存儲器;
所述存儲器用于存儲程序;
所述處理器用于執行所述存儲器中的程序,使得所述內容提取裝置執行上述的內容提取方法。
本發明有益效果:本發明使用語義分析和規則的方法進行內容提取,并不斷更新內容提取規則庫,具有適應性強的特點,通過結合模板提取與語義分析和規則的方法提取,使得內容數據提取更加快速及準確。
附圖說明
圖1為本發明一實施例建立規則庫的處理流程圖;
圖2為本發明一實施例的依存句法樹;
圖3為本發明一實施例提取內容的處理流程圖;
圖4為本發明另一實施例的處理流程圖。
具體實施方式
為進一步說明各實施例,本發明提供有附圖。這些附圖為本發明揭露內容的一部分,其主要用以說明實施例,并可配合說明書的相關描述來解釋實施例的運作原理。配合參考這些內容,本領域普通技術人員應能理解其他可能的實施方式以及本發明的優點。現結合附圖和具體實施方式對本發明進一步說明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門市美亞柏科信息股份有限公司,未經廈門市美亞柏科信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611151284.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:模板檢驗方法及裝置
- 下一篇:一種基于同義詞擴展的貝葉斯詞義消歧方法
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





