[發明專利]一種基于文本內容的信息源識別方法與裝置有效
| 申請號: | 201710499053.6 | 申請日: | 2017-06-27 |
| 公開(公告)號: | CN107451433B | 公開(公告)日: | 2020-05-22 |
| 發明(設計)人: | 柳廳文;李全剛;李柢穎;亞靜;時金橋;譚建龍 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F21/16 | 分類號: | G06F21/16;G06F40/211;G06F40/284;G06N3/04 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邵可聲 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 內容 信息源 識別 方法 裝置 | ||
本發明提供一種基于文本內容的信息源識別方法,適用于非結構化的文本,即自由文本,包括以下步驟:將輸入的文本按句子切分并分詞;識別出各句子中包含的類型為信息源的實體;如所述實體為其所在句子的信息源,則將其作為一信息源實體;整合各句子得到的信息源實體,作為文本信息識別結果。可以不依賴于網頁結構化信息,不依賴于人工特征提取,通過分析文本內容,自動識別非結構化文本的信息源。同時提供對應實現上述方法的裝置。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種基于文本內容的信息源識別方法與裝置。
背景技術
信息源作為動態信息的載體,是實施動態監測的重要基礎保障,識別文本的信息源,可以用來構建信息源知識庫,支撐領域動態信息獲取。另一方面,文本中包含更多信息源往往意味著更強的參考性,更高的文本質量,利用文本信息源識別,可以進行文本過濾,從大量文本中篩選出有價值的信息。已有的關于信息源的研究多集中在信息源的特征和分類,信息源挖掘和體系構建,信息源發現等方向,具體到信息源識別的研究較少,僅在闡述實驗過程中提及實現方法。已有的報文信息源的識別有基于規則等方法。而對網絡信息源的識別主要針對結構化頁面,基于鏈接關系,如網頁的內鏈信息,社交網絡的鏈接引用,或基于來源標注,如門戶網站的轉載標注,得到文本的信息源。
網絡文本信息量大,信息傳播快,信息獲取成本低廉,已成為重要信息源渠道。同時,由于互聯網版權法規的不健全、操作難度大、違法成本低以及運作習慣等,各網站間的相互引用繁雜而混亂,且缺乏明顯的引用標志。已有的信息源識別方法,僅依賴頁面的鏈接關系或結構化信息標注,無法處理大量的非結構化頁面的信息源識別。而基于規則的方法需要人工提取大量特征,工作量大,且領域間通用性差,不能滿足實際的處理需求。
發明內容
針對上述問題,本發明的目的在于提供一種基于文本內容的信息源識別方法及裝置,可以不依賴于網頁結構化信息,不依賴于人工特征提取,通過分析文本內容,自動識別非結構化文本的信息源。
為達上述目的,本發明采取的技術方案是:
一種基于文本內容的信息源識別方法,適用于非結構化的文本,即自由文本,包括以下步驟:
將輸入的文本按句子切分并分詞;
識別出各句子中包含的類型為信息源的實體;
如所述實體為其所在句子的信息源,則將其作為一信息源實體;
整合各句子得到的信息源實體,作為文本信息識別結果。
進一步地,對輸入的文本按句子切分并分詞時,設定一預設句子長度(句子長度指詞的數量),并通過截取或補充的方式使各句子長度與該預設句子長度一致。
進一步地,所述類型為信息源的實體為屬于媒體名稱指示詞的詞構成的序列。
進一步地,通過采用基于雙向LSTM的實體識別方法,各句子中包含的類型為信息源的實體。
進一步地,通過下述步驟識別出各句子中包含的類型為信息源的實體:
用基于百度百科訓練word2vec得到的詞向量表示句子中的每個詞;
在模型訓練和測試時,輸入為詞向量序列,輸出為與詞向量序列等長的標簽序列;
標簽采用2tag方法,若詞屬于媒體名稱指示詞,則對應標簽為‘1’,否則標簽為‘0’;
網絡結構包括輸入層,雙向LSTM層和輸出層;
依據測試數據得到的序列結果將多個標簽為‘1’的詞拼接起來,即為句子中包含的類型為信息源的實體。
進一步地,通過采用基于CNN的句子分類方法,判定類型為信息源的實體是否為其所在句子的信息源。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710499053.6/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





