[發明專利]文本主題標引方法、裝置、電子設備及計算機存儲介質有效
| 申請號: | 201910970014.9 | 申請日: | 2019-10-12 |
| 公開(公告)號: | CN110728135B | 公開(公告)日: | 2023-06-09 |
| 發明(設計)人: | 韓紅旗;薛陜;劉志輝;張運良;悅林東;高雄 | 申請(專利權)人: | 中國科學技術信息研究所 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/30;G06F40/169;G06F18/22 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 張筱寧 |
| 地址: | 100038*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 主題 標引 方法 裝置 電子設備 計算機 存儲 介質 | ||
本申請實施例涉及文本處理技術領域,公開了一種文本主題標引方法、裝置、電子設備及計算機存儲介質,其中,文本主題標引方法包括:確定待標引文本的文本詞列表;接著基于預定詞向量庫,根據文本詞列表,確定待標引文本的文本表示向量;接著基于根據受控詞表預先建立的主題詞與普通詞間的映射表,通過將與任一文本詞的關聯強度大于第一預定閾值的主題詞確定為任一文本詞的主題詞,來得到各個文本詞分別對應的主題詞;接著根據文本表示向量與各個文本詞分別對應的主題詞,確定待標引文本的目標主題詞,并通過目標主題詞對待標引文本進行主題標引。從而大幅度減少運算量、有效減少比對次數、極大提高文本主題標引的效率。
技術領域
本申請實施例涉及文本處理技術領域,具體而言,本申請涉及一種文本主題標引方法、裝置、電子設備及計算機存儲介質。
背景技術
自動主題標引一般是指使用計算機系統從文獻構成的各要素中,例如題名、關鍵詞、摘要和正文,分析、發現并抽取用于揭示文獻內容的主題詞的過程。標引的文檔可以從論文擴充到專利、圖書、網頁文本等其它形式的電子文檔。主題標引可由人工完成,也可以由機器完成。
目前,自動主題標引的方法按技術可以分為三類:統計標引法、語言分析標引法和機器學習標引法。統計標引法的主要思想是:詞在文檔中出現的頻率是該詞對文檔重要性的有效測量指標。通常認為,處于高頻和低頻之間的那部分詞匯才最適宜做標引詞。語言分析標引法,是指對被標引對象進行句法分析(Syntactical?Analysis)和語義分析(Semantic?Analysis),從而達到自動標引的目的;其中,句法分析標引法是通過從語法角度,來確定句子中每個詞的作用(比如,是主語還是謂語)以及詞與詞之間的相互關系(比如,是修飾關系還是被修飾關系)來實現的;語義分析標引法是在分析詞和短語在特定上下文環境中的確切含義的基礎上,選擇與主題含義相同的標引詞來描述文獻和提問?;跈C器學習的自動標引方法,是利用計算機來理解和模擬人類特有的智能系統活動,學習人們如何運用自己所掌握的知識,去解決現實中的問題。
然而,本申請的發明人在實現過程中,發現:統計標引法的準確率較低,選取的標引詞無法很好地表征文章的內容;語言分析標引法通過與預先準備好的解析規則或語法詞典比較而實現,其實現結果直接受到“規則庫”性能的影響,由于漢語復雜多變、異常靈活,預先定義的規則往往不具有較高的覆蓋度,需要進行大量的人工干預的同義詞識別、詞義排歧等工作,導致其通用性差、應用具有較大難度;基于機器學習的自動標引方法對于不同類型數據需要訓練多個分類器,訓練時間較長,存在數據稀疏問題及過擬合學習問題,無法適應大規模受控詞表的標注。
發明內容
本申請實施例的目的旨在至少能解決上述的技術缺陷之一,特提出以下技術方案:
一方面,提供了一種文本主題標引方法,包括:
確定待標引文本的文本詞列表;
基于預定詞向量庫,根據文本詞列表,確定待標引文本的文本表示向量;
基于根據受控詞表預先建立的主題詞與普通詞間的映射表,通過將與任一文本詞的關聯強度大于第一預定閾值的主題詞確定為任一文本詞的主題詞,來得到各個文本詞分別對應的主題詞;
根據文本表示向量與各個文本詞分別對應的主題詞,確定待標引文本的目標主題詞,并通過目標主題詞對待標引文本進行主題標引。
在一種可能的實現方式中,文本詞列表包括待標引文本的各個文本詞及各個文本詞在待標引文本中出現的次數。
在一種可能的實現方式中,基于預定詞向量庫,根據文本詞列表,確定待標引文本的文本表示向量,包括:
基于預定詞向量庫,確定各個文本詞分別對應的詞向量;
基于平均詞向量法,根據各個文本詞的詞向量及出現次數,確定待標引文本的文本表示向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術信息研究所,未經中國科學技術信息研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910970014.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:新詞發現方法和裝置
- 下一篇:一種融合多因素的textrank關鍵詞提取算法





