[發明專利]一種基于語義分析的文本關鍵信息提取方法及裝置有效
| 申請號: | 201711332910.X | 申請日: | 2017-12-13 |
| 公開(公告)號: | CN108052500B | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 任東英;朱瑾鵬 | 申請(專利權)人: | 北京數洋智慧科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F40/284 |
| 代理公司: | 北京正鼎專利代理事務所(普通合伙) 11495 | 代理人: | 岳亞 |
| 地址: | 100000 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 分析 文本 關鍵 信息 提取 方法 裝置 | ||
本發明公開了一種基于語義分析的文本關鍵信息提取方法及裝置,不限制搭配成詞的原詞語數目,用以發現文本中可表征明確含義的候選字符串,解決了詞典依賴及只能提取詞語的問題。相對于傳統的權重計算方法,通過分析文本特點,發現上下文語義信息豐富度可以反映出字符串表達意圖能力的強弱,因此,在字符串權重計算公式中加入外部豐富度影響因子,不僅考慮了字符串本身特點,也考慮了字符串外部上下文的環境,有效地補充了指標體系,提高了結果準確性。
技術領域
本公開涉及文本信息提取技術領域,具體涉及一種基于語義分析的文本關鍵信息提取方法及裝置。
背景技術
目前,全球數據量以平均每年50%的增長率呈現爆炸式增長,每個人都置身于信息的海洋,面對如此大量的數據,如何準確、快速地定位真正想要的內容成為人們日益迫切的需求,文本關鍵信息提取技術應運而生。
傳統的文本關鍵信息提取多為提取關鍵詞,首先依據詞典進行文本分詞,然后利用TF-IDF方法計算詞語權重,取排名靠前的若干個詞作為關鍵詞。
現有技術中的方法存在如下弊端:1)詞語粒度過小,無法有效表征完整含義;2)強烈依賴于分詞詞典,而不同領域常用詞千差萬別,詞典維護成本高,準確性及全面性均不能保證;3)權重計算僅從詞語本身特點出發,只考慮了詞頻及文檔頻率,沒有充分考慮詞語所在的上下文環境。
發明內容
鑒于上述問題,提出了本公開以便提供一種克服上述問題或者至少部分地解決上述問題的基于語義分析的文本關鍵信息提取方法及裝置。
根據本公開的一個方面,提供了一種基于語義分析的文本關鍵信息提取方法,其包括:
將待處理文本以字為單位進行分割,形成字串c1,c2,...,ci,ci+1,...,cn,其中,ci表征一個漢字,n為所述文本中漢字總數;
計算相鄰的任意兩個所述漢字ci,ci+1的點間互信息、左鄰信息熵和右鄰信息熵;若所述點間互信息、左鄰信息熵和右鄰信息熵均滿足第一預設閾值,則合并兩個漢字為一個字符串;
直到無法對所述文本中相鄰漢字進行合并為止,所述文本的劃分結果為T:t1,t2,...,tk,...,tm,其中,tk為字、詞、短語或短句的字符串,m為所述文本中字、詞、短語或短句的字符串的總數;
取所述tk中長度大于1且不屬于停止詞的字、詞、短語或短句的字符串,作為候選字符串,計算各個候選字符串的權重;
將所述權重大于第二預設閾值的若干個所述候選字符串作為所述文本的關鍵信息。
所述計算相鄰的任意兩個所述漢字ci,ci+1的點間互信息、左鄰信息熵和右鄰信息熵;若所述點間互信息、左鄰信息熵和右鄰信息熵均滿足第一預設閾值,則合并兩個漢字為一個字符串,包括:
計算相鄰的任意兩個所述字、詞、短語或短句的字符串的點間互信息、左鄰信息熵和右鄰信息熵;若所述點間互信息、左鄰信息熵和右鄰信息熵均滿足預設閾值,則合并兩個字、詞、短語或短句的字符串為一個字符串。
所述點間互信息、左鄰信息熵和右鄰信息熵根據如下公式計算:
點間互信息PMI,左鄰信息熵LE,右鄰信息熵RE,具體公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京數洋智慧科技有限公司,未經北京數洋智慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711332910.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種臺式一體計算機
- 下一篇:微波充電的超表面天線制備方法及裝置





