[發明專利]一種信息處理方法及電子設備在審
| 申請號: | 201310685298.X | 申請日: | 2013-12-13 |
| 公開(公告)號: | CN104714939A | 公開(公告)日: | 2015-06-17 |
| 發明(設計)人: | 吳昱明;周丹;王石;曹存根;賈煒 | 申請(專利權)人: | 聯想(北京)有限公司;中國科學院計算技術研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 黃志華 |
| 地址: | 100085 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 信息處理 方法 電子設備 | ||
技術領域
本發明涉及計算機技術領域,特別涉及一種信息處理方法及電子設備。
背景技術
在自然語言文本中,和文本表述的主題不相關的詞匯或者短語一般稱為無關語。是否是無關語的一個判定標準是:去掉句子中的無關語,對該文本要表達的語義不產生影響。例如,在句子“你好,請問到售后重裝系統要收費么?”中,“你好”和“請問”就是兩個無關語,去掉這兩個詞匯對句子要表達的主題不產生任何影響。
在實際中,在使用智能問答、文本分類等系統中,當對語義進行分析和處理時,由于無關語的存在,易對其語義的分析和處理造成影響,從而易導致分析和處理的結果不準確,因此,如何降低無關語對語義的影響是人們一直重視的問題。
現有技術中降低無關語的影響主要有兩種方法:
第一種:通過停止詞匯表(Stop?Words),停止詞匯表是由整理的停止詞構成的詞典,其中,在文本處理的過程中存在一些需要被剔除的詞,如“的”、“了”、“著”等無意義詞匯就稱為停止詞。該方法是基于該停止詞匯表對語料庫進行處理,當在語料庫中存在停止詞匯表中的停止詞時就停止對該停止詞的處理。
第二種:逆文檔頻率(Inverse?Document?Frequency)的方法,在該方法中,假設在語料庫中出現頻度高的詞匯的重要程度低,即該詞匯的逆文檔頻率較低,則將該詞匯按照無關語處理。
然而,當用第一種方法處理語料庫中的無關語時,由于整理停止詞匯表大多是由人工完成,故占用時間較長,且往往因為受到觀察者理解的局限性,或者受到某些特殊情況下的個別語句的影響,易導致確定從的停止詞的準確性較低。
當用第二種方法處理語料庫中的無關語時,是采用了一種假設的方法搜集無關語,在某些領域中,這一假設并不成立,確定出的無關語的準確性顯然較低。
綜上可知,現有技術中在確定無關語時的準確性較低。
發明內容
本發明實施例提供一種信息處理方法及電子設備,用于解決現有技術中確定無關語時的準確率較低的技術問題。
一種信息處理方法,應用于一電子設備中,所述電子設備包括一初始信息集合和待處理信息集合,所述初始信息集合包含有至少一個初始信息,所述待處理信息集合中包含有至少一個待處理信息,所述方法包括以下步驟:
在所述至少一個初始信息中,確定M個第一標識信息和N個第二標識信息,M、N均為正整數;其中,每個第一標識信息為在所述待處理信息集合中出現頻率大于一預設出現頻率閾值的初始信息,每個第二標識信息為將所述至少一個初始信息拆分后獲得的至少一個分段信息中滿足一預設條件的分段信息;
在所述待處理信息集合中,分別根據每個第一標識信息按預定規則進行搜索,獲得與所述M個第一標識信息相應的M’搜索信息組,其中,所述M’搜索信息組中包含的至少一個搜索信息構成第一信息集合;M’為小于M的正整數;
在所述待處理信息集合中,分別根據每個第二標識信息在所述待處理信息中進行擴展,獲得與所述N個第二標識信息相應的N’個擴展信息組,所述N個擴展信息組中包含的至少一個擴展信息構成第二信息集合;N’為小于N的正整數;
將所述第一信息集合、所述第二信息集合與所述初始信息集合進行合并,獲得包含至少一個更新信息的更新信息集合,所述更新信息集合用于驗證所述至少一個待處理信息中是否存在所述更新信息,所述更新信息為所述搜索信息、所述擴展信息或所述初始信息。
較佳的,所述在所述至少一個初始信息中,確定M個第一標識信息,具體為:
確定第i個初始信息在所述待處理信息集合中的第i個出現頻率;i分別取不小于1且不大于所述初始信息集合中包含的初始信息的總量的整數;
及,根據所述第i個初始信息在所述待處理信息中所處的位置,確定所述第i個初始信息位于待處理信息的第一位置區域的第一次數和位于待處理信息的第二位置區域的第二次數;
根據所述第一次數和所述第二次數,確定所述第i個初始信息在所述待處理信息集合中的第i個有效頻率;
若所述第i個出現頻率大于所述預設出現頻率閾值,且所述第i個有效頻率大于預設有效頻率閾值,則將所述第i個初始信息確定為所述第一標識信息,共確定出所述M個第一標識信息。
較佳的,所述根據所述第一次數和所述第二次數,確定所述第i個初始信息在所述待處理信息集合中的第i個有效頻率,具體為:
根據所述第一次數、所述第二次數、及所述待處理信息集合中所包含的待處理信息的總數量的比值,確定所述第i個有效頻率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于聯想(北京)有限公司;中國科學院計算技術研究所;,未經聯想(北京)有限公司;中國科學院計算技術研究所;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310685298.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種并行多模式匹配的方法及系統
- 下一篇:一種文檔編輯的處理方法和裝置





