[發明專利]一種確定關鍵詞上下文范圍的求解方法在審
| 申請號: | 201610833078.0 | 申請日: | 2016-09-20 |
| 公開(公告)號: | CN106610938A | 公開(公告)日: | 2017-05-03 |
| 發明(設計)人: | 金平艷 | 申請(專利權)人: | 四川用聯信息技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610054 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 確定 關鍵詞 上下文 范圍 求解 方法 | ||
1.一種確定關鍵詞上下文范圍的求解方法,本發明涉及語義網絡技術領域,具體涉及一種確定關鍵詞上下文范圍的求解方法,其特征是,包括如下步驟:
步驟1:初始化統計方法模塊,即語料庫或文本;
步驟2:將關鍵詞C輸入初始化統計方法模塊或文本中;
步驟3:分別求解關鍵詞C相鄰的上下文本中每個位置的權重貢獻值;
步驟4:對關鍵詞C語境中上下文詞位置的權重貢獻值,進行歸一化曲線處理;
步驟5:計算關鍵詞C語境中上下文窗口的左右窗口n值。
2.根據權利要求1中所述的一種確定關鍵詞上下文范圍的求解方法,其特征是,以上所述步驟3中的具體計算過程如下:
步驟3:分別求解關鍵詞C相鄰的上下文本中每個位置的權重貢獻值,其具體計算過程如下:
3.1)先假設關鍵詞C上下文語境的位置信息
在一定規模語料庫的基礎上,選取一定規模和具有一定覆蓋面的關鍵詞,并從語料中提取每個關鍵詞C上下文左右各n個位置的上下文詞語構成其“關鍵詞上下文矩陣”,其矩陣如下所示:
上式矩陣行i為第i個上下文語境,列為關鍵詞上下文左邊n個位置,列為關鍵詞上下文右邊n個位置,為第i個上下文語境中第幾個位置詞
3.2)計算每個上下文位置對關鍵詞C的權重值
上式分別為第i語境中位置為j時的上下文詞對關鍵詞的權重貢獻值,為每個上下文位置已知對應的關鍵詞C的條件統計概率,這個基于語料庫可以很容易統計出,為各語境下每個上下文位置已知對應的關鍵詞C的條件統計概率的平均值
上式m為語料庫或文本中含關鍵詞的語境數量。
3.根據權利要求1中所述一種確定關鍵詞上下文范圍的求解方法,其特征是,以上所述步驟4中的具體計算過程如下:
步驟4:對關鍵詞語境中上下文詞位置的權重貢獻值進行歸一化曲線處理,其具體描述過程如下:
4.1)先對關鍵詞語境中的上下文詞位置j進行歸一化處理
以關鍵詞為原點,上下文詞位置距離關鍵詞的相對距離如下式:
上式左邊位置相對距離為負值,右邊位置相對距離為正值
4.2)曲線歸一化
上述左右位置相對距離d為自變量橫坐標x,根據上述步驟3得到的為對應縱坐標值,去除誤差較大點,連接曲線,建立曲線上下文位置權重貢獻值函數,得到的是二連續函數,即
具體語料庫或文本,根據關鍵詞具體分析即可得到。
4.根據權利要求1中所述的一種確定關鍵詞上下文范圍的求解方法,其特征是,以上所述步驟5中的具體計算過程如下:
步驟5:計算關鍵詞語境中上下文窗口的左右窗口n值,其具體計算過程如下:
上式為左邊窗口允許的一個信息損失量的邊界條件,為用戶允許的一個閾值,只有滿足這個邊界條件,就可以確定左邊窗口的n值
同理右邊窗口的確定,有下式:
上式為右邊窗口允許的一個信息損失量的邊界條件,為用戶允許的一個閾值,只有滿足這個邊界條件,就可以確定右邊窗口的n值
這里左窗口的n值大小不一定等于右邊窗口大小,主要根據上兩式計算可得。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川用聯信息技術有限公司,未經四川用聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610833078.0/1.html,轉載請聲明來源鉆瓜專利網。





