[發明專利]一種領域術語抽取的方法有效
| 申請號: | 201410831590.2 | 申請日: | 2014-12-26 |
| 公開(公告)號: | CN104598530B | 公開(公告)日: | 2018-06-05 |
| 發明(設計)人: | 江潮;張芃 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京康盛知識產權代理有限公司 11331 | 代理人: | 張宇峰 |
| 地址: | 430070 湖北省武漢市東湖開發區光谷軟件*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 領域術語 詞頻 抽取 特征參數 互信息 語素 獨立性 原始語料 維度 分析 保證 | ||
1.一種領域術語抽取的方法,其特征在于,包括:
對原始語料以語素為單位進行任意長度的切分,獲得若干候選術語,其中,每個所述候選術語由至少二個語素組成;
從詞頻、互信息、左右熵、獨立性和結構多個維度對每個所述候選術語進行分析,確定該候選術語的多個特征參數;
利用確定的所述多個特征參數,計算出該候選術語的領域術語度;
抽取所述領域術語度高于閾值的候選術語作為新的領域術語;
其中,按照如下公式計算出每個候選術語的領域術語度Termhood:
Termhood=K1·P+K2·MI+K3·LRH+K4·IPW+K5·IPC+K6·PC
其中,P為候選術語在所述原始語料中的出現概率;MI為候選術語的兩部分的互信息的最小值,其中候選術語被分割為任意長度的兩部分;LRH為候選術語的左右熵;IPW為候選術語具有的每個語素在歷史語料庫中獨立成詞的概率;IPC為候選術語的每個語素在所述歷史語料庫中處于詞頭位置、詞中位置和詞尾位置的出現概率;PC為候選術語中的領域概率;K1、K2、K3、K4、K5和K6為通過給定樣本利用最小二乘法計算出的領域術語度調節系數,所述領域術語度調節系數為多元線性回歸系數;
其中,按照如下公式計算候選術語C獨立成詞的概率IPW(C):
IPW(C)=IPW(c1c2…c1)=IPW(c1)·IPW(c2)·…·IPW(cl);
其中,c1、c2、…、cl分別為候選術語C中相應位置的語素,IPW(c1)、IPW(c2)、…、IPW(cl)為每個語素獨立成詞的概率;
其中,按照如下公式計算候選術語中的每個語素x獨立成詞的概率IPW(x):
其中,word(x)為語素x在歷史語料庫中獨立成詞的次數,times(x)表示語素x在歷史語料庫中出現的總次數;
其中,對于待計算的l元字符串C=c1c2…cl,根據內部詞概率表,計算IPC的方法為:
其中,IPC(x,pos)表示語素x出現在位置pos的概率;pos取值為{0,1,2},0表示位置在詞頭、1表示位置在詞中、2表示位置在詞尾;
其中,計算語素x出現在術語的詞頭、詞中、詞尾的概率,從而得到包含所有語素的內部詞概率表的方式如下:
其中,“*”表示和語素x組成術語的前后語素組合,times(x)表示術語x在術語語料庫中的出現次數;
其中,照如下公式計算候選術語的領域概率PC:
其中,P(F_ci)為候選術語的每個語素或語素組合在歷史語料庫中的出現概率,n為候選術語的語素個數或語素組合的個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410831590.2/1.html,轉載請聲明來源鉆瓜專利網。





