[發(fā)明專利]短語(yǔ)挖掘方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201610388226.2 | 申請(qǐng)日: | 2016-06-02 |
| 公開(kāi)(公告)號(hào): | CN107463548B | 公開(kāi)(公告)日: | 2021-04-27 |
| 發(fā)明(設(shè)計(jì))人: | 史黎鑫;張海波;趙宇;駱衛(wèi)華;林鋒;卞華明;管陶然;劉禹 | 申請(qǐng)(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289;G06F40/47 |
| 代理公司: | 北京博思佳知識(shí)產(chǎn)權(quán)代理有限公司 11415 | 代理人: | 李威;林祥 |
| 地址: | 英屬開(kāi)曼群島大開(kāi)*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 短語(yǔ) 挖掘 方法 裝置 | ||
1.一種短語(yǔ)挖掘方法,其特征在于,包括:
通過(guò)預(yù)配置的組合策略從原始語(yǔ)料中抽取候選短語(yǔ)集合,包括:根據(jù)所述組合策略中包含的多個(gè)子策略分別從所述原始語(yǔ)料中抽取候選短語(yǔ),以得到候選短語(yǔ)集合;
從所述候選短語(yǔ)集合中,篩選出滿足預(yù)設(shè)質(zhì)量條件的短語(yǔ);
根據(jù)所述滿足預(yù)設(shè)質(zhì)量條件的短語(yǔ),對(duì)所述原始語(yǔ)料進(jìn)行重新切割,得到更新候選短語(yǔ)集合;
將所述更新候選短語(yǔ)集合作為所述候選短語(yǔ)集合,以執(zhí)行對(duì)所述更新候選短語(yǔ)集合的迭代操作,直至所述更新候選短語(yǔ)集合滿足預(yù)定義的迭代停止條件。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過(guò)預(yù)配置的組合策略從原始語(yǔ)料中抽取候選短語(yǔ)集合,包括:
根據(jù)所述組合策略中包含的頻繁項(xiàng)挖掘子策略,獲取所述原始語(yǔ)料中包含的頻繁項(xiàng)集;
根據(jù)所述組合策略中包含的句法分析子策略,對(duì)所述原始語(yǔ)料進(jìn)行句法分析,以獲取所述原始語(yǔ)料中的名詞性信息;
將所述頻繁項(xiàng)集與所述名詞性信息進(jìn)行合并,得到所述候選短語(yǔ)集合。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所述候選短語(yǔ)集合中,篩選出滿足預(yù)設(shè)質(zhì)量條件的短語(yǔ),包括:
提取候選短語(yǔ)的預(yù)設(shè)特征信息;
根據(jù)所述預(yù)設(shè)特征信息建立分類器;
通過(guò)所述分類器對(duì)所述候選短語(yǔ)集合中的候選短語(yǔ)進(jìn)行分類,以篩選出滿足預(yù)設(shè)質(zhì)量條件的短語(yǔ)。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述預(yù)設(shè)特征信息包括以下至少之一:與候選短語(yǔ)的內(nèi)容相關(guān)的第一特征信息、與候選短語(yǔ)的內(nèi)容無(wú)關(guān)的第二特征信息。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述第一特征信息包括以下至少之一:
候選短語(yǔ)與預(yù)設(shè)停用詞之間的詞頻-逆向文件頻率值;其中,所述預(yù)設(shè)質(zhì)量條件包括:所述詞頻-逆向文件頻率值不大于第一預(yù)設(shè)數(shù)值;
候選短語(yǔ)的構(gòu)成元素之間的互信息值;其中,所述預(yù)設(shè)質(zhì)量條件包括:所述互信息值不小于第二預(yù)設(shè)數(shù)值;
候選短語(yǔ)的邊界信息熵;其中,所述預(yù)設(shè)質(zhì)量條件包括:所述邊界信息熵不大于第三預(yù)設(shè)數(shù)值。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述第二特征信息包括以下至少之一:
候選短語(yǔ)是否位于成對(duì)出現(xiàn)的標(biāo)點(diǎn)符號(hào)之間;其中,所述預(yù)設(shè)質(zhì)量條件包括:候選短語(yǔ)位于成對(duì)出現(xiàn)的標(biāo)點(diǎn)符號(hào)之間;
候選短語(yǔ)內(nèi)是否包含連字符;其中,所述預(yù)設(shè)質(zhì)量條件包括:候選短語(yǔ)內(nèi)包含連字符。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
將所述滿足預(yù)設(shè)質(zhì)量條件的短語(yǔ)轉(zhuǎn)換為預(yù)設(shè)向量空間中的第一短語(yǔ)向量;
將所述候選短語(yǔ)集合中的其他候選短語(yǔ)轉(zhuǎn)換為所述預(yù)設(shè)向量空間中的第二短語(yǔ)向量;
選取與所述第一短語(yǔ)向量之間的距離不大于預(yù)設(shè)距離的第二短語(yǔ)向量,并判定相應(yīng)的候選短語(yǔ)為滿足預(yù)設(shè)質(zhì)量條件的短語(yǔ)。
8.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述滿足預(yù)設(shè)質(zhì)量條件的短語(yǔ),對(duì)所述原始語(yǔ)料進(jìn)行重新切割,得到更新候選短語(yǔ)集合,包括:
獲取所述滿足預(yù)設(shè)質(zhì)量條件的短語(yǔ)的質(zhì)量得分,所述質(zhì)量得分來(lái)自所述分類器對(duì)相應(yīng)的候選短語(yǔ)的分類過(guò)程;
分別確定所述原始語(yǔ)料在每種切割方式下對(duì)應(yīng)得到的短語(yǔ)集合,并分別累計(jì)每個(gè)短語(yǔ)集合中包含的所述滿足預(yù)設(shè)質(zhì)量條件的短語(yǔ)對(duì)應(yīng)的質(zhì)量得分總和;
通過(guò)質(zhì)量得分總和最大的切割方式,對(duì)所述原始語(yǔ)料進(jìn)行重新切割,以得到所述更新候選短語(yǔ)集合。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)定義的迭代停止條件包括以下至少之一:
所述更新候選短語(yǔ)集合中包含的短語(yǔ)數(shù)量達(dá)到預(yù)設(shè)數(shù)量、所述更新候選短語(yǔ)集合中的每個(gè)短語(yǔ)相對(duì)于所述原始語(yǔ)料的頻率達(dá)到第一預(yù)設(shè)頻率、所述更新候選短語(yǔ)集合中的所有短語(yǔ)相對(duì)于所述原始語(yǔ)料的頻率之和達(dá)到第二預(yù)設(shè)頻率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610388226.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于組合的短語(yǔ)規(guī)則抽取方法
- 同義短語(yǔ)的挖掘方法和裝置及搜索相關(guān)內(nèi)容的方法和裝置
- 一種短語(yǔ)輸入方法及終端設(shè)備
- 一種電子病歷高質(zhì)短語(yǔ)抽取方法
- 信息提供裝置、終端裝置、信息提供系統(tǒng)以及信息提供方法
- 標(biāo)簽短語(yǔ)處理和相似度計(jì)算方法及裝置,電子和存儲(chǔ)設(shè)備
- 圖像描述方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 關(guān)鍵詞提取方法、裝置及存儲(chǔ)介質(zhì)
- 一種基于平滑短語(yǔ)主題模型的主題提取方法及裝置
- 在自動(dòng)化配音場(chǎng)景中實(shí)現(xiàn)短語(yǔ)音同步的方法和裝置
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





