[發明專利]面向領域的文本大數據快速分詞方法在審
| 申請號: | 201811143681.1 | 申請日: | 2018-09-25 |
| 公開(公告)號: | CN110956036A | 公開(公告)日: | 2020-04-03 |
| 發明(設計)人: | 李傳藝;葛季棟;喬洪波;姚林霞;周筱羽;駱斌 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/247 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 領域 文本 數據 快速 分詞 方法 | ||
1.面向領域的文本大數據快速分詞技術,其特征在于,包含以下步驟:
步驟一:使用Mapreduce處理所有輸入句子,使用mapreduce操作將文本語料轉化為字對映射表;
步驟二:首先獲取待分詞的句子,連接每一對相鄰的字形成“邊”,然后依次對句子中的邊進行遍歷,并選擇合適的邊進行切斷;
切邊后句子形成的片段則為最后的分詞結果。
2.如權利要求1所述的方法,其特征在于,步驟一中所有的輸入句子應當盡量包含所有的待分詞句子,以使分詞效果達到最佳。即輸入句子的集合應當是待分詞句子集合的超集,并可選地包含一些來自通用語料的句子。
3.如權利要求1所述的方法,其特征在于,步驟一中將輸入文本s轉化為字對映射表的中間過程為:
首先使用map操作生成<鄰接字對,1>的鍵值對:
然后使用reduce操作將相同鍵的值累加,得到<鄰接字對,出現頻次>映射表。
4.如權利要求1所述的方法,其特征在于,步驟二可細分為如下兩次對邊的遍歷:
第一次遍歷時,對于每一條邊,從字對映射表中查詢其出現頻次作為該邊的權重填入句子中,若不能查到則該邊權重為0;
第二次遍歷時,對于每一條邊,如果當前邊權重除以上一條邊權重小于閾值,則切斷當前邊;如果上一條邊權重除以當前邊權重小于閾值,則切斷上一條邊。
5.如權利要求4所述的方法,其特征在于,一次遍歷的方向為從句首到句尾。
6.如權利要求4所述的方法,其特征在于,切邊時的判斷依據不采用邊權重的絕對值,即,鄰接字對出現頻次,而采用相對值,即與前一條邊的比值,并為該比值設定閾值。
7.如權利要求4所述的方法,其特征在于,切分得到的片段是不定長的,因此可以識別由多個字組成的詞。
8.如權利要求6所述的方法,其特征在于,閾值的取值范圍為(0,1),可以自行調整。
9.如權利要求6和7所述的方法,其特征在于,通過調整閾值,不僅可以切分出詞語,還可以切分出短語。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811143681.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電子傳輸材料及其應用
- 下一篇:一種水中絡合重金屬吸附劑制備方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





