日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于倒排索引的評估類文檔不定長詞句的查詢方法有效

專利信息
申請號: 201811153438.8 申請日: 2018-09-30
公開(公告)號: CN109284352B 公開(公告)日: 2022-02-08
發明(設計)人: 沈毅;趙虹博;楊朔;王宏志;張淼 申請(專利權)人: 哈爾濱工業大學
主分類號: G06F16/31 分類號: G06F16/31;G06F40/289;G06F40/242
代理公司: 暫無信息 代理人: 暫無信息
地址: 150001 黑*** 國省代碼: 黑龍江;23
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 索引 評估 文檔 定長 詞句 查詢 方法
【權利要求書】:

1.一種基于倒排索引的評估類文檔不定長詞句的查詢方法,其特征在于它包括以下步驟:

步驟一:將待查詢文檔進行數據預處理,統一轉換為純文本格式存儲,并添加自定義詞典和停用詞表,利用jieba分詞方法,采用Tire樹結構存儲單詞,生成DAG圖并基于DP算法計算最優切分方案,并通過中文詞匯BMES狀態表記法來進行分詞處理,得到單詞詞典與詞頻信息;

步驟二:基于完全重建策略的倒排索引原理,通過調整存儲結構、強化單詞位置信息、壓縮存儲空間,建立自適應倒排表和倒排生成文件,實現快速提取單詞位置、頻率信息;

步驟三:結合所需要查找不定長詞句的信息,通過倒排表索引詞句中各個分詞位置信息,基于字符串匹配方法識別不定長詞句位置信息并索引其所在段落,來完成評估類文檔不定長詞句的查詢功能。

2.根據權利要求1所述的基于倒排索引的評估類文檔不定長詞句的查詢方法,其特征在于所述的步驟一具體包括:

將待查詢文檔數據預處理為純文本格式,存儲在同一目錄下,記為數據集D;在進行jieba分詞前,須添加自定義詞典和停用詞表,設jieba分詞詞典為S0,自定義詞典包含專業領域術語記為U;則自定義單詞詞典集合S′可表示為:

S′=S0∪U;

其中S0為jieba分詞詞典中所有單詞構成的集合,U代表評估類文檔中專業領域術語所構成的集合;

停用詞表包含常用詞庫,記為C1;數字,記為C2;字母,記為C3,停用詞表C可表示為:

C=C1∪C2∪C3

其中C1為包含日常用語常用詞匯的單詞所構成的集合;C2為數字0至9所構成的集合;C3為英文字母所構成的集合;

在得到自定義詞典S′和停用詞表C后,最終單詞詞典SD可以表示為:

SD=(S′-C)∪C′;

C′={c′1,c′2,...,c′n};

其中C′表示具有特殊含義的字母與數字組合而成的集合,在自定義詞典S′與停用詞表C做差集后,與C′做并集運算得到單詞詞典SD;

在精確模式下對待處理文檔數據進行改進的jieba分詞,得到分詞結果以及詞頻統計信息并保存,改進的jieba分詞具體步驟如下:

1)依據單詞詞典SD對數據集D中的所有句子進行切分,將所有可以切分成詞的單詞存儲到Trie樹中,同時將每個詞的出現次數轉換為頻率,通過快速詞圖掃描,將所有可能的分詞情況生成DAG圖(Directed Acyclic Graph,有向無環圖);

2)在得到了多種情況下的切分方案后,采用DP算法(Dynamic Programming,動態規劃算法)來查找最大概率路徑Rmax,對于DAG中的每個節點,其權重為對應詞語的詞頻,記為wi,計算方法如下:

由DAG圖構成切分路徑Route集合,包含k個切分方案:

Route={R1,R2,...,Rk};

其中任意一個切分方案Ri是由m個具有順序結構關系的單詞構成的序列:

Ri=[word1,word2,...,wordm]i∈[1,k];

對于DAG中k個切分方案所包含的全部n個節點單詞,其出現的概率為對應單詞詞頻在所有單詞詞頻之和中的占比,可表示為:

為了選取最大概率路徑Rmax,須使其路徑上的單詞權重概率之和W最大:

對于整個句子的最優路徑Rmax和一個末端節點wx,對于其可能存在的多個前驅節點wi,wj,wk,…,wz,設達到wi,wj,wk,wz的最大路徑分別為Rmaxi,Rmaxj,Rmaxk,Rmaxz有:

Rmax=max(Rmaxi,Rmaxj,Rmaxk,...,Rmaxz)+Weight(wx)Rmax∈Route;

于是問題轉化為求Rmaxi,Rmaxj,Rmaxk,…,Rmaxz組成的最優路徑,其中的最優解是全局的最優解的一部分,因此狀態轉移方程為:

Rmax=max{max(Rmaxi,Rmaxj,Rmaxk,...,Rmaxz)+Weight(wx)}Rmax∈Route;

3)對于單詞詞典SD中未登錄的詞,通過建立HMM,即Hidden Markov Model,隱馬爾科夫模型,用于描述一個含有隱含未知參數的馬爾可夫過程,采用Viterbi路徑方法來尋找分詞結果,其方法描述如下:

給定HMM模型狀態空間,共有k個狀態,初始狀態i的概率為πi,從狀態i到狀態j的轉移概率為ai,j;設觀察到的輸出為y1,...,yT;產生觀察結果的最有可能的狀態序列x1,...,xT由遞推關系給出:

其中Vt,k是前t個最終狀態為k的觀測結果最有可能對應的狀態序列的概率,通過保存向后指針記錄在上式中用到的狀態x可以獲得Viterbi路徑,聲明一個函數Ptr(k,t),若它返回t>1時計算Vt,k用到的x值,或若t=1時的k,則有:

通過對中文詞匯按照BMES四個狀態來進行標記,B是begin開始位置,M是middle中間位置,E是end結束位置,S是single單獨成詞的位置;通過構建的HMM模型對大量語料進行訓練后,依靠Viterbi路徑方法就可以得到一個概率最大的BMES序列,基于這個序列對句子結構進行重新組合,即可得到分詞結果。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201811153438.8/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖、流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产精彩视频一区二区| 国产精品黑色丝袜的老师| 国产精品视频久久久久久 | 国产91九色视频| 国产麻豆一区二区三区在线观看| 91精品黄色| 精品国产九九| 91夜夜夜| 99精品一区| 国产精品日韩三级| 国产精品伦一区二区三区级视频频| 国产一区二区精品免费| 国产原创一区二区 | 综合国产一区| 视频一区二区中文字幕| 国产精品日韩视频| 中文字幕日韩有码| 狠狠躁夜夜躁| 国产精品日韩电影| 国产精品日韩三级| 国产一区免费播放| 国产一级不卡毛片| 国产精品午夜一区二区三区视频| 国产精品免费不卡| 亚洲色欲色欲www| 久久久一区二区精品| 婷婷午夜影院| 久久国产精品精品国产| 国产一区www| 亚洲乱在线| 国产日韩欧美网站| 狠狠色噜噜狠狠狠狠黑人| 国产精品视频久久久久久久| 国产精品一卡二卡在线观看| 波多野结衣女教师电影| 国产精品一区在线观看| 久久99亚洲精品久久99果| 久久99精品久久久久婷婷暖91| 亚洲欧洲另类精品久久综合| 亚洲一二区在线观看| 欧美日韩一区电影| 国产一级不卡视频| 午夜激情电影在线播放| 色噜噜狠狠狠狠色综合久 | 国产精品高潮呻| 精品国产一区二区在线| 国产精品视频一区二区三| 久久国产精彩视频| 亚洲国产精品97久久无色| 99国产精品丝袜久久久久久| 国产欧美一区二区三区免费看| 日韩精品久久久久久久的张开腿让| 国产精品18久久久久白浆| 亚洲欧美另类久久久精品2019| 国产精品久久久久久久久久久久久久久久久久 | 91精品一区二区中文字幕| 李采潭无删减版大尺度| 福利片午夜| 国产精品欧美一区乱破| 日韩精品免费播放| 国产麻豆精品一区二区| 人人澡超碰碰97碰碰碰| 午夜肉伦伦| 清纯唯美经典一区二区| 97人人模人人爽人人喊小说| 欧美高清性xxxxhd| 国产精品二区一区二区aⅴ| 国产视频一区二区视频| 国产精品日韩三级| 99精品区| 91国偷自产一区二区介绍| 日韩av一二三四区| 日韩午夜电影院| 高清国产一区二区| 91亚洲国产在人线播放午夜| 中文字幕一区二区三区乱码视频 | 日本一区二区三区中文字幕 | 中文字幕欧美久久日高清| 欧美大片一区二区三区| 欧美日韩国产在线一区二区三区| 久久久精品a| 97涩国一产精品久久久久久久| 在线亚洲精品| 久久久中精品2020中文| 久久精品视频中文字幕| 欧美在线一区二区视频| 国产91一区| 丝袜诱惑一区二区三区| 亚洲欧美色图在线| 午夜国产一区二区三区四区| 国产精品一区二区人人爽| 中文字幕欧美日韩一区| 欧美一区二区三区久久久久久桃花| 精品一区二区三区自拍图片区| 日本少妇一区二区三区| 亚洲1区在线观看| 蜜臀久久99精品久久久久久网站| 国产色婷婷精品综合在线播放| 农村妇女精品一二区| 亚洲精品久久久久999中文字幕| 日本伦精品一区二区三区免费| 日韩一级免费视频| 国产一区二区视频播放| 国产品久久久久久噜噜噜狼狼| а√天堂8资源中文在线| 国产免费观看一区| xxxx18hd护士hd护士| 99精品久久99久久久久| 日日噜噜夜夜狠狠| 日本大码bbw肉感高潮| 国产一二区视频| 欧美一区二区三区艳史| 国产麻豆精品久久| 狠狠躁日日躁狂躁夜夜躁| 国产精品99久久久久久宅男| 亚洲精品国产一区| 日本久久丰满的少妇三区| 欧美久久久一区二区三区| 国产一区三区四区| 男女午夜影院| 久久一级精品| 国产精品99一区二区三区| aaaaa国产欧美一区二区 | 中文字幕在线一区二区三区| 一区二区中文字幕在线| 亚洲欧美一区二区三区不卡| 国产原创一区二区 | 国产麻豆一区二区| 97人人澡人人爽人人模亚洲 | 日韩欧美多p乱免费视频| 国产精品99999999| 狠狠插狠狠插| 亚洲精品少妇一区二区 | 国产欧美精品va在线观看| 国产九九影院| 日韩av中文字幕在线免费观看| 国产91视频一区| 亚洲欧美日韩一级| 国产88av| 国产精品香蕉在线的人| 欧美一区二区三区爽大粗免费| 亚洲高清乱码午夜电影网| 国产玖玖爱精品视频| 欧美一区二区色| 久久天天躁夜夜躁狠狠躁2022| 91精品免费观看| 久久影视一区二区| 中文字幕欧美久久日高清| 国产性生交xxxxx免费| 国产欧美日韩一区二区三区四区| 亚洲乱码av一区二区三区中文在线:| 91超薄丝袜肉丝一区二区| 午夜影院黄色片| 91看片免费| 99久久国产综合精品尤物酒店| 亚洲欧美国产一区二区三区| 免费看性生活片| 欧美一区视频观看| 国产精品色婷婷99久久精品| 欧美一区二区三区四区五区六区| 国产精品一区二区日韩新区| 欧美69精品久久久久久不卡| 久久免费福利视频| 92久久精品| 狠狠插影院| 久久久综合亚洲91久久98| 日韩一区二区中文字幕| 日韩三区三区一区区欧69国产| 91精品国产高清一区二区三区| 午夜看片网| 久久九精品| 中文字幕欧美一区二区三区| 国产高清精品一区二区| 视频一区二区中文字幕| 99欧美精品| 亚洲欧美国产中文字幕| 中文字幕一区三区| 狠狠色丁香久久婷婷综合丁香| 国产精品国精产品一二三区| 亚洲乱强伦| 99久久精品免费看国产免费粉嫩| 91精品福利在线| 野花社区不卡一卡二| 欧美日韩激情在线| 欧美xxxxxhd| 玖玖精品国产| 狠狠躁狠狠躁视频专区| 国产精品九九九九九九| 国产精品国产三级国产播12软件 | 中文字幕制服狠久久日韩二区| 午夜精品一区二区三区三上悠亚 | 国产精品高潮呻吟三区四区 | 国产一区二区激情| 精品久久久久一区二区| 91国偷自产一区二区介绍| 亚洲国产一二区| 久久久久国产亚洲| 国产乱一区二区三区视频| 狠狠色狠狠色综合婷婷tag| 国产三级欧美三级日产三级99| 色综合久久久久久久粉嫩| 国产精一区二区| 国产亚洲精品久久网站| 久久久久久久亚洲国产精品87| 欧美日韩国产精品一区二区| 国产一区二区三级| 亚洲乱小说| 国产精品电影一区二区三区| 中文字幕在线乱码不卡二区区| 国产在线视频二区| 欧美视屏一区| 久久久综合香蕉尹人综合网| 午夜激情电影在线播放| 欧美亚洲视频二区| 久久er精品视频| 日韩免费一级视频| 午夜情所理论片| 欧美色综合天天久久综合精品| 国产乱人乱精一区二视频国产精品| 电影91久久久| 久久久久久久亚洲视频| 97国产精品久久| 91福利视频免费观看| 一区精品二区国产| 欧美日韩一区二区三区精品| 欧美日韩九区| 国产一区二区免费电影| 销魂美女一区二区| 日韩一区免费| 欧美乱妇高清无乱码一级特黄| 国产1区2| 日韩av三区| 欧美午夜理伦三级在线观看偷窥 | 强行挺进女警紧窄湿润| 亚洲精品日本久久一区二区三区| 精品国产一区二| 久久激情综合网| 日本一区二区三区免费视频| 日韩欧美亚洲视频| 久久福利免费视频| 精品国产一区二区三区高潮视| 国产精品久久久久久久四虎电影| 国产精品国产一区二区三区四区 | 夜夜躁日日躁狠狠躁| 久久夜色精品亚洲噜噜国产mv| 精品国产一区二区三区国产馆杂枝|