[發(fā)明專利]一種基于圖形理論的自然語言處理技術(shù)的研發(fā)方法在審
| 申請?zhí)枺?/td> | 202011435391.1 | 申請日: | 2020-12-10 |
| 公開(公告)號: | CN112906379A | 公開(公告)日: | 2021-06-04 |
| 發(fā)明(設計)人: | 杜爽 | 申請(專利權(quán))人: | 蘇州英特雷真智能科技有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/35;G06F40/44;G06F40/211;G06F16/901 |
| 代理公司: | 蘇州吳韻知識產(chǎn)權(quán)代理事務所(普通合伙) 32364 | 代理人: | 朱亮 |
| 地址: | 215000 江蘇省蘇州市元*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 圖形 理論 自然語言 處理 技術(shù) 研發(fā) 方法 | ||
1.一種基于圖形理論的自然語言處理技術(shù)的研發(fā)方法,其特征在于:所述研究方法如下:
1)通過圖數(shù)據(jù)庫對自然對話,按照漢字順序進行存儲,并即時形成N-Gram模型的字關(guān)聯(lián)統(tǒng)計;
2)將對話的句子,按照斷句規(guī)則進行處理,形成字的連接鏈,在這類數(shù)據(jù)達到一定量級,統(tǒng)計出同一個鏈上相鄰漢字的出現(xiàn)頻次,形成N-Gram的數(shù)據(jù);基于N-Gram的數(shù)據(jù),抽取詞語之間的關(guān)聯(lián)頻度數(shù)據(jù),對漢語詞匯的詞性進行標注,從而形成對話規(guī)則;
3)基于上述規(guī)則由漢字到詞到短語到句子形成金字塔結(jié)構(gòu),規(guī)則和漢字數(shù)據(jù)緊密綁定,通過圖論方法,形成數(shù)據(jù)即處理單元的處理方法,并通過半監(jiān)督學習的方法,對形成的規(guī)則進行干預校準。
2.根據(jù)權(quán)利要求1所述的一種基于圖形理論的自然語言處理技術(shù)的研發(fā)方法,其特征在于:所述步驟2)的具體研究過程如下:
21)生成會話編碼,將會話進行句子拆分,標點符號歸集到前一句子;
22)將日常對話進行漢字拆分,按照漢字的順序記錄到圖數(shù)據(jù)庫中,以句為單元對順序關(guān)系進行標注;
23)對漢字進行統(tǒng)計,臨近漢字進行詞匯提取,詞性標注,三級詞頻統(tǒng)計;
24)詞匯順序關(guān)系進行統(tǒng)計;
25)面向全體數(shù)據(jù),抽取名詞性關(guān)鍵詞;
26)通過監(jiān)督教育不斷修改句型標注方法及數(shù)據(jù),最終形成詞法器,新數(shù)據(jù)通過語法器進行主題提取。
3.根據(jù)權(quán)利要求2所述的一種基于圖形理論的自然語言處理技術(shù)的研發(fā)方法,其特征在于:所述步驟24)具體為詞匯順序關(guān)系進行統(tǒng)計并抽象為句型標注,并對會話范圍內(nèi),上下文進行關(guān)聯(lián)關(guān)系標注。
4.根據(jù)權(quán)利要求2所述的一種基于圖形理論的自然語言處理技術(shù)的研發(fā)方法,其特征在于:所述步驟25)具體為面向全體數(shù)據(jù),抽取名詞性關(guān)鍵詞,將名詞為主語的句子進行分類標注,分析句子間的詞匯編碼相似度。
5.根據(jù)權(quán)利要求1所述的一種基于圖形理論的自然語言處理技術(shù)的研發(fā)方法,其特征在于:所述步驟2)斷句規(guī)則具體流程如下:
①將自然對話定義為場景進行編碼;
②判斷是否有下一句,按照句子進行漢字拆分;
③判斷漢字是否存在,漢字不存在時,建立漢字節(jié)點,頻次設置為1;漢字存在時,漢字頻次+1;
④判斷是否為該句第一漢字,不是該句第一漢字時,與前一漢字建立順序關(guān)系;是該句第一漢字時,標記為本句起紿漢字;
⑤判斷是否為該句最尾漢字,不是該最尾漢字時,進行下一個漢字的處理;是該最尾漢字時,標記為本句結(jié)束漢字。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州英特雷真智能科技有限公司,未經(jīng)蘇州英特雷真智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011435391.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





