[發(fā)明專利]一種用于非結(jié)構(gòu)化文本的短語提取方法及裝置在審
| 申請?zhí)枺?/td> | 201910365420.2 | 申請日: | 2019-04-30 | 
| 公開(公告)號: | CN111950271A | 公開(公告)日: | 2020-11-17 | 
| 發(fā)明(設(shè)計)人: | 周林 | 申請(專利權(quán))人: | 廣東小天才科技有限公司 | 
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/253 | 
| 代理公司: | 上海碩力知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31251 | 代理人: | 郭桂峰 | 
| 地址: | 523851 廣東省東*** | 國省代碼: | 廣東;44 | 
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 結(jié)構(gòu) 文本 短語 提取 方法 裝置 | ||
本發(fā)明屬于語言處理技術(shù)領(lǐng)域,公開了一種用于非結(jié)構(gòu)化文本的短語提取方法及裝置,其方法包括:生成每種短語類型的短語提取規(guī)則;獲取非結(jié)構(gòu)化文本;根據(jù)所述短語提取規(guī)則,從所述非結(jié)構(gòu)化文本中提取出短語。本發(fā)明通過建立短語提取規(guī)則,有效解決了從非結(jié)構(gòu)化文本中提取所需類型的短語的問題,不僅可獲取大量短語,以用于豐富作文素材庫,而且相對于人工搜集方式,搜集效率高。
技術(shù)領(lǐng)域
本發(fā)明屬于語言處理技術(shù)領(lǐng)域,特別涉及一種用于非結(jié)構(gòu)化文本的短語提取方法及裝置。
背景技術(shù)
在當前語文作文的教學過程中,作文素材的重要性被反復強調(diào)。所謂“巧婦難為無米之炊”,如果要想寫好作文就必須具有豐富的作文素材,這樣寫作文時才會做到下筆如有神。
目前,作文素材的積累主要通過學生自己閱讀課外書籍,然后將書籍中的一些短語記錄下來,以便后續(xù)寫作文時進行靈活應(yīng)用。但是,由于學生閱讀的書籍有限,使得學生自己積累的作文短語素材不足以支撐學生寫好各種類型的作文。因此,需要為學生提供一個可供直接學習的作文短語素材庫。而在現(xiàn)有技術(shù)中,并沒有一種可快速搜集作文短語素材的方法,通過人工的方式來搜集作文短語素材,不僅會耗費大量的人力和物力,且效率較低。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用于非結(jié)構(gòu)化文本的短語提取方法及裝置,通過建立短語提取規(guī)則,有效解決了從非結(jié)構(gòu)化文本中提取所需類型的短語的問題,相對于人工搜集方式,搜集效率高。
本發(fā)明提供的技術(shù)方案如下:
一方面,提供一種用于非結(jié)構(gòu)化文本的短語提取方法,包括:
生成每種短語類型的短語提取規(guī)則;
獲取非結(jié)構(gòu)化文本;
根據(jù)所述短語提取規(guī)則,從所述非結(jié)構(gòu)化文本中提取出短語。
進一步優(yōu)選地,所述生成每種短語類型的短語提取規(guī)則具體包括:
建立短語類型庫,所述短語類型庫包括多種短語類型;
獲取每種短語類型的訓練樣本集,所述訓練樣本集包括訓練文本及提取出的短語;
根據(jù)每種短語類型的訓練樣本集,生成每種短語類型對應(yīng)的短語提取規(guī)則。
進一步優(yōu)選地,所述根據(jù)每種短語類型的訓練樣本集,生成每種短語類型對應(yīng)的短語提取規(guī)則具體包括:
對訓練樣本集中的每個訓練文本進行分詞,得到每個訓練文本對應(yīng)的各個詞語、詞語的詞性,以及詞語的位置序列;
根據(jù)每個訓練文本提取出的短語,分析得到每種短語類型對應(yīng)的短語提取特征,其中,所述短語提取特征包括詞性組合特征以及詞語位置特征;
利用機器學習方法,根據(jù)所得到的所述提取特征,生成每種短語類型對應(yīng)的短語提取規(guī)則。
進一步優(yōu)選地,還包括:
獲取基礎(chǔ)詞語;
所述根據(jù)所述短語提取規(guī)則,從所述非結(jié)構(gòu)化文本中提取出短語具體包括:
根據(jù)所述短語提取規(guī)則和所述基礎(chǔ)詞語,從所述非結(jié)構(gòu)化文本中提取出包含所述基礎(chǔ)詞語的短語。
進一步優(yōu)選地,所述根據(jù)所述短語提取規(guī)則和所述基礎(chǔ)詞語,從所述非結(jié)構(gòu)化文本中提取出包含所述基礎(chǔ)詞語的短語具體包括:
在所述非結(jié)構(gòu)化文本中找到所述基礎(chǔ)詞語;
以所述基礎(chǔ)詞語為基礎(chǔ),根據(jù)所述短語提取規(guī)則及所述基礎(chǔ)詞語的詞性,從所述非結(jié)構(gòu)化文本中找到符合提取特征的目標詞語;
組合所述基礎(chǔ)詞語和所述目標詞語,得到包含所述基礎(chǔ)詞語的短語。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東小天才科技有限公司,未經(jīng)廣東小天才科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910365420.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機械結(jié)構(gòu)和光學結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機械結(jié)構(gòu)和光學結(jié)構(gòu)





