[發(fā)明專利]一種機(jī)器智能輔助的扎根理論編碼優(yōu)化方法有效
| 申請?zhí)枺?/td> | 202010178957.0 | 申請日: | 2020-03-15 |
| 公開(公告)號: | CN111488725B | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計(jì))人: | 盧暾;蔣特;顧寧 | 申請(專利權(quán))人: | 復(fù)旦大學(xué) |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F40/289 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 機(jī)器 智能 輔助 扎根 理論 編碼 優(yōu)化 方法 | ||
本發(fā)明屬于定性研究技術(shù)領(lǐng)域,具體為一種機(jī)器智能輔助的扎根理論編碼優(yōu)化方法。本父母優(yōu)化方法的核心體現(xiàn)在兩個(gè)環(huán)節(jié):特征提取及自動(dòng)編碼分類:特征提取是根據(jù)同編碼分類中,文本在信息上具有較高的特征一致性設(shè)計(jì),提取同分類下的文本信息特征,作為后續(xù)自動(dòng)分類環(huán)節(jié)的分類依據(jù);自動(dòng)編碼是根據(jù)在特征提取環(huán)節(jié)中提取的分類特征,計(jì)算新文本與各分類語料的相似度,將其歸類到相似度最高的分類中;在整個(gè)編碼過程中,會(huì)結(jié)合人為調(diào)整、特征再提取等過程,以獲取更精確的編碼結(jié)果。本發(fā)明是在經(jīng)典的扎根理論編碼過程中融合了機(jī)器智能技術(shù),以優(yōu)化編碼過程,提高研究人員對數(shù)據(jù)處理和編碼的效率。
技術(shù)領(lǐng)域
本發(fā)明屬于定性研究技術(shù)領(lǐng)域,具體涉及一種扎根理論編碼優(yōu)化方法。
背景技術(shù)
在定性研究中,扎根理論是一種被廣泛采用的定性研究方法。扎根理論是由格拉澤和施特勞斯于1967年提出的一種從資料中建立理論的特殊方法論。研究者可以從傳記、日記、錄音、手稿、報(bào)告等材料,或者通過補(bǔ)充采訪和田野觀察記錄的方式進(jìn)一步補(bǔ)充相關(guān)材料,進(jìn)而在這些材料的基礎(chǔ)上,深入分析某一現(xiàn)象或問題的本質(zhì)。
其中,補(bǔ)充采訪獲取信息材料的方式,是現(xiàn)階段研究者采用對社會(huì)現(xiàn)象展開研究的一種常用方法。該方法強(qiáng)調(diào),從沒有理論假設(shè)出發(fā),從實(shí)際觀察入手,研究者通過招募符合研究現(xiàn)象特征,有過相關(guān)經(jīng)歷的受訪者。在從與他們的交流中,獲取一手的信息材料,通過深入訪談的方式,分析挖掘現(xiàn)象背后深層次的原因,歸納出經(jīng)驗(yàn)?zāi)J?,隨后發(fā)展為一定高度的理論。
訪談的方式,對原始資料的收集,必然會(huì)涉及到對受眾的訪談,而訪談?dòng)謺?huì)產(chǎn)生大量的訪談數(shù)據(jù)。而研究者則需要在這些大量的訪談數(shù)據(jù)中,整理形成編碼框架。而這樣的整理工作,通常會(huì)耗費(fèi)研究人員大量的精力,而實(shí)際這個(gè)編碼的過程,存在一定量的重復(fù)性工作,有一定的規(guī)律可循,部分工作可由機(jī)器替代。
發(fā)明內(nèi)容
為了更好地協(xié)助定性研究者開展對訪談資料的整理分析工作,本發(fā)明設(shè)計(jì)了一種機(jī)器輔助的扎根理論編碼優(yōu)化方法。
通常,在大部分場景下,原始資料的收集,會(huì)涉及對受眾的訪談,而訪談?dòng)謺?huì)產(chǎn)生大量的訪談數(shù)據(jù)。研究者需要在這些大量的訪談數(shù)據(jù)中,整理形成編碼框架。而這樣的整理工作,通常會(huì)耗費(fèi)研究人員大量的精力,而實(shí)際這個(gè)編碼的過程,按照一定的邏輯步驟進(jìn)行,有一定的規(guī)律可循,機(jī)器可以替代一部分的整理、分類工作。故而,本方面提出一種對編碼過程的優(yōu)化方法。其中,編碼的流程如附圖1所示。以下介紹本發(fā)明方法的具體步驟。
(1)數(shù)據(jù)預(yù)處理
在得到訪談錄音數(shù)據(jù)后,研究人員可利用轉(zhuǎn)錄軟件或平臺,對錄音數(shù)據(jù)進(jìn)行轉(zhuǎn)錄,并通過人工梳理的方式,得到相應(yīng)的文字材料。
隨后,通過分句分段工具,將訪談?dòng)涗浨懈畛梢粋€(gè)個(gè)語句塊;并通過人工核對檢查的方式,將分句分段結(jié)果進(jìn)行適當(dāng)?shù)恼{(diào)整,得到語料集,作為編碼的原始材料。
(2)人工預(yù)編碼
對步驟(1)得到的對語料集進(jìn)行人工預(yù)編碼,形成初步的編碼方案。預(yù)編碼算法中,通過循環(huán)編碼、隨機(jī)選取數(shù)據(jù)的方式,對選取的原始材料進(jìn)行概念層次和主題層次的編碼,并不斷調(diào)整編碼框架,直至達(dá)到初步的信息飽和,或當(dāng)前數(shù)據(jù)集數(shù)據(jù)已全部編碼;此外,算法還支持在原有編碼的基礎(chǔ)上,繼續(xù)編碼新的數(shù)據(jù),具備較高的靈活性。因此,當(dāng)未達(dá)到信息飽和,或當(dāng)用戶認(rèn)為未編碼完成時(shí),都可繼續(xù)編碼新的數(shù)據(jù)。該預(yù)編碼算法參見附錄1,其流程為:
每次編碼過程,可以在上次編碼的結(jié)果集合上繼續(xù)進(jìn)行,也可以在空的編碼結(jié)果上進(jìn)行。每次編碼過程是在新的數(shù)據(jù)集中,隨機(jī)選取未編碼的數(shù)據(jù)PD(算法第4-11行)。通過人工編碼的方式,為該條數(shù)據(jù)生成其對應(yīng)的概念CN(算法第12行);然后,在當(dāng)前編碼結(jié)果CT中,逐個(gè)在主題集合TS中,查找是否已存在對應(yīng)的概念(算法第13-22行);如果,已存在該概念,則將該概念添加對應(yīng)的主題,對應(yīng)的概念集合中(算法第23-29行)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于復(fù)旦大學(xué),未經(jīng)復(fù)旦大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010178957.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





