[發明專利]一種機器智能輔助的扎根理論編碼優化方法有效
| 申請號: | 202010178957.0 | 申請日: | 2020-03-15 |
| 公開(公告)號: | CN111488725B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 盧暾;蔣特;顧寧 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F40/289 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 機器 智能 輔助 扎根 理論 編碼 優化 方法 | ||
1.?一種機器智能輔助的扎根理論編碼優化方法,其特征在于,具體步驟如下:
(1)數據預處理
在得到訪談錄音數據后,利用轉錄軟件或平臺,對錄音數據進行轉錄,并通過人工梳理的方式,得到相應的文字材料;
然后,通過分句分段工具,將訪談記錄切割成一個個語句塊;并通過人工核對檢查的方式,將分句分段結果進行適當的調整,得到語料集,作為編碼的原始材料;
(2)人工預編碼
對步驟(1)得到的對語料集進行人工預編碼,形成初步的編碼方案;預編碼算法中,通過循環編碼、隨機選取數據的方式,對選取的原始材料進行概念層次和主題層次的編碼,并不斷調整編碼框架,直至達到初步的信息飽和,或當前數據集數據已全部編碼;此外,在原有編碼的基礎上,可以繼續編碼新的數據,具備較高的靈活性;因此,當未達到信息飽和,或當用戶認為未編碼完成時,都可繼續編碼新的數據;
(3)編碼特征提取
在預編碼的編碼方案基礎上,進行編碼特征提取,實現后續數據的自動分類編碼;編碼特征的提取,采用TF-IDF方法;其中,TF代表的是Term?Frequency,即詞頻;用該詞在該條語料中出現的次數word_cnt,除以該條語料中的總詞數total_cnt進行計算,如公式1所示:
??????公式?1
IDF,是指Inverse?document?frequency,即逆向文件頻率,用來衡量一個詞語的普遍重要性;由總文件數目total_file除以包含該詞語的文件數目file_cnt,再將得到的商取以10為底的對數,即得到IDF的值,其計算式如公式2所示:
????公式?2
最后,將TF與IDF的值相乘,即得到TF-IDF的值,如公式3所示:
(4)自動編碼
在步驟3特征提取的基礎上,對新的語料集進行編碼分類,補充編碼框架中的語料集;此處,仍延續步驟3中提取的特征方法,以TF-IDF方法對新的語料集進行自動編碼分類;
對于中文語料集,先對文字材料進行分詞;去除常用詞后,將剩余的詞作為該語料集的特征詞;然后,通過這些詞計算該段文字與相應概念和主題分類的匹配度,將其歸類到匹配度最高的主題分類和編碼分類下;
具體地,一條新語料t和某語料集s的相似度計算如公式4所示:
????公式?4
這里,m,n分別為新語料t和語料集s的特征詞個數;score(ti,sj)代表的是語料t中第i個詞匯和語料s中第j個詞匯的在相似度上的得分,具體計算方式如公式5所示:
?????(公式?5)
其中,dis(x,y)代表詞匯x和詞匯y在詞向量數據集中的空間距離,threshold代表:評估兩個詞仍屬于近義詞的最大的空間距離;
計算出新語料所有主題語料集的相似度后,將該新語料分配到相似度最高的主題下;然后,再計算該語料與該主題下所有概念語料集的相似度,將該主題劃分到對應的概念語料集中;
(5)特征集擴充
待每次新數據編碼完成后,人為檢查匹配度較低的分類項,進行調整;如出現現有的編碼框架之外的新概念或新主題的情況,則對編碼框架進行調整;然后,再次通過步驟(3)中的方式,提取出新語料的特征集,保留到語料庫中;不斷重復編碼過程,直至全部數據完成編碼。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010178957.0/1.html,轉載請聲明來源鉆瓜專利網。





