謝林燕,劉紀偉,張 玉,張 峰
(國家計算機網絡應急技術處理協調中心河北分中心,河北 石家莊 050021)
0 引言
互聯網技術迅速發展,互聯網金融作為一種新生的金融形式逐漸發展起來;ヂ摼W金融網頁的業態識別是互聯網金融監測預警與風險防范的核心基礎。然而在實際中頻繁出現新興金融業態,相關網頁數量較少,其中只有少量的網頁經過人工標注。面對當前新興互聯網金融業態網頁訓練樣本過少的情況,如何實現對互聯網金融網頁的高效業態判定成為關注熱點。
網頁分類主要立足于文本分類,機器學習是網頁分類的一種常見方法,集中體現在網頁的特征選取、數據的特征表達上。文獻[1]提出了一種基于樸素貝葉斯協調分類器綜合網頁結構信息及內容文本的分類方法,通過組合分類器的方法,使分類性能得到了一定程度的提高。文獻[2]主要采用卷積神經網絡(Convolutional Neural Networks,CNN)進行文本分類,提出用于句子分類的單卷積層的卷積神經網絡(Text CNN),利用多個大小不同的卷積核來并行地提取不同的 n-gram 信息,然后對其進行最大池化(Max Pooling)操作提取重要的特征,從而完成分類。文獻[3]提出了循環卷積神經網絡(Recurrent Convolutional Neural Network,RCNN)模型,有效解決了固定窗口的卷積操作使得每一個詞向量的上下文受限的問題,實驗證明該模型在文本分類中普遍優于單獨的循環神經網絡(Recurrent Neural Network,RNN)或CNN 模型。文獻[4]設計了基于深度學習的高效網頁分類算法框架,利用深度神經網絡,搭建了一種多通道輸入、復合特征抽取結構的分類模型,有效地提高了網頁分類的準確率。
深度學習的優勢主要依賴于其大數據的提取能力,在樣本量足夠的情況下,深度學習往往可以取得較好的效果。然而對于互聯網金融網頁來說,數據量不足會導致模型出現過擬合的問題。因此,針對小數據集的小樣本學習技術是解決互聯網金融網頁分類問題的關鍵。文獻[5]通過對傳統支持向量機(Support Vector Machine,SVM)算法模型進行調整,引入新的參數控制模型超平面的位置,以緩解正負樣本不平衡對分類準確率的影響。文獻[6]提出基于主動學習的半監督支持向量機學習算法,以少量的有標記數據來訓練初始學習器,通過主動學習策略來選擇最佳訓練樣本,并通過刪除非支持向量來降低學習代價,獲得較好的學習效果。文獻[7]提出了一種基于遷移學習與權重支持向量機的圖像自動標注方法,解決了所選數據集規模較小,無法訓練出最優的卷積神經網絡的問題。文獻[8]基于遷移學習算法對SVM 模型進行優化(Transferlearning-Support Vector Machine,TLSVM),通過使用目標域少量已標記數據和大量相關領域的舊數據來為目標域構建一個高質量的分類模型。
關于小樣本學習,目前常用的有基于數據增強和基于遷移學習的方法;跀祿鰪姷姆椒,主要是利用輔助數據集或者輔助信息增強目標數據集中樣本的特征,或者擴充目標數據集,使模型能夠更好地提取特征[9];谶w移學習的方法,主要是運用已存有的知識對不同但相關的領域問題進行求解的一種新的機器學習方法。它放寬了傳統機器學習中的兩個基本假設,目的是遷移已有的知識來解決目標領域中僅有少量有標簽樣本數據甚至沒有的學習問題[10]。
通過上述分析,為了準確、快速地對互聯網金融網頁業態進行識別,本文在遷移學習和數據增強方法的基礎上,通過調整超平面位置改進SVM算法,實現對小數據集的訓練與檢測。實驗結果表明,本文提出的基于超平面位置調優SVM 的遷移學習算法對于互聯網金融網頁業態識別具有較好的分類效果,能夠有效檢測出已知業態的金融網頁,從而加強對各類金融網頁的關注,強化風險防范,促進互聯網金融發展。
1 TL-SVM
SVM 是Corinna Cortes 和Vapnik 等 人[11]于1995 年提出的,主要用來解決小樣本、非線性及高維模式的識別。該方法是以統計學習理論(Statistical Learning Theory,SLT)[12]的VC 維理論和結構風險最小原理為基礎建立起來的,其本身的優化目標并非經驗風險最小,而是結構化風險最小,根據有限的樣本信息在模型的復雜性和學習能力之間尋求最佳的折衷方案,以期獲得最好的推廣泛化能力[13]。
文獻[8]提出的TL-SVM 算法的核心理論是:若兩領域相關,則其各自分類器的ω值應相近,因此在SVM 目標式中增加遷移項μ||ωt-ωs||2。
式中:C為懲罰因子,代表算法對于分類錯誤樣本的容忍程度;代表第i個樣本的分類損失。
該算法在目標領域訓練分類模型時引入了源領域知識ωs,在目標函數構建的過程中利用源領域和目標領域知識最接近的遷移學習項,實現有效遷移學習。然而,當源領域和目標領域相關性較小時,則會出現負遷移現象,即遷移過程完成后實現的分類效果差于僅利用目標領域已標記數據的監督分類效果。
2 基于超平面位置調優SVM 的遷移學習算法
2.1 數據增強
數據增強[14](Data Augmentation,DA)改善了深度學習中數據不足的場景,在不實質性地增加數據的情況下,讓有限的數據產生等價于更多數據的價值。其原理是,通過對原始數據融入先驗知識,加工出更多數據的表示,有助于模型判別數據中的統計噪聲,減少模型過擬合。其主要的方向是增加訓練數據的多樣性,從而提高模型泛化能力。小樣本學習的主要問題是樣本量過少,從而導致樣本多樣性不足以刻畫完整樣本分布,可以通過樣本增強來提升樣本多樣性。基于數據增強的方法是利用輔助數據集或者輔助信息對目標數據集進行數據擴充或特征增強,使模型能更好擬合。數據擴充可以是無標簽或者合成帶標簽數據;特征增強是在原樣本的特征空間中添加便于分類的特征,增加特征多樣性,從而降低樣本間的不均衡性,提高模型的泛化能力,使模型的魯棒性更高。
在樣本少、分布不均衡的情況下,可以通過數據增強[15]擴充訓練數據的量,降低樣本間的不均衡性,提高模型的泛化能力,使模型的魯棒性更高。數據增強技術包括回譯(Back Translation)、隨機詞替換、非核心詞替換、基于上下文信息的數據增強和基于語言生成模型的數據增強5 種經典方案。其中,基于隨機詞替換的數據增強方法類似于圖像增強技術中的隨機裁剪、圖像縮放,通常是隨機地選擇文本中一定比例的詞,對其進行同義詞替換、刪除等簡單操作。本文采用基于隨機詞替換的簡單數據增強(Easy Data Augmentation,EDA)[15]文本增強方法實現數據增強,主要包含以下4 種操作:
(1)同義詞替換(Synonym Replacement,SR):從句子中隨機選擇非停用詞,用隨機選擇的同義詞替換這些單詞。
(2)隨機插入(Random Insertion,RI):隨機找出句子中某個不屬于停用詞集的詞,并求出其隨機的同義詞,將該同義詞插入句子的一個隨機位置,重復n次。
(3)隨機交換(Random Swap,RS):隨機選擇句子中兩個單詞并交換它們的位置,重復n次。
(4)隨機刪除(Random Deletion,RD):以概率p隨機刪除句子中某個單詞。
2.2 基于超平面位置優化SVM 的遷移學習算法
由于標記樣本數量不足,因此在模型訓練過程中可提供的有效信息不均衡,同時,基于SVM 算法的分類,在樣本數量少、無法準確預估負類樣本存在空間的情況下,引入參數主動調整分類超平面的位置,使其靠近正類樣本,為負類樣本預留較大的存在空間,以此提高分類的準確率。基于超平面位置優化SVM 的遷移學習算法實現了領域間參數的遷移,原理如圖1 所示,其優化目標函數的表達式為:

圖1 基于超平面位置優化SVM 的遷移學習算法檢測流程
式中:調整超平面的程度通過參數λ進行控制,若λ較大,則源領域和目標領域的分類超平面非常接近;若λ較小,則源領域和目標領域的分類超平面相對獨立。
對于優化目標函數,列出如下說明:
(1)式(2)中前兩項分別表示目標領域數據的結構風險項和經驗風險項。
(2)||ωt-ωs||2表示目標領域與源領域的差異程度,數值越大表示分類器之間的差異越大,反之表示二者相似,μ為協調系數。
式中:α=(α1,α2,…,αn)T和β=(β1,β2,…,βn)T為拉格朗日系數。
依據KKT[16](Karush-Kuhn-Tucker)條件,對ωt,和bt求偏導數,推導如下:
將式(4)、式(5)代入式(3),化簡后可得對偶問題形式如下:
2.3 基于超平面位置調優SVM 的遷移學習算法流程
(2)利用二次規劃原理求得目標域拉格朗日系數αt=(α1,α2,…,αn)T;
(3)根據式(4)求得決策超平面法向量ωt;
(5)構建劃分超平面ωtxt+bt=0,輸出分類決策函數
綜上,基于超平面位置優化SVM 的遷移學習算法檢測流程如圖1 所示。
3 實驗與分析
為評價驗證基于超平面位置調優SVM 的遷移學習算法在互聯網金融網頁業態分類中的效果,實驗采用從互聯網收集到的金融網頁為評測數據集,該數據集包含451 個互聯網金融網頁,涉及4 個金融業態下的8 個金融子業態,表1 為金融業態與相關網頁的數量。每兩個金融業態分別作為正樣本和負樣本,基于子業態進行檢測,學習任務的具體情況如表2 所示。在目標領域選取源領域訓練集數量的20%作為目標領域的訓練集,構成遷移學習任務。實驗主要從非遷移、遷移和基于超平面位置調優SVM 的遷移3 個角度來進行,從而展現所提分類算法的優勢。

表1 金融業態與相關網頁數量

表2 學習任務具體情況
3.1 評價指標
本文采用正確率(Precision)、召回率(Recall)和綜合指標F1-指數(F1)來評測互聯網金融網頁檢測的性能。其中,正確率P表示返回結果中正確的比例,召回率R表示所有正確結果中返回的比例。在檢測結果中,如表3 所示,假設檢測到的互聯網金融網頁中,相關網頁的數量為a,不相關網頁的數量為b;在未檢測到的互聯網金融網頁中,相關網頁的數量為c,不相關網頁的數量為d。

表3 評價指標
其中,測試數據中與金融業態相關的互聯網金融網頁數目為a+c,不相關的互聯網金融網頁數目為b+d。檢測結果中,判定與金融業態相關的互聯網金融網頁數目為a+b,不相關的互聯網金融網頁數目為c+d。關于實驗中的數據集,源領域和目標領域的樣本均為已標記信息,但目標領域樣本的標記信息僅用于評價各算法的分類性能。正確率P、召回率R和綜合指標F1 的計算方法如下:
3.2 實驗設計與結果分析
本文將各類業態互聯網金融網頁按照test_size=0.5,劃分為訓練集和測試集。同時,按照目標域訓練樣本總數20%的比例,選取目標域中的數據集作為目標域訓練集,剩余為目標領域測試集,實現遷移學習。
本文實驗中所有算法的最優參數均通過網格搜索的方式來確定。其中懲罰因子Ct,μ的選取參照文獻[8]的設定策略,即因目標域參與訓練的樣本數量少,應盡量保證分類的正確性,因此Ct在(0.01,0.05,0.1,0.5,1,5,10,20,50)中選最 優;μ在(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1)中選最優。
通過超平面位置調整參數λ,實現對超平面的最優位置的選定,從而實現對互聯網金融網頁業態識別的準確度。實驗采用本文提出的基于超平面位置優化SVM 的遷移學習算法,通過調整λ的值,確定超平面位置對互聯網金融網頁業態分類的影響情況。由于本文主要針對小數據集的小樣本學習,考慮到提高數據分類的正確率便于后續分類模型的優化,若λ較大,則源領域和目標領域的分類超平面非常接近,出現誤報的概率增大;若λ較小,則源領域和目標領域的分類超平面相對獨立,可有效保證分類的正確率。為保證超平面位置向正類樣本靠近,為負類樣本留出更大的存在可能性空間,λ的取值范圍為(0,1)。
本文實驗采用源領域與目標領域已標記樣本合集作為SVM 的訓練集進行訓練,標記為SVM-ST,利用此方法與遷移學習方法做比較,同時,將本文提出的方法與文獻[8]中提出的TL-SVM 方法做比較,用以說明本文所提方法的優越性。3 種方法在6 個學習任務中的分類性能比較如表4 所示。

表4 3 種方法性能比較
根據實驗結果,得出以下結論:
(1)通過對比3 個實驗的結果發現,遷移學習方法的引入對分類效果有明顯提升,對比SVMST 分類方法,正確率提升較為明顯,TL-SVM 算法較SVM-ST 算法的分類正確率提升了3.2%,F1 測試值提升了0.4%;基于超平面位置調優SVM 遷移算法較SVM-ST 算法的分類正確率提升了4.0%,F1 測試值提升了0.9%,說明遷移學習方法在相似領域的數據分類中,優勢更明顯。
(2)通過對比TL-SVM 算法和SVM-ST 算法的實驗結果,發現對于源領域與目標領域關聯性較低的數據集(網絡借貸vs 網絡銀行),TL-SVM 的分類正確率反而降低了,說明TL-SVM 在處理數據負遷移方面有所欠缺。
(3)通過對比TL-SVM 和基于超平面位置調優SVM 遷移算法的實驗結果,發現通過調整超平面位置,使其向正類樣本靠近,保證了分類的正確率;诔矫嫖恢谜{優SVM 遷移算法較TL-SVM算法的分類正確率提升了0.8%,F1 測試值提升了0.5%,說明通過數據增強和分類超平面位置調整,在樣本數量少、無法準確預估負類樣本存在空間的情況下,分類超平面主動靠近正類樣本,保證了分類的正確性。
4 結語
本文提出了基于超平面位置調優的SVM 遷移算法。該方法通過分類調整超平面位置,使其充分靠近正類樣本,結合數據增強技術,實現對小數據集的訓練與檢測,對于數據量不足的互聯網金融網頁來說,有效解決了模型出現過擬合的問題。實驗結果表明,基于超平面位置調優的SVM 遷移算法在小樣本的情況下能夠提高檢測性能指標。