1. 域名分類應用簡介
根(gen)據(ju)LocalDNS提供(gong)的域名(ming)所(suo)指向的首頁(ye)以及二級頁(ye)面內容進行分類判(pan)斷,提供(gong)后續應(ying)用訪問控制依據(ju)。
應(ying)用(yong)場景示例1:用(yong)戶訪(fang)問域名分類結(jie)果為非法--限制訪(fang)問;
應(ying)用(yong)場景(jing)示例2:未成年訪問域名分(fen)類結果(guo)為游戲(xi)--限制(zhi)訪問時長;
2. 常見分類模型
2.1 短文本分類
FastText:模(mo)型簡單(dan),訓練速(su)度快(kuai),支(zhi)持(chi)多語言表達
TextCNN:利用CNN來提取(qu)句(ju)子中類似 n-gram 的(de)關鍵信息,且結構簡(jian)單,效果好
TextRNN:使(shi)用RNN更自然(ran)地處(chu)理(li)(li)語言,能(neng)處(chu)理(li)(li)更長的序(xu)列,此外減少了超(chao)參數(shu)的調節;結合RNN、CNN可(ke)進一步提高效(xiao)果
TextRNN + Attention:Attention機制能給出每個詞(ci)對分類結果的貢獻,更直觀、可解釋
? 總(zong)結:TextCNN的效果已經比較(jiao)理想,TextRCNN對準確率提(ti)升有限。可先(xian)嘗(chang)試TextCNN,再(zai)根據需(xu)要(yao)改進模型。
2.2 長文本分類
HAN:網絡(luo)結(jie)構對應文章結(jie)構,且具有詞級(ji)、句(ju)級(ji)的注意(yi)力
BERT:一般(ban)輸入不超(chao)過512,語(yu)言表(biao)征(zheng)能力(li)和特征(zheng)提取能力(li)
ERNIE-Doc:最(zui)長支持2048模型輸入(ru);先粗讀(du)再精讀(du),并加入(ru)了(le)增強(qiang)循環(huan)機制
? 總結:一(yi)(yi)方(fang)面(mian)可(ke)以(yi)在預(yu)訓練模型(xing)(xing)進行微調,快速實現長(chang)文(wen)本分類(lei);另一(yi)(yi)方(fang)面(mian)可(ke)以(yi)嘗試簡單模型(xing)(xing),測(ce)試低算力下的(de)分類(lei)效果
2.3 文本審核
文(wen)(wen)本(ben)預(yu)處(chu)理(li):HTML代(dai)碼解析(盡量保留頁面內容)、文(wen)(wen)本(ben)歸一化(hua)(還原變異文(wen)(wen)本(ben),例如(ru)十男 -> 十男)
特征工(gong)程:加入HTML標簽特征、文本(ben)數據增(zeng)強(EDA、回譯、語(yu)言生成等)
檢測(ce)算(suan)法:DGCNN(沒有(you)RNN、Transformer,速度(du)較快)等(deng)分類算(suan)法
總(zong)結:相比于文本(ben)分類,需要對(dui)原始內容(rong)進(jin)行更細致的(de)預(yu)處理和特征工程(cheng),從而降低(di)漏檢率(lv)。