亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

  • 發布文章
  • 消息中心
點贊
收藏
評論
分享
原創

域名分類任務概述

2023-07-14 06:48:41
4
0

1. 域名分類應用簡介

根(gen)據(ju)LocalDNS提供(gong)的域名(ming)所(suo)指向的首頁(ye)以及二級頁(ye)面內容進行分類判(pan)斷,提供(gong)后續應(ying)用訪問控制依據(ju)。

應(ying)用(yong)場景示例1:用(yong)戶訪(fang)問域名分類結(jie)果為非法--限制訪(fang)問;

應(ying)用(yong)場景(jing)示例2:未成年訪問域名分(fen)類結果(guo)為游戲(xi)--限制(zhi)訪問時長;

 

2. 常見分類模型

2.1 短文本分類

FastText:模(mo)型簡單(dan),訓練速(su)度快(kuai),支(zhi)持(chi)多語言表達

TextCNN:利用CNN來提取(qu)句(ju)子中類似 n-gram 的(de)關鍵信息,且結構簡(jian)單,效果好

TextRNN:使(shi)用RNN更自然(ran)地處(chu)理(li)(li)語言,能(neng)處(chu)理(li)(li)更長的序(xu)列,此外減少了超(chao)參數(shu)的調節;結合RNN、CNN可(ke)進一步提高效(xiao)果

TextRNN + Attention:Attention機制能給出每個詞(ci)對分類結果的貢獻,更直觀、可解釋

? 總(zong)結:TextCNN的效果已經比較(jiao)理想,TextRCNN對準確率提(ti)升有限。可先(xian)嘗(chang)試TextCNN,再(zai)根據需(xu)要(yao)改進模型。

 

2.2 長文本分類

HAN:網絡(luo)結(jie)構對應文章結(jie)構,且具有詞級(ji)、句(ju)級(ji)的注意(yi)力

BERT:一般(ban)輸入不超(chao)過512,語(yu)言表(biao)征(zheng)能力(li)和特征(zheng)提取能力(li)

ERNIE-Doc:最(zui)長支持2048模型輸入(ru);先粗讀(du)再精讀(du),并加入(ru)了(le)增強(qiang)循環(huan)機制

? 總結:一(yi)(yi)方(fang)面(mian)可(ke)以(yi)在預(yu)訓練模型(xing)(xing)進行微調,快速實現長(chang)文(wen)本分類(lei);另一(yi)(yi)方(fang)面(mian)可(ke)以(yi)嘗試簡單模型(xing)(xing),測(ce)試低算力下的(de)分類(lei)效果

 

2.3 文本審核

文(wen)(wen)本(ben)預(yu)處(chu)理(li):HTML代(dai)碼解析(盡量保留頁面內容)、文(wen)(wen)本(ben)歸一化(hua)(還原變異文(wen)(wen)本(ben),例如(ru)十男 -> 十男)

特征工(gong)程:加入HTML標簽特征、文本(ben)數據增(zeng)強(EDA、回譯、語(yu)言生成等)

檢測(ce)算(suan)法:DGCNN(沒有(you)RNN、Transformer,速度(du)較快)等(deng)分類算(suan)法

總(zong)結:相比于文本(ben)分類,需要對(dui)原始內容(rong)進(jin)行更細致的(de)預(yu)處理和特征工程(cheng),從而降低(di)漏檢率(lv)。

0條評論
0 / 1000
z****n
4文章數
0粉絲(si)數
z****n
4 文章 | 0 粉絲
z****n
4文章數
0粉絲數
z****n
4 文(wen)章 | 0 粉絲(si)
原(yuan)創

域名分類任務概述

2023-07-14 06:48:41
4
0

1. 域名分類應用簡介

根據LocalDNS提供的域名所指向的首頁以及二級頁面內容進行分(fen)類判(pan)斷,提供后續應用訪問控制依據。

應用場景示例1:用戶訪(fang)(fang)問域名分類結果為非法(fa)--限(xian)制訪(fang)(fang)問;

應用(yong)場(chang)景(jing)示(shi)例2:未成(cheng)年訪問(wen)域名分類結果為游戲--限制訪問(wen)時長;

 

2. 常見分類模型

2.1 短文本分類

FastText:模(mo)型簡單,訓練速度快(kuai),支(zhi)持多語言表達

TextCNN:利(li)用CNN來提取句(ju)子(zi)中類似 n-gram 的(de)關鍵信息,且結構簡單(dan),效果好(hao)

TextRNN:使用RNN更(geng)(geng)自(zi)然地處理語言,能處理更(geng)(geng)長的序列,此外減少了(le)超參數的調節;結合RNN、CNN可(ke)進一步提(ti)高效果

TextRNN + Attention:Attention機制能給出(chu)每個詞對分類(lei)結果的(de)貢(gong)獻,更直觀、可解釋

? 總結:TextCNN的效果(guo)已經比較理(li)想,TextRCNN對準確率(lv)提(ti)升有限。可(ke)先嘗試TextCNN,再根據(ju)需要改進模型。

 

2.2 長文本分類

HAN:網(wang)絡結構對(dui)應文章結構,且(qie)具(ju)有詞(ci)級、句級的(de)注意力

BERT:一(yi)般輸入(ru)不超(chao)過512,語(yu)言表征(zheng)(zheng)能力(li)和特征(zheng)(zheng)提(ti)取能力(li)

ERNIE-Doc:最(zui)長支持(chi)2048模型輸入;先粗讀再精讀,并加入了增強(qiang)循環機制

? 總結:一方面可(ke)以在預訓練(lian)模型進行微調(diao),快速實現(xian)長文本分(fen)(fen)類;另一方面可(ke)以嘗試(shi)簡單模型,測試(shi)低算(suan)力下(xia)的分(fen)(fen)類效果

 

2.3 文本審核

文(wen)(wen)本預處理(li):HTML代碼解析(盡量保留頁面內(nei)容)、文(wen)(wen)本歸一化(還原(yuan)變異文(wen)(wen)本,例如十(shi)男 -> 十(shi)男)

特(te)征工程:加入(ru)HTML標簽特(te)征、文本(ben)數據增強(EDA、回(hui)譯、語(yu)言生(sheng)成等)

檢測算法:DGCNN(沒有RNN、Transformer,速度較快)等分(fen)類算法

總結(jie):相比于(yu)文本分類,需要對原始內(nei)容(rong)進行更(geng)細(xi)致(zhi)的(de)預處理(li)和特征工程,從而降低漏(lou)檢率(lv)。

文章來自個人專欄
文章 | 訂閱
0條評論
0 / 1000
請輸入你的評論
0
0