- +1
為什么圖計算能正面硬剛黑色產業薅羊毛?
原創 親愛的數據 親愛的數據
原創:譚婧
全文審核專家:朱小坤
場景一:電商給新用戶的補貼,黑產賬戶薅走了。
場景二:每當競爭店鋪花錢打廣告,就立刻雇傭黑產賬戶一頓瘋狂惡意點擊,競爭店鋪在線廣告費一會就花沒了。
場景三:一個不咋地的商品,好評一千條,虛假評論誤導消費,我瀏覽完商品評價,都差點信了,好在兜里沒錢,買不了。
數字時代,黑色產業團伙就在身邊,伺機而動,假賬戶,薅羊毛,刷流量。
要像破案一樣,掌握黑產行動規律,得用圖計算技術。
頭部電商APP的注冊賬號可以高達四億以上,不免混入不明身份之輩,比如黑產操控的賬戶。
從幾億賬戶中找到“異常”賬戶談何容易,而一個很好用的破案線索叫作“關系”。
“找關系”的本質是在圖這種數據結構上挖掘信息,也可以稱呼為“圖挖掘”。
黑產賬戶常常團伙作案,且早學會了偽裝。除了作假,黑產賬戶會有正常的瀏覽和購買,專門迷惑人。
可以說,這些黑產賬戶有智商,但不高。
它們的“智商”足以讓常規系統無法辨別。
如何用圖挖掘技術“找到”它們呢?
用一個想法巧妙的圖挖掘算法。
這一算法原理好比濃縮咖啡。把一大杯咖啡,濃縮成一小杯。記住“濃縮”這個動詞,很關鍵。
濃縮的過程,是把不可疑的用戶從圖里不斷移出來。
把一張全局大圖濃縮出最可疑的小圖,黑產控制的賬戶就藏匿在里面。
電商場景的圖里可以有很多類別的頂點,商店,商品,賬號,品牌,設備等等。
我們只選兩種頂點,一種是商品,一種是購買商品的所用的設備(手機,筆記本電腦都行)。
最開始,建一個“下單手機”和“商品”的二部圖(只含有兩類頂點的圖)。
在某個電商APP里面下過單的所有手機都以編號的形式 “畫”在圖里。
下單手機和商品之間的關系包括購買,瀏覽,收藏,加購。
第二步,引入“可疑度”來量化每個下單手機作弊的可能性。
下單手機的可疑度怎么計算呢?一臺手機下單的次數(也稱頂點入度),計算每個頂點的可疑度。
算法設計可疑度的巧妙之處,就是能分辨得出作弊和非作弊的邊界,從而找到作弊團體。
最開始的時候,圖里既有作弊的賬戶,也有正常消費者的賬戶。畢竟,作弊的人是少數。
一個用戶關心的商品占平臺商品總量的很少很少一部分,所以呈現出一張稀疏的二部圖。
電商的二部圖的全局規模很大,頂點數量可達到幾十億,邊數量可達幾百億。當之無愧工業級圖數據。
我們的目的,就是找到那張“邊”最密集的局部圖。
我要用一個與頂點數量無關的量來刻畫最后的結果。就好比,液體濃度和盛液體的容器沒有關系。
不斷刪除可疑度最低的頂點。相當于,在不斷地濃縮可疑度的濃度。
第三步,再用貪心算法的思路,動態刪除最小可疑度頂點。
于是,可疑度小的頂點被一一刪除,留下那些可疑度大的頂點。
這個圖挖掘算法叫啥名字?
這是Fraudar算法,來源于2016年的KDD會議,是美國卡耐基梅隆大學克里斯托·法拉特(Christos Faloutsos)教授團隊論文,并獲得了當年的最佳論文獎。
圖計算正面硬剛黑產薅羊毛的行動還在繼續,隨之而來的是圖深度學習技術的燦然一新。
作弊手法絕不會一成不變,Fraudar算法不能抓到所有的黑產賬戶。
Fraudar算法只用到了圖結構的信息,還有更多信息沒有用起來。
有的賬戶頻繁切換IP,頻繁切換手機的操作系統等等,這些都是逃避”抓捕“的異常行為。
加入特征,用圖深度神經網(比如GraphSAGE)做分類任務,區分“好人”“壞人”,這樣就能找到更多黑產賬號。
最后,多輪分析和驗證,證明抓出來的賬戶是黑產賬戶,以免誤傷好賬號。
圖深度學習一種強有力的工具,用于反黑產時,像一面照妖鏡。
能把圖深度學習用得好的企業,那都是高手。根據親愛的數據可靠消息,你手機里的那些知名的APP,淘寶,支付寶,京東商城,小紅書等等都在使用這一技術。
(完)
全文審核專家:
最后,再介紹一下主編自己吧,
我是譚婧,科技和科普題材作者。
為了在時代中發現故事,
我圍追科技大神,堵截科技公司。
偶爾寫小說,畫漫畫。
生命短暫,不走捷徑。
個人微信:18611208992
還想看我的文章,就關注“親愛的數據”。
原標題:《為什么圖計算能正面硬剛黑色產業薅羊毛?》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2024 上海東方報業有限公司