訊
享
務(wù)
|
最近一兩年,全世界科技圈最火的話題就是AI大模型了。各種文生文、文生圖乃至文生視頻大模型橫空出世,頃刻間滿足了人類對(duì)未來世界的暢想,誕生了無數(shù)商機(jī)與可能性。各家人工智能公司都摩拳擦掌,傾盡全力打造自己的大模型,希望能在這場(chǎng)全新的科技拉力賽中占據(jù)領(lǐng)先位置。 但,繁榮和進(jìn)步的背后,也隱藏著巨大的數(shù)據(jù)安全危機(jī)。 眾所周知,海量的數(shù)據(jù)是訓(xùn)練大模型的必備材料。就像想發(fā)動(dòng)一輛車需要汽油一樣,想把大模型訓(xùn)練好,就需要大量?jī)?yōu)質(zhì)的數(shù)據(jù)來做“汽油”。比如,OpenAI在訓(xùn)練GPT-4時(shí)使用了大約13萬億個(gè)token,按照Epoch的研究員Pablo Villalobos預(yù)測(cè),GPT-5大約需要60到100萬億個(gè)token才能實(shí)現(xiàn)預(yù)期中的效果增長(zhǎng)。而這些token,正來自于海量的數(shù)據(jù)。 而規(guī)模如此龐大的數(shù)據(jù)又從何而來呢?當(dāng)然是來自于互聯(lián)網(wǎng)啦。 在過去一兩年的時(shí)間內(nèi),網(wǎng)絡(luò)上的爬蟲數(shù)量成倍增長(zhǎng)、數(shù)不勝數(shù),瘋狂地在互聯(lián)網(wǎng)上“搜刮”各種數(shù)據(jù)。 與此同時(shí),隨之而來的數(shù)據(jù)侵權(quán)和泄漏等等問題也引起了各內(nèi)容廠商的強(qiáng)烈反感。 去年秋天,BBC 國家總監(jiān)戴維斯說:“我們認(rèn)為,這種未經(jīng)允許就‘搜刮’BBC數(shù)據(jù)以訓(xùn)練大模型的做法不符合公眾利益”,隨后,他宣布BBC將封鎖OpenAI的爬蟲。 今年年初,路透社研究所發(fā)布了一項(xiàng)名為《有多少新聞網(wǎng)站會(huì)屏蔽人工智能爬蟲》的研究。研究結(jié)果顯示,截至 2023 年底,在全球 10 個(gè)國家的熱門新聞網(wǎng)站中,近一半網(wǎng)站在robot.txt中屏蔽了 OpenAI 的爬蟲 (48%) ,近四分之一屏蔽了谷歌的 AI 爬蟲 (24%),這個(gè)數(shù)據(jù)能充分說明內(nèi)容平臺(tái)對(duì)AI爬蟲的“深惡痛絕”。 但傳統(tǒng)的用來防止BOT的Robots協(xié)議終究是一場(chǎng)“君子之約”,它只能防住表明自己身份的爬蟲。在目光所不能及之處,還有許多黑灰產(chǎn)嗅到了數(shù)據(jù)變賣的利益,制造出更多爬蟲在互聯(lián)網(wǎng)的各個(gè)角落里陰暗爬行。他們用偽造UA、更換IP等等手段,就能夠輕而易舉地偽裝自己,繼續(xù)對(duì)數(shù)據(jù)“為所欲為”。 更有甚者,已經(jīng)開始用AI和大模型來“加持”爬蟲技術(shù),讓爬蟲進(jìn)化地更加靈活與智能。比如,傳統(tǒng)的爬蟲內(nèi)容解析通常采用BS4等庫,在面對(duì)復(fù)雜的頁面結(jié)構(gòu)時(shí),編寫XPath選擇器就變得更加繁瑣且容易出錯(cuò);當(dāng)頁面結(jié)構(gòu)變化時(shí),也可能要重新編寫選擇器,讓爬蟲的使用變得非常復(fù)雜。但在大模型技術(shù)加持下,內(nèi)容解析變得異常簡(jiǎn)單,大模型可以直接從網(wǎng)頁源碼中自動(dòng)抽取標(biāo)題和正文等信息,大大提升了內(nèi)容解析的效率和準(zhǔn)確性。 這樣的爬蟲,相當(dāng)于從蜥蜴進(jìn)化成了“哥斯拉”,從汽車變身成了變形金剛,讓傳統(tǒng)的BOT防御手段面臨著更大的挑戰(zhàn)。過去的一些策略已經(jīng)不能抵擋來勢(shì)洶洶的新生代爬蟲大軍,BOT防御措施急需一場(chǎng)有針對(duì)性的升級(jí)。 那么,到底有什么方法能夠抵抗這些“變異升級(jí)”后的AI時(shí)代爬蟲呢? 天空一聲巨響 騰訊云WAF閃亮登場(chǎng)! 騰訊云WAF團(tuán)隊(duì)推出的BOT流量管理功能,集成了客戶端風(fēng)險(xiǎn)識(shí)別(前端對(duì)抗)、防護(hù)規(guī)則集與領(lǐng)先的BOT-AI智能識(shí)別引擎這三重?cái)r截能力,能夠準(zhǔn)確應(yīng)對(duì)惡意機(jī)器人程序爬取帶來的資源消耗、信息泄露及無效營銷問題,同時(shí)也保障友好機(jī)器人程序的正常運(yùn)行。 更牛的是:BOT流量管理深度融合了頂尖AI技術(shù),將流量風(fēng)控特征和黑灰產(chǎn)對(duì)抗經(jīng)驗(yàn)轉(zhuǎn)化為AI策略模型,打造出新一代智能化BOT流量管理體系,以AI之矛,攻BOT之盾(AI Anti BOT)! 🌟亮點(diǎn)1: 新增大模型爬蟲檢測(cè)場(chǎng)景 BOT流量管理在原有的十大典型對(duì)抗場(chǎng)景基礎(chǔ)上,升級(jí)了大模型爬蟲檢測(cè)場(chǎng)景。通過AI技術(shù)學(xué)習(xí)海量大模型爬蟲的行為特征,生成專門針對(duì)此類爬蟲設(shè)計(jì)的內(nèi)置防護(hù)規(guī)則,從而進(jìn)行精準(zhǔn)防御,避免某些人工智能公司在未經(jīng)授權(quán)的情況下直接抓取網(wǎng)站內(nèi)容、用于訓(xùn)練人工智能模型,保護(hù)內(nèi)容生產(chǎn)平臺(tái)的信息安全。 🌟亮點(diǎn)2: 智能BOT分類能力 BOT流量管理推出了基于人工智能的BOT分類能力,能夠通過自研的深度學(xué)習(xí)模型去習(xí)得不同業(yè)務(wù)場(chǎng)景下的BOT流量特征,自動(dòng)對(duì)不同目的BOT行為進(jìn)行分類,最終根據(jù)BOT的威脅程度進(jìn)行自動(dòng)打分,生成跨場(chǎng)景下的綜合防護(hù)策略,極大提升惡意BOT防護(hù)能力,全方位提升防爬、秒殺等各種業(yè)務(wù)場(chǎng)景下的Web安全性。 除此之外,BOT流量管理還將推出更多基于AI甚至大模型的優(yōu)質(zhì)能力。比如基于AI的BOT規(guī)則托管引擎,以及用大模型進(jìn)行BOT事件分析與解讀等等。敬請(qǐng)期待哦! 技術(shù)的進(jìn)步是把雙刃劍,大模型橫空出世,給人類的生產(chǎn)效率帶來了極大提升,但同時(shí)也在暗處留下了包括數(shù)據(jù)泄露在內(nèi)的種種隱患。唯一的解法,就是在大膽嘗試新技術(shù)的同時(shí),學(xué)會(huì)用技術(shù)的進(jìn)步來保護(hù)自己,才有機(jī)會(huì)坐上時(shí)代前進(jìn)的高速列車。未來已來,請(qǐng)先上車! |
|
原標(biāo)題: / 編輯: |
|