▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

我把我的文章做成Token炸彈,這樣居然還能防AI洗稿?

2025-03-12 18:56
來源:澎湃新聞·澎湃號·湃客
字號

原創 數字生命卡茲克 數字生命卡茲克

今天給大家看個新東西,聊一聊我在怎么防AI洗稿。。。

對于我這種內容創作者來說,最怕的洗稿方式是什么?

不是全抄,全抄的話很好舉報,而是一幫AI抄襲縫合怪。

經常會有人,復制我文章里的某一段話,然后用AI重寫后,貼到他們的文章里去。

主要,這玩意兒還很難舉報,因為根本沒法管。

我曾經想過用一些手段,來防止洗稿,但是沒什么用。

直到之前,我往回翻的時候,看到了一篇帖子。

這是OpenAI的創始成員Karpathy之前發的推文。

這個帖子的大概意思就是,它在一個emoji藏了很多信息,而這些信息,是你看不見的。

然后直接把DeepSeek R1干懵逼了10分鐘。

你可能會非常好奇,往emoji里面藏信息,跟洗稿有啥關系。

最開始的時候我也沒想到有啥關系,直到我把嘗試了一下,在一篇文章中中用這種方式埋了Token,看到這篇文章在公眾號后臺的正文字數從2000字變成了將近3w字。

我悟了。

于是我幾天前寫了一篇,在這篇文章里,就埋下了這個菜單,昨天關于Manus的那篇也埋了。

你們可以去試一試,把這篇文章復制到word里。(有死機風險,謹慎)

但是如果你們看完全篇的話,會發現,文章滿打滿算也就2500字。

而這多出來的1w多字,就是我用Karpathy說的方法,往文章里埋的彩蛋。

你我都不會看見,但是字數統計會發現。

而現在一般的國產AI產品里,會有一個很有趣的設定。

就是token限制。

如果你把這篇文章,發給一些改寫工作流的智能體,你就會發現。

而發給一些AI Chat呢。

Gemini也自己截斷了。

GPT 4o也懵逼了。

這個時候,其實就用一種非常原始、非常粗暴、非常智障的方式,能限制洗稿,因為根本輸不進去。

直接變成Token炸彈。

當然,坦率的講,對于一些推理模型來說,防不住,這個我是真沒招。

而對于做RAG和知識庫來說,卻并沒有任何影響,可以正常問答。

所以也可以避免,誤傷友軍。

這里,我也給大家舉個通俗易通的例子,來講下這玩意原理是個啥,以及怎么做我文章里的這種Token炸彈。

我們全世界的人在系統上,能看到統一文字,主要得益于Unicode,你可以理解為這是一本全球大字典,把地球上所有國家、所有民族用到的文字、符號和表情,統統都收進來了。

然后每個字符,都給它安排了一個固定的、不會重復的編號。

比如:字母「A」的編號是U+0041,漢字「你」的編號是U+4F60,表情符號的編號是U+1F602。

對,你天天用的各種emoji其實也是Unicode。

而在Unicode中呢,有一個特殊的玩意,叫變體選擇符(Variation Selector, VS)。

它能在一個字符后面加一些特殊的信息,讓這個字符改變樣式或者外觀。

比如這個心心。

(? + U+FE0F)→ 彩色心形??

(? + U+FE0E)→ 黑白文本心形?

后面加的,就是變體選擇符。

你可以把文字當成一張紙,變體選擇符就像一張透明膠帶,上面寫了字,但是你用肉眼看不見。

于是,我們就可以,在某個看似普通的文字或表情后面,貼上很多這樣的透明膠帶。而且理論上能一直往后面貼,想貼多少就貼多少。

在視覺上,你還是只看到一個emoji或一小段文字,但對系統而言,后面其實跟著一大串可以被解析的隱藏字符。

一旦系統或者AI要讀取或處理這段文字,就會發現:

“我擦,怎么藏了這么多東西?”

一下子就能把它的token數撐爆。

結果就是,表面看起來沒增加文字,但系統的字數統計直接飆升。

而我在Claude3.7那邊文章中,把隱藏信息,埋在了Claude 3.7Son??????????????????net這個單詞中的第一個“n??????????????????”里面。

你可以直接把這個“n??????????????????”,復制到OpenAI的那個測有多少token的網站里,來看看這個n藏了多少token。

網址在此:https://platform.openai.com/tokenizer

這就是一個,非常隱蔽的token炸彈。

我再給大家演示下怎么找到這些隱藏信息,也就是解碼的方法。

特別簡單。

打開這個小工具:

https://emoji-encoder.vercel.app/?mode=decode

把文章里我埋彩蛋的“n??????????????????”直接復制到第一個網站,點擊“Decode”按鈕,即可進行解碼。

你可以發現,其實我往這個單詞里面,藏了《雙城記》英文版的一整章。。。

說完了解碼,那如何編碼呢?也就是如何把隱藏信息灌進字母里。

還是在這個網站操作。

把按鈕切換到Encode,把想藏的信息輸入進上面的文本框,然后在下面任意選一個表情or字母即可。

之后你就可以復制最下面文本框里的表情or字符,用微信發給朋友或者存在word文檔等平臺了。

而且,因為Unicode的特性,實測下來,隱藏信息并不會因為跨平臺而被格式化掉。

你還是可以把編碼玩的字母,發給微信的朋友,就能給微信頁面干死機。或者會顯示輸入文字過長,無法發送。

我大概測了下,這個極限值是1.5萬個token左右,超過就在微信里面發不出去了。

爬蟲也一樣。

我用Trae寫了一段爬蟲,把那篇文章給爬下來了。

稍微一運行這段代碼,在下面的終端界面里,只要是我埋的token炸彈的位置,全部一片空白。

如果用windows系統導出txt文件,就會全部是亂碼。

如果是Mac打開這個txt文件的話,顯示的內容就像右圖,倒也基本正常。

但是其實這個token炸單,還是保留的。

真的非常非常好玩。

甚至還能把它,當數字水印用。

你可以在發給不同人的文檔里,給每個字符都加一點不一樣的變體選擇符。當文檔泄露出去時,若文檔里還有這個隱形水印,你就能非常輕松的追蹤到是哪一個人的版本被泄露了。

不過我最后的用處,是用非常幼稚和暴力的方法,用它來防洗稿。

我知道,有人肯定會說這招太野路子,或者對推理模型根本沒用,或者在更高端的文本抽取技術面前還是擋不住。

但我只是一個想保護自己原創不被AI無腦洗稿的普通寫作者,用小成本就能干擾到絕大多數以GPT 4o、Gemini 2.0級別做段落拼貼的自動化洗稿黨,那其實已經足夠了。

這方法雖然粗暴,卻比啥都不做要強。

畢竟創作者的傷痛,就在于辛辛苦苦打磨的心血成果,被一些人,用一些手段,分分鐘變成別人的生意,你連哭訴都找不到門路。

就這樣。

如若這個小東西,也能幫到你。

那對我來說就值了。

>/ 作者:卡茲克、芝蘭山

>/ 投稿或爆料,請聯系郵箱:wzglyay@gmail.com

原標題:《我把我的文章手搓成了Token炸彈,發現這樣居然還能防AI洗稿?!?

閱讀原文

    本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 井冈山市| 旺苍县| 郓城县| 双辽市| 广西| 大宁县| 丽江市| 丰台区| 万年县| 高安市| 安丘市| 祁阳县| 汉川市| 白银市| 呼伦贝尔市| 武汉市| 贵溪市| 德兴市| 江孜县| 丰都县| 新泰市| 洮南市| 昌吉市| SHOW| 吉首市| 若尔盖县| 亚东县| 军事| 大同县| 新津县| 沐川县| 常州市| 龙海市| 马边| 合肥市| 青神县| 东宁县| 丽江市| 康马县| 岳普湖县| 舞阳县|