下載客戶端

登錄

我把我的文章做成Token炸彈，這樣居然還能防AI洗稿？

2025-03-12 18:56

來源：澎湃新聞·澎湃號·湃客

原創數字生命卡茲克數字生命卡茲克

今天給大家看個新東西，聊一聊我在怎么防AI洗稿。。。

對于我這種內容創作者來說，最怕的洗稿方式是什么？

不是全抄，全抄的話很好舉報，而是一幫AI抄襲縫合怪。

經常會有人，復制我文章里的某一段話，然后用AI重寫后，貼到他們的文章里去。

主要，這玩意兒還很難舉報，因為根本沒法管。

我曾經想過用一些手段，來防止洗稿，但是沒什么用。

直到之前，我往回翻的時候，看到了一篇帖子。

這是OpenAI的創始成員Karpathy之前發的推文。

這個帖子的大概意思就是，它在一個emoji藏了很多信息，而這些信息，是你看不見的。

然后直接把DeepSeek R1干懵逼了10分鐘。

你可能會非常好奇，往emoji里面藏信息，跟洗稿有啥關系。

最開始的時候我也沒想到有啥關系，直到我把嘗試了一下，在一篇文章中中用這種方式埋了Token，看到這篇文章在公眾號后臺的正文字數從2000字變成了將近3w字。

我悟了。

于是我幾天前寫了一篇，在這篇文章里，就埋下了這個菜單，昨天關于Manus的那篇也埋了。

你們可以去試一試，把這篇文章復制到word里。（有死機風險，謹慎）

但是如果你們看完全篇的話，會發現，文章滿打滿算也就2500字。

而這多出來的1w多字，就是我用Karpathy說的方法，往文章里埋的彩蛋。

你我都不會看見，但是字數統計會發現。

而現在一般的國產AI產品里，會有一個很有趣的設定。

就是token限制。

如果你把這篇文章，發給一些改寫工作流的智能體，你就會發現。

而發給一些AI Chat呢。

Gemini也自己截斷了。

GPT 4o也懵逼了。

這個時候，其實就用一種非常原始、非常粗暴、非常智障的方式，能限制洗稿，因為根本輸不進去。

直接變成Token炸彈。

當然，坦率的講，對于一些推理模型來說，防不住，這個我是真沒招。

而對于做RAG和知識庫來說，卻并沒有任何影響，可以正常問答。

所以也可以避免，誤傷友軍。

這里，我也給大家舉個通俗易通的例子，來講下這玩意原理是個啥，以及怎么做我文章里的這種Token炸彈。

我們全世界的人在系統上，能看到統一文字，主要得益于Unicode，你可以理解為這是一本全球大字典，把地球上所有國家、所有民族用到的文字、符號和表情，統統都收進來了。

然后每個字符，都給它安排了一個固定的、不會重復的編號。

比如：字母「A」的編號是U+0041，漢字「你」的編號是U+4F60，表情符號的編號是U+1F602。

對，你天天用的各種emoji其實也是Unicode。

而在Unicode中呢，有一個特殊的玩意，叫變體選擇符（Variation Selector, VS）。

它能在一個字符后面加一些特殊的信息，讓這個字符改變樣式或者外觀。

比如這個心心。

（? + U+FE0F）→ 彩色心形??

（? + U+FE0E）→ 黑白文本心形?

后面加的，就是變體選擇符。

你可以把文字當成一張紙，變體選擇符就像一張透明膠帶，上面寫了字，但是你用肉眼看不見。

于是，我們就可以，在某個看似普通的文字或表情后面，貼上很多這樣的透明膠帶。而且理論上能一直往后面貼，想貼多少就貼多少。

在視覺上，你還是只看到一個emoji或一小段文字，但對系統而言，后面其實跟著一大串可以被解析的隱藏字符。

一旦系統或者AI要讀取或處理這段文字，就會發現：

“我擦，怎么藏了這么多東西？”

一下子就能把它的token數撐爆。

結果就是，表面看起來沒增加文字，但系統的字數統計直接飆升。

而我在Claude3.7那邊文章中，把隱藏信息，埋在了Claude 3.7Son??????????????????net這個單詞中的第一個“n??????????????????”里面。

你可以直接把這個“n??????????????????”，復制到OpenAI的那個測有多少token的網站里，來看看這個n藏了多少token。

網址在此：https://platform.openai.com/tokenizer

這就是一個，非常隱蔽的token炸彈。

我再給大家演示下怎么找到這些隱藏信息，也就是解碼的方法。

特別簡單。

打開這個小工具：

https://emoji-encoder.vercel.app/?mode=decode

把文章里我埋彩蛋的“n??????????????????”直接復制到第一個網站，點擊“Decode”按鈕，即可進行解碼。

你可以發現，其實我往這個單詞里面，藏了《雙城記》英文版的一整章。。。

說完了解碼，那如何編碼呢？也就是如何把隱藏信息灌進字母里。

還是在這個網站操作。

把按鈕切換到Encode，把想藏的信息輸入進上面的文本框，然后在下面任意選一個表情or字母即可。

之后你就可以復制最下面文本框里的表情or字符，用微信發給朋友或者存在word文檔等平臺了。

而且，因為Unicode的特性，實測下來，隱藏信息并不會因為跨平臺而被格式化掉。

你還是可以把編碼玩的字母，發給微信的朋友，就能給微信頁面干死機。或者會顯示輸入文字過長，無法發送。

我大概測了下，這個極限值是1.5萬個token左右，超過就在微信里面發不出去了。

爬蟲也一樣。

我用Trae寫了一段爬蟲，把那篇文章給爬下來了。

稍微一運行這段代碼，在下面的終端界面里，只要是我埋的token炸彈的位置，全部一片空白。

如果用windows系統導出txt文件，就會全部是亂碼。

如果是Mac打開這個txt文件的話，顯示的內容就像右圖，倒也基本正常。

但是其實這個token炸單，還是保留的。

真的非常非常好玩。

甚至還能把它，當數字水印用。

你可以在發給不同人的文檔里，給每個字符都加一點不一樣的變體選擇符。當文檔泄露出去時，若文檔里還有這個隱形水印，你就能非常輕松的追蹤到是哪一個人的版本被泄露了。

不過我最后的用處，是用非常幼稚和暴力的方法，用它來防洗稿。

我知道，有人肯定會說這招太野路子，或者對推理模型根本沒用，或者在更高端的文本抽取技術面前還是擋不住。

但我只是一個想保護自己原創不被AI無腦洗稿的普通寫作者，用小成本就能干擾到絕大多數以GPT 4o、Gemini 2.0級別做段落拼貼的自動化洗稿黨，那其實已經足夠了。

這方法雖然粗暴，卻比啥都不做要強。

畢竟創作者的傷痛，就在于辛辛苦苦打磨的心血成果，被一些人，用一些手段，分分鐘變成別人的生意，你連哭訴都找不到門路。

就這樣。

如若這個小東西，也能幫到你。

那對我來說就值了。

>/ 作者：卡茲克、芝蘭山

>/ 投稿或爆料，請聯系郵箱：wzglyay@gmail.com

原標題：《我把我的文章手搓成了Token炸彈，發現這樣居然還能防AI洗稿?！?

閱讀原文

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#Token

掃碼下載澎湃新聞客戶端

澎湃矩陣

澎湃新聞微博
澎湃新聞公眾號
澎湃新聞抖音號
派生萬物開放平臺
IP SHANGHAI
SIXTH TONE

新聞報料

報料熱線: 021-962866
報料郵箱: news@thepaper.cn

滬ICP備14003370號

滬公網安備31010602000299號

互聯網新聞信息服務許可證：31120170006

增值電信業務經營許可證：滬B2-2017116

? 2014-2025 上海東方報業有限公司

反饋

▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

我把我的文章做成Token炸彈，這樣居然還能防AI洗稿？

掃碼下載澎湃新聞客戶端

我把我的文章做成Token炸彈，這樣居然還能防AI洗稿？