原创!在文章中添加“文字指纹”,追踪盗版源头

2021-04-29 12:07:26 +08:00
 sillydaddy

帖子“ 有没有办法防止 app 内资源被提取呢 ”里面提到了对自己著作权内容被盗取的担心。

这个问题的背景就不多说了,说多了都是泪。直接呈上我思考的方案,欢迎点赞+批判:


我的方案


  1. 要有注册机制,以便区分不同的用户

  2. 对于同一篇著作内容,在分发给不同的用户前,都加上独特可区分的水印,一旦出现盗版,可以知道是哪个用户泄露

  3. 定位盗版源头后,永封源头用户,钱款不退。提高用户被永封后的直接损失,把走法律诉讼这种高成本的动作转移给对方。

  4. 重点讨论给纯文字添加水印的方法,要让这种水印不能轻易被抹除、篡改。方法包括:

    • 文字替换,同义词替换
    • 句子的顺序调换
    • 句子、段落的增+,减-

盗版者的手段和困境


抹除水印的方法,说白了就是对带有水印的内容,进行“扭曲变形”,让水印无法再辨别。那么文字的“扭曲变形”,就只能是修改文字自身的内容了。那么,分析一下针对上面 3 种“文字水印”的破环手段和效果:

  1. 针对特定的“文字替换,同义词替换”

    只要我把文章中的所有字词都用同义词替换一遍,原有的替换效果就全被破坏了

  2. 针对特定的“句子的顺序调换”

    只要我把文章中的句子顺序都打乱,原有的调换效果就被破坏了

  3. 针对特定的“句子、段落的增+,减-”

    只要我把文章中的句子段落随机增删,原有的增+减-效果就被破坏了

等一下。。看起来哪里不对劲。。替换文章所有字词还算勉强可行,但随意增+删-,以及调换句子顺序,那文章还能读吗?

对,这就是试图破坏这些水印所面临的困难!也是这些水印可行的原因!


三维水印空间


字词替换、句子顺序调换、句子增+减-,这 3 种方法中,每一种下面都有 N 多种具体的选择,都可以选择文章中具体的某个字词、某个句子进行操作。用个比喻的话,这 3 种方法可以看作是文字水印的 3 个维度。而具体的水印,则是这“三维水印空间”中的某 1 点:

盗版者并不知道所加水印点的具体位置,所以要破环它,只有尽量扰乱整个水印空间,也就是说,

这意味着什么呢:

而添加水印对创作者的难度呢:

大家怎么看


可以看出,水印空间的维度越高,破坏水印越困难,而添加水印则越简单。上面给出的是一个 3 维的水印空间,也就是添加“文字水印”的 3 种方法,还有其他的方法吗?

11553 次点击
所在节点    奇思妙想
106 条回复
mainjzb
2021-04-30 00:39:06 +08:00
楼主讨论一个问题也可以去限定一些特定的场景和约束,例如,手段是修改文章内容差来追溯盗版者的来源,那么最好用的场景是一些每天都更新的小说网站,目的是为了防止 ocr 、手抄、复制等手段。规定有效的场景来讨论技术的可行性,在进行场景的扩大可能更好。
snw
2021-04-30 01:55:19 +08:00
上面说的零宽空格、全半角标点、同形异码、特殊引号是最没用的,只能防完全照搬。
别人直接扔掉零宽空格、统一全半角、统一引号、同形同码,出来比你原版效果还好,直接就变成了盗版受益者。

至于 LZ 的方法,字词同义替换很容易造成质量下降,别说编辑了,我作为读者都不能忍正版受害。
你替换越多,质量下降越严重;替换越少,防破坏效力越低(特别是 80 楼这种攻击方式)。
Weixiao0725
2021-04-30 02:10:25 +08:00
我觉得替换词汇很难做到不更改含义。可以利用不同单词之间放置肉眼观察不到的不同间隔做唯一标识,比如 I am a student. 每两个单词之间的间隔距离不一样,肉眼看不出来,但是可以用程序算出其中的不同。
chouchen
2021-04-30 05:00:56 +08:00
这点破技巧,至少几十年前就被玩烂了。在公司下发给个人的机密文件或邮件中,新产品的参数中,内部审计数据中,发给每个人的数据或者字段位置都会不同。这样做的前提是没有机会几个文件在一起一一比较。你这个随便两个账号自动比较就发现差异了。早期的密码学里也有这么用的,太小儿科了。
musi
2021-04-30 06:43:43 +08:00
建议楼主在做之前多想想 中华文化博大精深
在这里说这个真的不是一句玩笑话,哪怕你把一个标点符号给替换了,原有句子的含义都有可能会出现雪崩效应
dream7758522
2021-04-30 07:41:05 +08:00
1 让作者发布的时候,提前替换呢?形成 a,b
两种差异文章里。
2 灰度发布呢?给 5%的用户发布替换文章。
3 起点现在好像是单章订阅,哪怕封禁也基本没有损失。pc 端不清楚,手机端订阅后文章不是图片,直接是文字,应该是放弃防盗手段了吧。
4 感觉起点现在好像也不起诉了,改为和盗版网站合作了
rails
2021-04-30 08:02:54 +08:00
其实人家不需要完全破解,如果知道是改某些同义词,只要对方也更换下,就可以隐藏真实身份了。
sillydaddy
2021-04-30 08:09:32 +08:00
@mainjzb #81
是这样的,我在主题里并没有任何的明示或暗示这种方法可以适用于所有的场景。我只不过是没有明确把我自己设想的可以应用的场景说出来。
然后就有很多人臆想我意图用这种方法用在所有场景,甚至要取代所有版权手段。
用臆想这个词是因为这种想法不仅没有依据,而且是跟我主题里的内容相矛盾的。举一个最简单的例子,这种方法要求同一篇著作分发 n 多个不同版本给不同的读者,怎么还会有人拿文学作品甚至 zf 工作报告作为应用场景呢。另外,主题里明确提到了注册制以及帐号封禁,能用这种方式的应用场景必然是有限的。

稍微有点常识和逻辑思维,就不会作出那些臆想。

所以我在上面回复里提到了“不审题,不思考,臆想,硬杠”。
wclebb
2021-04-30 08:18:09 +08:00
我觉得还是可行,不过有部分可以通过替换,比如符号,有些符号大量相似、或本来一样的但也是不同的。比如 I l | l 等等,只要不影响阅读的前提下,比如 AI Al Al 你可能看不出来我已经替换掉了。

还有,由 AI 写出来的小说,世界上小说最多的那个,好像是几亿字小说的那个。感觉也是可行。

“,",",「,这四组符号,也是同一种符号的意思。

也可以拆分 ‘ , ‘’ , ”

这种做法只是提高成本。当然还是可以尝试。
minmini
2021-04-30 08:24:51 +08:00
大众点评的网页差不多就是这样了把,没法复制,复制出来的都是一堆乱七八糟的东西
p1gd0g
2021-04-30 09:15:31 +08:00
图片做数字水印已经是很成熟的技术了,但是纯文本我觉得行不通吧。
q197
2021-04-30 09:21:35 +08:00
黑白文字内容,图像数字水印不现实。修改内容如果是空格、符号变种,无法应对 ocr 。内容修改其实是可行的,只要修改的点位足够多,用户注册多个账号是没法找到所有点位的,其实亚马逊申请了类似专利
woodensail
2021-04-30 09:22:37 +08:00
@delpo 我开头就说了,我来说点现实中用过的例子啊。以及 ocr 肯定是无解的,就算阻止截屏了对方还能拍屏。所以我也说了只是加大难度。
newmlp
2021-04-30 09:51:01 +08:00
@sillydaddy 谁说一个账号只能盗一篇文章的
nullcoder
2021-04-30 09:51:47 +08:00
po 主有了解过 press.one 吗?
libook
2021-04-30 12:01:50 +08:00
@sillydaddy #59 一般图片上的明水印的作用只有一种,就是标识来源,但你设计的水印除了标识来源以外还有另外一个作用就是定位盗版者,定位盗版者需要水印能够被解码成盗版者的标识。如果通过组合 abc 来解码出盗版者的标识的话,万一盗版者运气好修改了 abc 三者之一,则 abc 信息损失,你知道 abc 有变化,但无法知道盗版者修改之前是什么样子,也就不能根据 abc 的信息来定位到盗版者是谁。盗版者破解这个措施其实只需要让 abc 三者之一无法被正确解码就可以了,当然前提是他知道有哪些点位是关键点位,这个其实用两个账号看同一篇文章就很容易发现,或者乱改一通恰巧命中。

像图片频域盲水印是模拟信号,本身有很好的容错能力,缺少一部分或者对比度变化都难以对解码信息造成实质的破坏,甚至可以通过实验调优来达到让水印和图片内容一损俱损的程度。

你的方案加的水印是数字信号,本身不具备容错能力,需要靠额外的容错机制才能保障一定的可靠性,比如奇偶校验和冗余,但这样可能就又要在文章中添加更多的点位,如果点位扩展很容易的话倒是没啥问题,但这又受到文章的的篇幅和内容影响颇深。

建议你把自己的方案和其他媒体形式已经在使用的水印方案进行一些对比,然后看看有哪些问题其他水印解决了自己的方案还没有解决,以确定进一步探究的方向。
Greatshu
2021-04-30 12:07:31 +08:00
你给出的方案适用的场景只有一个,网络小说。所谓“盗版者的手段和困境”就是臆想,我一天或者半天换一个号,采集几百章小说,分发到几百个网站,app 上,还有互相采集的,根本不怕你封号,最多用户看小说时多插一些广告。
如果余额,趁还没封号前卖二手,买家买了没多久被封号,你觉得起到反盗版作用了?潜在正版用户都被你恶心走了。
mcfog
2021-04-30 12:35:28 +08:00
进来往下拉找到底竟然都人提

霍炬( virushuo )长期实践和楼主类似的方法进行侵权追踪,在五六年前和著名洗稿媒体差评打了一场诉讼,最终虽然没有胜诉,但也间接使腾讯放弃投资差评,这是一个经过实践的,有效的保护手段。
phy25
2021-04-30 12:57:39 +08:00
danhahaha
2021-04-30 14:22:44 +08:00
比起文字,我觉得标点符号更有操作性,中英文标点随便换,并不影响阅读,很多人也注意不到

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/774059

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX