English Version

反击的过滤器

2003年8月

我们也许能够通过让贝叶斯垃圾邮件过滤器跟踪链接来看看另一端等待什么来提高其准确性。death2spam的理查德·乔西现在在边界情况下这样做,并报告说效果很好。

为什么只在边界情况下这样做?为什么只做一次?

正如我在《过滤器会杀死垃圾邮件吗?》中提到的,跟踪垃圾邮件中的所有url会有一个有趣的副作用。如果流行的邮件客户端为了过滤垃圾邮件而这样做,垃圾邮件发送者的服务器将受到严重打击。我越想这个,越觉得这是个好主意。这不仅仅是有趣;很难想象有比这更精确地针对垃圾邮件发送者的反击。

所以我想向那些正在研究垃圾邮件过滤器的人建议一个附加功能:“惩罚"模式,如果打开,将对可疑垃圾邮件中的每个url进行n次蜘蛛抓取,其中n可以由用户设置。[1]

正如许多人指出的,当前邮件系统的问题之一是它太被动了。它做你告诉它做的一切。到目前为止,所有修复问题的建议似乎都涉及新协议。这个不会。

如果广泛使用,自动检索垃圾邮件过滤器将使邮件系统反弹。垃圾邮件的大量数量,迄今为止一直对垃圾邮件发送者有利,现在将对他不利,就像树枝反弹在他脸上一样。自动检索垃圾邮件过滤器将提高垃圾邮件发送者的成本,并降低他的销售:他的带宽使用将飙升,他的服务器将在负载下停止运转,这将使它们对那些会响应垃圾邮件的人不可用。

每小时发送一百万封邮件,每小时在你的服务器上获得一百万次点击。我们想确保这只对可疑的垃圾邮件进行。通常,发送给数百万人的任何url都可能是垃圾邮件url,因此提交每封邮件中的每个http请求几乎总是可以正常工作。但有几种情况这不是真的:例如,像Yahoo Mail和Hotmail这样的免费邮件服务发送的邮件底部的url。

为了保护这样的站点,并防止滥用,自动检索应该与垃圾邮件推广站点的黑名单结合。只有黑名单上的站点才会被抓取,站点只有在经过人工检查后才会被列入黑名单。垃圾邮件的生命周期必须至少有几个小时,所以应该很容易及时更新这样的列表来干扰推广新站点的垃圾邮件。[2]

大量自动检索只对高带宽连接的用户实用,但有足够的用户会给垃圾邮件发送者造成严重麻烦。实际上,这个解决方案巧妙地反映了问题。垃圾邮件的问题在于,为了到达少数易受骗的人,垃圾邮件发送者向每个人发送邮件。不易受骗的收件人只是附带损害。但不易受骗的多数人不会停止接收垃圾邮件,直到他们能够停止(或威胁停止)易受骗的人响应它。自动检索垃圾邮件过滤器为他们提供了一种方法来做到这一点。

这会杀死垃圾邮件吗?不完全是。最大的垃圾邮件发送者可能能够保护他们的服务器免受自动检索过滤器的影响。然而,对他们来说最简单、最便宜的方法是在邮件中包含有效的退订链接。这对于小鱼以及雇佣垃圾邮件发送者推广他们的"合法"站点来说将是必要的。因此,如果自动检索过滤器变得广泛,它们将成为自动退订过滤器。

在这种情况下,垃圾邮件将像操作系统崩溃、病毒和弹出窗口一样,成为那些懒得使用正确软件的人所遭受的瘟疫之一。


注释

[1] 自动检索过滤器必须跟踪重定向,并在某些情况下(例如,只说"点击这里"的页面)跟踪多级链接。还要确保http请求与流行Web浏览器的请求无法区分,包括顺序和引用者。

如果响应在x时间内没有返回,默认为相当高的垃圾邮件概率。

与其使n恒定,不如使它成为提到该站点的垃圾邮件数量的函数,这可能是个好主意。这将增加对滥用和事故的进一步保护。

[2] 本文的早期版本使用"白名单"而不是"黑名单"一词。虽然它们要像黑名单一样工作,我更喜欢称它们为白名单,因为这可能使它们不太容易受到法律攻击。然而,这似乎只是让读者感到困惑。

应该可能有多个黑名单。单点故障既容易受到攻击也容易受到滥用。

感谢布莱恩·伯顿、比尔·耶拉祖尼斯、丹·吉芬、埃里克·雷蒙德和理查德·乔西阅读本文的草稿。