乌托邦 | 感动中国
搜索

日志导航
其实没什么
首页
迟到的服务
分类日志
商业  (9)
家有 CiCi  (5)
收藏  (12)
计算机与网络  (73)
想法  (5)
感动  (1)
生活  (187)
天籁心曲  (9)
我 和 NI  (4)
困惑  (2)
感慨  (18)
科技  (16)
历史日志
June 2005
May 2005
April 2005
March 2005
February 2005
January 2005
December 2004
November 2004
October 2004
September 2004
August 2004
July 2004
June 2004
May 2004
April 2004
March 2004
February 2004
January 2004
当月日志
QQ 与 Google Desktop Search Engine 有冲突
PSP flame
MSN Space 的美化技巧
想哭的冲动
厉害的 “三脚猫” 功夫
搞怪的鼠标
专业安全服务的人力资源管理 - 我们需要什么样的人力
亿阳涉足的行业又多了一个
今天做了件很残忍的事情
GMail 的变化
终于忍不住了
我, 最大的玩具
让人郁闷的 MySQL
超级不爽的 nini
CRC RCM
服务的分类
麦肯锡 or IBM
“恼火” *_*#
今天一大早 ...
突然心里酸酸的
Day 1
Life
... OR NOT
十万个为什么
.. 是什么
烧水想到的
Google 新服务
生活价值几何
偶尔看到的
Errors Of Installing PHP on Windows
跑啊跑
值得期待的 SecureCRT 5
已阅
不是我不懂
一个时代的思维
又有人提到了CiCi
公司五周年了
CiCi
TAXI 语录 20050416
可怜的 CiCi
今天收到一个礼物
动力火车 - 那就这样吧
向大公司学什么
今天看到游行了
CiCi 病了
隐蔽通道越来越容易了
心情 & 天气
Funny News
MARKET - 安全中间件?
最大的图片
眼皮跳...
赫赫... 家乡有历史咯
有人推荐小刚的歌给我
最近眼皮一直在跳...
中国移动... 汗个!
赫赫... C&P or Default Setting?
FreshMeat - 1
希望能上天保佑...
出差回来了
粘人的 CiCi
...
如何讨论 - TIPs 2
陶喆
不要抄袭好不好
[ZT]情书
学习鲫鱼的生理卫生
身上有些痛
安定
今天是值得纪念的一天
游戏如人生
生活...
本命年过去啦~
Setting Up Goals ...
过年啦!
遭受攻击ing
演员
讨论、争论中正确的态度?
没事
Reloading ...
回北京了
大海啸
由 OSI 模型想到的...
昙花?狗尾巴花?
周星驰已死?
轻描淡写
政府又要难受了...
中国 0day 之死?
大事小情
圣诞老人的原型
安抚的技巧? - 安抚对自己位置不满的员工
我是罗德曼?
nickname Today! - 1
外国人的梦想
回想《小猫钓鱼》...
人工智能?
又到年终盘点时
安全服务外包?
为什么
戏剧·生活
postfix 折腾记 - 3
postfix 折腾记 - 2
postfix 折腾记 - 1
北京又要修路了
行为决策学
MT-Blacklist
我和别人的家乡...
补 ...
晕晕晕 - ImageMagick
神州数码也要开始 IT 服务了
恢复正常
小事
第一次
读书时间
挑战与趋之若鹜
家庭存储?
9000
今天去了《对话》的观众见面会
又失踪了
过犹不及
价值和使用价值
快乐曾是简单的事情
hardresetting
There is no spoon
回去...回来...
秋天真的来了
看杂志想到的
吉他-神奇的乐器
我又开始害怕了
喜欢的义务和责任
今天听了一首歌
什么是成长?
人还真是分很多种的
想看看希特勒另外的形象...
开始叛变...
秋天到了...
Linux 晕晕晕ing
XBOX Spreading
[ZT]你不知道,我知道...
Bizet - Carmen - March of the Toreadors
我都服了...
到处都是最佳商业实践
爱情是什么?
还是读书看报~
今天读书...
photolog 和 wiki
Spider-Man II
历史突破
为什么“鸟巢”咖啡的杯子和包装主要都是红色?
我 BT 了
长不大的小孩子
生活的细节
一百个人有一百个世界
唐师曾又出书了
faint 被锁在厨房
人真是矛盾的动物
科技新闻站点
人生一辈子...
颜色
病毒!又见病毒!
我们需要怎样的密码?
汗!
新 blog 站点
[ZT]社会生活中的著名法则
终于下定决心 xbox 一把
这则新闻不知道得撩拨多少人的心
兵谏
想你
噫语 - 关于我的 blog 读者
难眠
水漫金山 x 2
《Fallout 3》复活
太容易被人感染
今天...
自说自话
你对我们很重要
早出晚归
我的天使
Every Breath You Take
音乐
青草的味道
当云彩都成为资源...
Bless
我回来了
胃痛 - Stomach Ache
可恶的 ActiveX
Super Cool Flash Game
北京夏天
Server Down
专利之剑又一次悬在我们头上
被忽略
可爱的微生物
身边的美
得来全不费功夫
英年早逝
美国关于中国的笑话(ZT)
惴惴不安
啊!找不到了!!
竹影青瞳
我是原始人
ASCII Art
病了...
郁闷!
photolog 上线
今天搬家
昨日
又要搬了
番茄汁真难喝
猫扑果然是达人辈出
关注垃圾邮件的 blog
昨夜
为了别人快乐而快乐
蜜糖
无助的沉默
今夜无香
天籁!
贺!贺!!贺!!!
电子点烟器
Gmail 进行时
微软真的在抓安全了
电视上看到一个有意思的地方
贫乏的我
大家六一快乐!
...
哈哈
昨天
[ZT] 一个资深职业经理人给大家的几句忠告!
DIY 服务器 LCD 面板
郁闷!
KDE on Cygwin
有一个垃圾邮件处理器
VMWare 问题及解答
读《科学史》解惑
收费为王
饮鸩止渴
网络安全的春天就要到来!
有人喜欢看《新语丝》么?
blog 热情消退ing?
浮上水面的 0Day
人类的朋友
中小网站生存环境与黑社会
30 秒搞定魔方?
Funny 的老外
Not only a demo - 96KB 的 3D 游戏!
吴总的问题之一
w3 大喜啦!
Softwar
贺!
祝福ing...
机器人会跳舞了
真倒霉!
DSPAM CRM114 各有特色
垃圾评论真逗
备忘
愚人节快乐!
Google 的大动作
哥们儿~真逗!!
为啥呢?
测试 ....
春天还看到,夏天就已经来了?
“台湾大选”
累!真累!
重装系统真痛苦...
blogcn 重开!
训练战场由室外转向室内...
MSN Messenger 机器人
打企鹅...
来自法国的新闻
人生如梦啊!
围剿垃圾邮件
机器人时代的到来?
迟到的服务
向垃圾邮件说 BYEBYE
其实没什么
女人的天堂和重庆 CBD
重庆
山城重庆
垃圾邮件的末日
梵高的视线
Cool Thing
NMAP 鄙视 SCO
搜索引擎让我清誉毁于一旦...
天哪
IBM 发布笔记本硬盘升级固件
反垃圾邮件
自己造个 ATM ?
中国的 MBA ?
Perl 的动作
PHP 的 MRTG
BT 的 Google
MRTG 的作者结婚了
卜桦的网站
MSN 聊天机器人
电子身份证+网络=个人隐私无所遁形?
GiFi - 千兆无线?
续:Windows 代码泄漏!
读张五常《经济解释》的困惑
语文=尸检
ASCII ART
干细胞克隆成功了
三藏法师
Windows 代码泄漏!
M$ 试水新策略?
PDA 对我的最大用途之一...
最富争议的市委书记
天山童姥(lăo或者mŭ)?
跳跃式发展?
安全事故?IT 应急响应?
看了 airlink 的 blog
起来吧!买房的人们!
编辑 = Cpoy & Paste ?
真不好意思
HP2210 折腾ing
看到外国人讨论
我的第一帖!
MyDoom 的威力
罚抄100遍
汗颜
由充气娃娃想到的
有趣的新闻
还是 MyDoom
原来也有人和我一样
续:有趣的Google
乘着夜色
MyDoom 来了!
还是机器人!
只有想到不到,没有做不到
Nikon D70 发布了!
SCO 与开源社团的口水战升级
计算机也会唱歌了!
图片自动适应窗口的 JavaScript
MOP Matrix
FTP Demon
我也来贴门神
有趣的Google
又过年了!
我又老了
再次探索 blog 发布程序
回家了
逝去的 2003
  
向垃圾邮件说 BYEBYE | March 13, 2004

其实是介绍一个小软件 K9 ——大小不超过 100k 完全绿色软件。这个软件的工作方法是把自己运行成为一个 pop3 的应用级代理,然后利用 sbl、黑白名单、正则匹配的内容过滤和贝叶斯算法来分辨邮件是否为垃圾邮件。

所谓 sbl 就是一个 ip 地址列表,这个列表里面包含了大量被人举报过的垃圾邮件发送源 IP 地址。详细信息参考 http://www.spamhaus.org/
黑白名单就很容易理解了,就是列一个大名单,黑名单里面的就全部是垃圾邮件发送者,白名单就全是正常邮件发送者。
正则匹配的内容过滤,就是根据你指定的正则表达式进行内容过滤排除垃圾邮件。
贝叶斯算法我也不知道具体怎么弄,我只是知道他是一种人工智能的方法。可以自己学习,从而渐渐变得越来越聪明,越来越智能的过滤垃圾邮件。号称现在实现的最好的人工智能垃圾邮件过滤器能够达到 99% 以上的精确度。
这个是安装后的界面

这是配置界面
简单的说一下
选中 Use a "whitelist" filter
选中 Use a "blacklist" filter
激活黑白名单
选中 blackhole list 里面的 Use DNS blackhole list to help identify spam
激活 sbl
在 pop3 Server Check 里面填上你的 pop3 信息
account name 填 你的邮箱 其他的没什么好说的了

配置界面二
proxy 里面填上 在本地监听的端口(不用太担心安全问题,监听在 127.0.0.1)
在 Mark email as spam by .. 选择你如何标记垃圾邮件

然后修改你的邮件客户端
pop3 服务器地址改成 127.0.0.1 服务器端口改成 9110
用户名改成 servername/port /username
如果你的邮件地址是 aaa@bbb.com bbb.com 的邮件服务器是 pop.bbb.com 在 pop3 端口在 110
那你的用户名改成
pop.bbb.com/110/aaa
密码不用改,如果你是 OE 或者是 Outlook 可以在 Advanced 标签里面的 Automatic Email Program Configuration 自动配置
然后利用邮件客户端收取邮件,并且收取邮件的时候在 k9 的 Recent Emails 里面会出现你收下的邮件。然后你手动判断一下是否是垃圾邮件。下一次手法邮件的时候如果没有正常的标记垃圾邮件,你再修正一下。经过几次以后 k9 就会越来越聪明啦!
这是我的 k9 自动分拣的垃圾邮件。准确率还不错,达到了 90%左右。

k9 的好处——不会帮你删邮件,只是帮你分拣,你可以使用一个简单的规则就可以实现你想要的自动删除垃圾邮件的功能。这样就不会丢失邮件了。即使 k9 不能很好的判断。你也可以把它当作一个能够管理多邮箱的,同时删除多个邮箱的垃圾邮件。而且 k9 体积很小,占内存数量很小(及时使用 organize来整理)。
k9 的缺点——收邮件的时候会比不使用k9要慢一些。


http://bbs.mailsofts.com/index.php?showtopic=2331

一. 贝叶斯过滤算法的基本步骤

1) 收集大量的垃圾邮件和非垃圾邮件,建立垃圾邮件集和非垃圾邮件集。
2) 提取邮件主题和邮件体中的独立字串例如 ABC32,¥234等作为TOKEN串并统计提取出的TOKEN串出现的次数即字频。按照上述的方法分别处理垃圾邮件集和非垃圾邮件集中的所有邮件。
3) 每一个邮件集对应一个哈希表,hashtable_good对应非垃圾邮件集而hashtable_bad对应垃圾邮件集。表中存储TOKEN串到字频的映射关系。
4) 计算每个哈希表中TOKEN串出现的概率P=(某TOKEN串的字频)/(对应哈希表的长度)
5) 综合考虑hashtable_good和hashtable_bad,推断出当新来的邮件中出现某个TOKEN串时,该新邮件为垃圾邮件的概率。数学表达式为:
A事件----邮件为垃圾邮件;
t1,t2 …….tn代表TOKEN串
则P(A|ti)表示在邮件中出现TOKEN串ti时,该邮件为垃圾邮件的概率。

P1(ti)=(ti在hashtable_good中的值)
P2(ti)=(ti在hashtable_ bad中的值)
则 P(A|ti)= P1(ti)/[(P1(ti)+ P2(ti)];
6) 建立新的哈希表 hashtable_probability存储TOKEN串ti到P(A|ti)的映射
7) 至此,垃圾邮件集和非垃圾邮件集的学习过程结束。根据建立的哈希表 hashtable_probability可以估计一封新到的邮件为垃圾邮件的可能性。
当新到一封邮件时,按照步骤2)生成TOKEN串。查询hashtable_probability得到该TOKEN 串的键值。
假设由该邮件共得到N个TOKEN串,t1,t2…….tn, hashtable_probability中对应的值为P1,P2,。。。。。。PN,
P(A|t1 ,t2, t3……tn)表示在邮件中同时出现多个TOKEN串t1,t2…….tn时,该邮件为垃圾邮件的概率。
由复合概率公式可得
P(A|t1 ,t2, t3……tn)=(P1*P2*。。。。PN)/[P1*P2*。。。。。PN+(1-P1)*(1-P2)*。。。(1-PN)]
当P(A|t1 ,t2, t3……tn)超过预定阈值时,就可以判断邮件为垃圾邮件。

二. 贝叶斯过滤算法举例

例如:一封含有“ *** 功”字样的垃圾邮件 A
和 一封含有“法律”字样的非垃圾邮件B
根据邮件A生成hashtable_ bad,该哈希表中的记录为
法:1次
轮:1次
功:1次
计算得在本表中:
法出现的概率为0。3
轮出现的概率为0。3
功出现的概率为0。3
根据邮件B生成hashtable_good,该哈希表中的记录为:
法:1
律:1
计算得在本表中:
法出现的概率为0。5
律出现的概率为0。5
综合考虑两个哈希表,共有四个TOKEN串: 法 轮 功 律
当邮件中出现“法”时,该邮件为垃圾邮件的概率为:
P=0。3/(0。3+0。5)=0。375
出现“轮”时:
P=0。3/(0。3+0)=1
出现“功“时:
P=0。3/(0。3+0)=1
出现“律”时
P=0/(0+0。5)=0;
由此可得第三个哈希表:hashtable_probability 其数据为:
法:0。375
轮:1
功:1
律:0

当新到一封含有“功律”的邮件时,我们可得到两个TOKEN串,功 律
查询哈希表hashtable_probability可得
P(垃圾邮件| 功)=1
P (垃圾邮件|律)=0
此时该邮件为垃圾邮件的可能性为:
P=(0*1)/[0*1+(1-0)*(1-1)]=0
由此可推出该邮件为非垃圾邮件

Posted by sbilly at March 13, 2004 02:22 AM | TrackBack
已有评论:

我觉得spamweed是一个非常好的spam filter. 它使用了bayes过滤技术,但它不仅仅是一个bayes过滤器。它使用了一系列其他的方法。而且这些方法之间又通过机器学习的方法互相提高,因此它比一般的bayes过滤器学习快的多。我使用了一个星期,垃圾邮件全没有了,而且没有误判。

下载网址是:http://www.spamweed.com

Posted by: kfz at October 4, 2004 07:30 PM
发表您的评论:












记住您的个人信息?






同步本站 (XML) Moveable Type 本站版权说明 check out my neighbors in meatspace Listed on BlogShares
2002-2004 sinoutopia.org. All rights reserved