View On GitHub
Blog
懒癌晚期
Project maintained by
VirusPC
Hosted on GitHub Pages — Theme by
mattgraham
Back Home
垃圾邮件分类
预处理邮件(大量邮件)
转为小写字母
特殊单词替换:HTML标志,URL,Email地址,
转化为词干
移除非单词成分(制表,空格,换行)
单词表
选择出现频率最高的单词们作为单词表
为每个单词标记序号
从邮件中提取特征
构建n维向量,向量下标与单词序号一一对应,存在记为1,不存在记为0.
训练SVM用于垃圾邮件分类
预测
相关资料
相关octave代码以及pdf文件