TOP > 国内特許検索 > 迷惑メールのフィルタ機能を有する電子メールシステム

迷惑メールのフィルタ機能を有する電子メールシステム 新技術説明会

国内特許コード P08P005631
整理番号 IP367
掲載日 2008年6月13日
出願番号 特願2006-320004
公開番号 特開2008-135926
登録番号 特許第4686724号
出願日 平成18年11月28日(2006.11.28)
公開日 平成20年6月12日(2008.6.12)
登録日 平成23年2月25日(2011.2.25)
発明者
  • 杉井 学
  • 松野 浩嗣
出願人
  • 国立大学法人山口大学
発明の名称 迷惑メールのフィルタ機能を有する電子メールシステム 新技術説明会
発明の概要

【課題】
学習型の決定木アルゴリズムを用いて、迷惑メールを正確に効率良くフィルタリングする。
【解決手段】
電子メール受信部2と、迷惑メール判定部3と、迷惑メールフィルタ部4と、電子メール送信部5とを有する電子メールシステム1であって、迷惑メール判定部は、決定木学習部6によって予め生成された単語出現頻度データベースにより電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、単語符号化部により符号化された電子メール符号化データに決定木学習部によって予め生成された決定木を適用することにより迷惑メールか否かを判定する判定部とを有し、決定木学習部は単語出現頻度データベース及び迷惑メールと通常メールとを振り分ける最適な決定木を生成するものであり、迷惑メール判定部及び決定木学習部は、電子メールにおけるヘッダ部分及び本文を分けずに同一アルゴリズムにより処理する。
【選択図】図1

従来技術、競合技術の概要


インターネット上を流れる迷惑メールの割合は、全電子メール中の60%を越えると言われており、現在では、迷惑メール対策として、さまざまな自動分類方法が用いられている。開発初期のもっとも単純な方法に、メールヘッダに記述される特定の迷惑メール送信サーバやメールのFrom行記載のメールアドレスを、管理者やユーザがひとつひとつ登録し、合致するメールを排除する方法がある。しかし迷惑メール送信者は、このような対策をかいくぐる新しい方法で次々に迷惑メールを送信してくるため、手作業で分類やアドレスの登録などを行うには作業コストが大きすぎ、現実的ではなくなってきている。また、これまでの方法では、通常の電子メールを迷惑メールと間違えて判断するケースおよびその逆のケースも増えている。近年、メール本文などの単語の出現頻度による特徴を分類に役立てるベイズ理論を応用した方法が注目されているが、未だ利用者および管理者の作業コストは大きく、分類精度もそれほど高くない。



従来技術として、特許文献1乃至3が挙げられる。
特許文献1には、文字列の一部をわざと間違えたり文字間に無意味な記号を挿入した電子メールであっても、迷惑メール等の電子メールを効果的に分類できる電子メール処理装置が記載されている。電子メールに含まれる単語について単語情報データベース内の迷惑メール対象文字列と相同性検索をすることによって迷惑メールの判定を行っている。
特許文献2には、電子メールのヘッダ情報に含まれるメール中継装置によって、該当電子メールが迷惑メールか否かをベイズ確率モデルを用いて判定する電子メールフィルタリングシステムが記載されている。
特許文献3には、ユーザが通常メールと迷惑メールとを分類し、その分類された内容を分析してフィルタルールを追加する電子メールフィルタリングシステムが記載されている。
特許文献1乃至3のいずれにも、迷惑メールの判定に学習型の決定木アルゴリズムを用いることついて記載されていない。

【特許文献1】特開2006-293573号公報

【特許文献2】特開2006-260515号公報

【特許文献3】特開2006-245813号公報

産業上の利用分野


本発明は、学習型の決定木アルゴリズムを用いた、迷惑メールのフィルタ機能を有する電子メールシステム及びプログラムに関する。

特許請求の範囲 【請求項1】
外部からの電子メールを受信する電子メール受信部と、
前記電子メール受信部によって受信された電子メールが迷惑メールか否かを判定する迷惑メール判定部と、
前記迷惑メール判定部の判定結果に応じて前記電子メールをフィルタリングする迷惑メールフィルタ部と、
前記迷惑メールフィルタ部によってフィルタリングされた前記電子メールをローカルメールボックス又は外部に送信する電子メール送信部と、
を有する電子メールシステムであって、
前記迷惑メール判定部は、
決定木学習部によって予め生成された単語出現頻度データベースにより、前記電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、
前記単語符号化部により符号化された電子メール符号化データに、決定木学習部によって予め生成された決定木を適用することにより迷惑メールか否かを判定する判定部と、
を有し、
前記決定木学習部は、
前記迷惑メール判定部と同一サーバ内又は異なるサーバ内にあり、
迷惑メールを保存した迷惑メールデータベースと、通常メールを保存した通常メールデータベースと、
前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の単語の出願頻度を求めて前記単語出現頻度データベースを生成する単語出現頻度データベース生成部と、
前記単語出現頻度データベースにより、前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、
前記単語符号化部により符号化された電子メール符号化データのパターンに基づいて、迷惑メールと通常メールとを振り分ける最適な決定木を生成する学習部と、
を有し、
前記迷惑メール判定部及び前記決定木学習部における電子メールはヘッダ部分及び本文の両方を含むものであり、前記迷惑メール判定部及び前記決定木学習部は、前記電子メールにおけるヘッダ部分及び本文を分けずに同一アルゴリズムにより処理する
ことを特徴とする電子メールシステム。

【請求項2】
前記単語出現頻度データベース生成部は、単語の出現頻度とともに、前記単語が迷惑メールと通常メールのどちらに多く含まれるかを示す出現偏りも求めて前記単語出現頻度データベースを生成し、
前記単語符号化部は、前記電子メール中の全ての単語を前記出現頻度及び前記出現偏りに応じた符号に変換する
ことを特徴とする請求項1記載の電子メールシステム。

【請求項3】
前記学習部は、前記電子メール符号化データ内の符号を、最適な決定木を求められるグループに分け、前記グループ分けの結果により前記符号をさらに第2の符号に変換する機能を有することを特徴とする請求項1又は2記載の電子メールシステム。

【請求項4】
前記学習部に、BONSAIプログラムを用いることを特徴とする請求項3記載の電子メールシステム。

【請求項5】
外部からの電子メールを受信する電子メール受信部と、
前記電子メール受信部によって受信された電子メールが迷惑メールか否かを判定する迷惑メール判定部と、
前記迷惑メール判定部の判定結果に応じて前記電子メールをフィルタリングする迷惑メールフィルタ部と、
前記迷惑メールフィルタ部によってフィルタリングされた前記電子メールをローカルメールボックス又は外部に送信する電子メール送信部と、
を有する電子メールプログラムであって、
前記迷惑メール判定部は、
決定木学習部によって予め生成された単語出現頻度データベースにより、前記電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、
前記単語符号化部により符号化された電子メール符号化データに、決定木学習部によって予め生成された決定木を適用することにより迷惑メールか否かを判定する判定部と、
を有し、
前記決定木学習部は、
前記迷惑メール判定部と同一サーバ内又は異なるサーバ内にあり、
迷惑メールを保存した迷惑メールデータベースと、通常メールを保存した通常メールデータベースと、
前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の単語の出願頻度を求めて前記単語出現頻度データベースを生成する単語出現頻度データベース生成部と、
前記単語出現頻度データベースにより、前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、
前記単語符号化部により符号化された電子メール符号化データのパターンに基づいて、迷惑メールと通常メールとを振り分ける最適な決定木を生成する学習部と、
を有し、
前記迷惑メール判定部及び前記決定木学習部における電子メールはヘッダ部分及び本文の両方を含むものであり、前記迷惑メール判定部及び前記決定木学習部は、前記電子メールにおけるヘッダ部分及び本文を分けずに同一アルゴリズムにより処理する
ことを特徴とする電子メールプログラム。

【請求項6】
前記単語出現頻度データベース生成部は、単語の出現頻度とともに、前記単語が迷惑メールと通常メールのどちらに多く含まれるかを示す出現偏りも求めて前記単語出現頻度データベースを生成し、
前記単語符号化部は、前記電子メール中の全ての単語を前記出現頻度及び前記出現偏りに応じた符号に変換する
ことを特徴とする請求項5記載の電子メールプログラム。

【請求項7】
前記学習部は、前記電子メール符号化データ内の符号を、最適な決定木を求められるグループに分け、前記グループ分けの結果により前記符号をさらに第2の符号に変換する機能を有することを特徴とする請求項5又は6記載の電子メールプログラム。

【請求項8】
前記学習部に、BONSAIプログラムを用いることを特徴とする請求項7記載の電子メールプログラム。
産業区分
  • 電信
  • 記憶装置
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2006320004thum.jpg
出願権利状態 権利存続中
山口TLOは平成11年11月に山口大学の教官50名の出資により設立された、リエゾン一体型のTLO活動会社です。山口大学を主とし、山口県内の大学・高専の研究成果をご紹介致します。特許の内容に興味を持たれた方は、下記までご連絡ください。


PAGE TOP

close
close
close
close
close
close
close