TOP > 中国の大学の特許 > 北京大学の特許一覧 > インターネットにおける有害情報の遮断方法と装置

インターネットにおける有害情報の遮断方法と装置

国内特許コード P150011773
掲載日 2015年3月30日
出願番号 特願2013-545039
公表番号 特表2014-502754
登録番号 特許第5744228号
出願日 平成23年12月26日(2011.12.26)
公表日 平成26年2月3日(2014.2.3)
登録日 平成27年5月15日(2015.5.15)
国際出願番号 CN2011084699
国際公開番号 WO2012083892
国際出願日 平成23年12月26日(2011.12.26)
国際公開日 平成24年6月28日(2012.6.28)
優先権データ
  • 201010621142.1 (2010.12.24) CN
発明者
  • チェン、イェン
  • ユー、シャオミン
  • ヤン、チエンウー
出願人
  • 北大方正集▲団▼有限公司
  • 北京大学
  • 北京北大方正▲電▼子有限公司
  • 北京北大方正技▲術▼研究院有限公司
発明の名称 インターネットにおける有害情報の遮断方法と装置
発明の概要 本発明はインターネットにおける有害情報の遮断方法と装置を開示し、コンピューター情報処理及び情報遮断技術に関する。本発明のインターネットにおける有害情報の遮断方法は、遮断待ちテキスト情報、システムプレリサーチモデル情報及びユーザーフィードバックモデル情報を取得するステップと、前記遮断待ちテキスト情報を前処理するステップと、前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とに対して特徴情報マッチングを行い、第一マッチング結果を取得するステップと、前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とに対して特徴情報マッチングし、第二マッチング結果を取得するステップと、第一マッチング結果と第二マッチング結果に基いて、前記遮断待ちテキスト情報を遮断するステップとを備える。これによって、有害情報を自動的に遮断する性能を向上することができ、システム情報が自動的に更新されることも実現できる。
【選択図】図1
従来技術、競合技術の概要



インターネットが迅速に発展するにつれて、情報を伝播するスピードも速くなる。インターネットにおいて、様々なコンテンツが混在しているため、広告、色情、暴力などの有害情報を禁止することが難しい。そして、このような有害情報はますますもっと隠蔽の形で拡散されているため、有害情報の拡散を抑制し、インターネット空間を浄化することが非常に重要である。インターネットにおける膨大なデータ情報は、人工的にはインターネットにおける有害情報を遮断する場合、極めて大量の労力と財力を必要とする。そのため、近年、インターネットにおける有害情報を自動的に遮断する技術の研究が注目されている。





現在、一般的には、インターネットにおける有害情報を自動的に遮断する技術としては、下記の二つの方法が取り上げられる。

(1)キーワードマッチングに基づく遮断方法

判定プロセスにおいて、この方法は精確なマッチング法でキーワードがあるテキストを遮断する。当該方法が採用される場合に、インターネットにおける有害情報を速く遮断でき、簡単で使いやすい。

(2)統計のテキスト分類モデルに基づく遮断方法

この方法において、本質的には、統計に基づく有害テキストの遮断モデルはテキストを二種類に分類する。テキスト分類は自然言語の処理領域における重要な研究方向であり、大量のモデルが参考にできる。理論上、統計のテキスト分類モデルは、効果的であるはずであるが、実際の適用時には性能が望ましくない。誤判断の場合がよくあり、主な原因が下記で示され、

(1)順方向コーパス(corpus)と逆方向コーパスはバランスが取れていない。その中、順方向コーパスに少量の種類しか含まれていなく、例えば、広告、色情、暴力など、ユーザーが関心を持っている有害情報はメインである。一方、逆方向コーパスには、大量の種類が含まれており、テキスト内容によって分類すると、経済、体育、政治、医薬、アート、歴史、政治、文化、環境、交通、コンピューター、教育、軍事などが分けられている。

(2)有害情報の内容の表現は非常に隠蔽で変わりやすい。伝播者は常に通常の言語をわざと避け、代わりに、同音字、漢字分解、略字、造語などが使用されている。

(3)ユーザー辞書にキーワードを精確にマッチングする方法しか提供されないため、判定方法は機械的で融通性がなくなる。しかも、単一のキーワードの単語感情極性は代表的なものではなく、誤判断率が高い。例えば、「免費(無料)」と「発票(インボイス)」が同時にコンテキストに現れる場合は、単一の「発票(インボイス)」より説得力がある。

(4)従来の中国語情報処理方法はテキスト分類に基づく有害情報の遮断には適用できない。例えば、一定規模の禁止用語の使用や、特徴項に二文字以上の語彙しか含まれないなど。

(5)広告、色情、暴力などの有害情報を総合的に遮断するための統一的モデルがない。





上記したインターネットにおける有害情報の自動的遮断を実現するプロセスにおいて、従来の技術では、現在のインターネットからの要請を満足できなく、そして、自動的な更新も実現できない。

産業上の利用分野



本発明は、コンピューター情報処理及び情報遮断の技術に関し、特に、統計と規則に基づくインターネットにおける有害情報の遮断方法と装置に関する。

特許請求の範囲 【請求項1】
インターネットにおける有害情報の遮断方法であって、
遮断待ちテキスト情報、システムプレリサーチモデル情報及びユーザーフィードバックモデル情報を取得するステップと、
前記遮断待ちテキスト情報を前処理するステップと、
前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とに対して特徴情報マッチングし、第一マッチング結果を取得するステップと、
前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とに対して特徴情報マッチングし、前記第一マッチング結果から独立した第二マッチング結果を取得するステップと、
第一マッチング結果と第二マッチング結果とが一致しているか否かに基いて、前記遮断待ちテキスト情報を遮断するステップと、
を備えることを特徴とする方法。

【請求項2】
更に、
前記システムプレリサーチモデル情報のコーパス及び前記ユーザーフィードバックモデル情報のコーパスを取得するステップを備えることを特徴とする請求項1に記載の方法。

【請求項3】
前記ユーザーフィードバックモデル情報のコーパスには、ユーザーフィードバックコーパス及び/または被遮断コーパスが含まれることを特徴とする請求項2に記載の方法。

【請求項4】
更に、
前記ユーザーフィードバックモデル情報のコーパス量及びそれに対応する閾値を取得するステップと、
前記ユーザーフィードバックモデル情報のコーパス量及びそれに対応する閾値に基づいて、前記ユーザーフィードバックモデル情報を更新するステップと、
を備えることを特徴とする請求項3に記載の方法。

【請求項5】
前記遮断待ちテキスト情報を前処理するステップにおいては、
前記遮断待ちテキスト情報に対してセグメント処理をし、
前記セグメント処理がされた特徴項候補量を統計することを特徴とする請求項2、3または4に記載の方法。

【請求項6】
前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とに対して特徴情報マッチングし、第一マッチング結果を取得するステップにおいては、
前記前処理された遮断待ちテキスト情報及び前記システムプレリサーチモデル情報を取得し、
前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とをマッチングし、特徴項を取得し、
前記特徴項のコーパス情報の得点を計算し、
コーパス情報の得点に基づいて、前記特徴項に対応する遮断待ちテキスト情報が有害情報であるかどうかを判断し、
判断結果に基づいて、第一マッチング結果を取得することを特徴とする請求項5に記載の方法。

【請求項7】
前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とに対して特徴情報マッチングし、第二マッチング結果を取得するステップにおいては、
前記前処理された遮断待ちテキスト情報及び前記ユーザーフィードバックモデル情報を取得し、
前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とをマッチングし、特徴項を取得し、
前記特徴項のコーパス情報の得点を計算し、
コーパス情報の得点に基づいて、前記特徴項に対応する遮断待ちテキスト情報が有害情報であるかどうかを判断し、
判断結果に基づいて、第二マッチング結果を取得することを特徴とする請求項6に記載の方法。

【請求項8】
前記システムプレリサーチモデル情報は規則索引データベースとシステムリサーチモデルの特徴項情報とを含んでおり、
前記ユーザーフィードバックモデル情報は規則索引データベースとユーザーフィードバックモデルの特徴項情報とを含むことを特徴とする請求項6または7に記載の方法。

【請求項9】
前記システムプレリサーチモデル情報の規則索引データベースは、システムプリセット規則を含んでおり、
前記ユーザーフィードバックモデル情報の規則索引データベースは、ユーザー設定規則を含むことを特徴とする請求項8に記載のインターネットにおける有害情報の遮断方法。

【請求項10】
インターネットにおける有害情報の遮断装置であって
遮断待ちテキスト情報、システムプレリサーチモデル情報及びユーザーフィードバックモデル情報を取得する情報取得モジュールと、
前記遮断待ちテキスト情報を前処理する前処理モジュールと、
前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とに対して特徴情報マッチングし、第一マッチング結果を取得する第一マッチングモジュールと、
前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とに対して特徴情報マッチングし、前記第一マッチング結果から独立した第二マッチング結果を取得する第二マッチングモジュールと、
第一マッチング結果と第二マッチング結果とが一致しているか否かに基いて、前記遮断待ちテキスト情報を遮断する遮断モジュールと、
を備えることを特徴とする装置。

【請求項11】
前記情報取得モジュールは、更に、前記ユーザーフィードバックモデル情報のコーパスを取得することを特徴とする請求項10に記載の装置。

【請求項12】
前記ユーザーフィードバックモデル情報のコーパスには、ユーザーフィードバックコーパス及び/または被遮断コーパスが含まれることを特徴とする請求項11に記載の装置。

【請求項13】
更に、
前記ユーザーフィードバックモデル情報のコーパス量及びそれに対応する閾値を取得する閾値取得モジュールと、
前記ユーザーフィードバックモデル情報のコーパス量及びそれに対応する閾値に基づいて、前記ユーザーフィードバックモデル情報を更新する更新モジュールと、
を備えることを特徴とする請求項12に記載の装置。

【請求項14】
前記前処理モジュールは、
前記遮断待ちテキスト情報に対してセグメント処理をするセグメントサブモジュールと、
前記セグメント処理された特徴項候補量を統計する統計サブモジュールと、
を備えることを特徴とする請求項11、12または13に記載の装置。

【請求項15】
前記第一マッチングモジュールは、
前記前処理された遮断待ちテキスト情報及び前記システムプレリサーチモデル情報を取得する情報取得サブモジュールと、
前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とをマッチングし、特徴項を取得するマッチングサブモジュールと、
前記特徴項のコーパス情報の得点を計算する統計サブモジュールと、
コーパス情報の得点に基づいて、前記特徴項に対応する遮断待ちテキスト情報が有害情報であるかどうかを判断する判断サブモジュールと、
判断結果に基いて、第一マッチング結果を取得する結果出力サブモジュールと、
を備えることを特徴とする請求項14に記載の装置。

【請求項16】
前記第二マッチングモジュールは、
前記前処理された遮断待ちテキスト情報及び前記システムプレリサーチモデル情報を取得する情報取得サブモジュールと、
前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とをマッチングし、特徴項を取得するマッチングサブモジュールと、
前記特徴項のコーパス情報の得点を統計する統計サブモジュールと、
コーパス情報の得点に基づいて、前記特徴項に対応する遮断待ちテキスト情報が有害情報であるかどうかを判断する判断サブモジュールと、
判断結果に基づいて、第二マッチング結果を取得する結果出力サブモジュールと、
を備えることを特徴とする請求項15に記載の装置。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2013545039thum.jpg
出願権利状態 登録
分野
  • 物理学
※ 特許の内容に興味を持たれた方は、下記問合せ先にご相談下さい。


PAGE TOP

close
close
close
close
close
close