TOP > 国内特許検索 > 辞書作成支援装置、辞書作成支援方法及び辞書作成支援プログラム

辞書作成支援装置、辞書作成支援方法及び辞書作成支援プログラム

国内特許コード P120006491
整理番号 WASEDA-1027
掲載日 2012年1月13日
出願番号 特願2010-036415
公開番号 特開2011-170790
登録番号 特許第5648890号
出願日 平成22年2月22日(2010.2.22)
公開日 平成23年9月1日(2011.9.1)
登録日 平成26年11月21日(2014.11.21)
発明者
  • 立石 健二
  • 細見 格
  • 山名 早人
出願人
  • 日本電気株式会社
  • 学校法人早稲田大学
発明の名称 辞書作成支援装置、辞書作成支援方法及び辞書作成支援プログラム
発明の概要 【課題】生成される同義語候補の精度を向上させて辞書作成を支援できる辞書作成支援装置を提供する。
【解決手段】同義語候補生成手段81は、Webページの識別子である各資源位置指定子に対してリンクする文字列を表すアンカーテキストを用いて、同義語を生成する対象の語として入力される入力語の同義語候補を生成する。リンク削除手段82は、一の資源位置指定子に対して、アンカーテキストが入力語もしくは同義語候補の中でその入力語の同義語と判定された同義語候補になっているリンクである第一のリンクと、アンカーテキストが同義語候補の中で入力語の非同義語と判定された同義語候補になっているリンクである第二のリンクのうち、少なくとも一方のリンクを削除する。このとき、リンク削除手段82は、アンカーテキストごとのリンクの数に基づいて、上記一の資源位置指定子とアンカーテキストとのリンクを削除する。
【選択図】図15
従来技術、競合技術の概要


同義語辞書は、文書検索、顧客データの名寄せなど、様々なソフトウェアの基本的な資源として使用される。同義語の定義としては様々なものが存在するが、ここでは、表記が異なり、同じ対象物を示す2つの語を同義語とする。



非特許文献1には、同義語辞書の作成支援方法として、利用者が入力した語の同義語候補をWeb(ウェブ)のアンカーテキストを用いて生成する方法が開示されている。非特許文献1に記載された方法は、あるWebページを示すURLに対する複数のアンカーテキストは、それぞれが同様の表現を含んでいると判断されることから、それらの表現を同義であるとみなすものである。

産業上の利用分野


本発明は、Webのアンカーテキストを用いて入力語に対する同義語候補を生成する辞書作成支援装置、辞書作成支援方法及び辞書作成支援プログラムに関する。

特許請求の範囲 【請求項1】
辞書作成を支援する辞書作成支援装置であって、
同義語を生成する対象の語として当該辞書作成支援装置に入力される入力語をアンカーテキストに含む資源位置指定子を抽出し、抽出された資源位置指定子で識別されるWebページにリンクする各アンカーテキストと前記入力語との同義性を計算し、計算された同義性が上位のアンカーテキストを同義語候補として生成する同義語候補生成手段と、
予め規定した判定ルールまたは利用者による判定に基づいて入力語の同義語か非同義語かが判定された前記同義語候補を用いて、入力語もしくは当該入力語の同義語と判定された前記同義語候補で表わされるアンカーテキストに設定された、一の資源位置指定子で識別されるWebページへのリンクである第一のリンクと、当該入力語の非同義語と判定された前記同義語候補で表わされるアンカーテキストに設定された、前記一の資源位置指定子で識別されるWebページへのリンクである第二のリンクのうち、少なくとも一方のリンクを削除するリンク削除手段とを備え、
前記リンク削除手段は、一の資源位置指定子について、各アンカーテキストからのリンクの数の、全アンカーテキストからのリンクの数に対する相対的な割合を算出し、一の資源位置指定子に対する第一のリンクと第二のリンクのうち、前記相対的な割合が小さいほうのリンクを削除し、
前記同義語候補生成手段は、前記リンク削除手段が削除する対象から除かれた各資源位置指定子のリンクのアンカーテキストを用いて入力語の同義語候補を生成する
ことを特徴とする辞書作成支援装置。

【請求項2】
資源位置指定子で識別されるWebページへのリンクが設定されたアンカーテキストが当該資源位置指定子の実体を表す確率である実体確率を、資源位置指定子とアンカーテキストとのリンクごとに計算する実体確率計算手段を備え、
リンク削除手段は、第一のリンクと第二のリンクのうち、前記実体確率が小さいリンクを削除する
請求項1記載の辞書作成支援装置。

【請求項3】
実体確率計算手段は、各アンカーテキストから一の資源位置指定子で識別されるWebページへのリンクの総数に対する一のアンカーテキストから当該一の資源位置指定子で識別されるWebページへのリンクの数の割合を実体確率として算出する
請求項2記載の辞書作成支援装置。

【請求項4】
実体確率計算手段は、各アンカーテキストから一の資源位置指定子で識別されるWebページへのリンクの総数に対する一のアンカーテキストから当該一の資源位置指定子で識別されるWebページへのリンクの数の割合、及び、前記アンカーテキストを持つ各資源位置指定子へのリンクの総数に対する当該アンカーテキストから前記一の資源位置指定子で識別されるWebページへのリンクの数の割合を用いて実体確率を算出する
請求項2記載の辞書作成支援装置。

【請求項5】
アンカーテキストが同義語候補になっている各資源位置指定子に対するリンクのうち、入力語の同義語と判定された同義語候補がアンカーテキストであるリンクを統合するリンク統合手段を備え、
同義語候補生成手段は、統合された前記リンクのアンカーテキストを用いて入力語の同義語候補を生成する
請求項1から請求項4のうちのいずれか1項に記載の辞書作成支援装置。

【請求項6】
リンク削除手段は、第一のリンクと第二のリンクの双方が一の資源位置指定子に存在しない場合に、当該一の資源位置指定子に対するアンカーテキストのリンクを削除対象から除く
請求項1から請求項5のうちのいずれか1項に記載の辞書作成支援装置。

【請求項7】
辞書作成を支援する辞書作成支援方法であって、
辞書作成支援装置の同義語候補生成手段が、同義語を生成する対象の語として入力される入力語をアンカーテキストに含む資源位置指定子を抽出し、
前記同義語候補生成手段が、抽出された資源位置指定子で識別されるWebページにリンクする各アンカーテキストと前記入力語との同義性を計算し、
前記同義語候補生成手段が、計算された同義性が上位のアンカーテキストを同義語候補として生成し、
辞書作成支援装置のリンク削除手段が、予め規定した判定ルールまたは利用者による判定に基づいて入力語の同義語か非同義語かが判定された前記同義語候補を用いて、入力語もしくは当該入力語の同義語と判定された前記同義語候補で表わされるアンカーテキストに設定された、一の資源位置指定子で識別されるWebページへのリンクである第一のリンクと、当該入力語の非同義語と判定された前記同義語候補で表わされるアンカーテキストに設定された、前記一の資源位置指定子で識別されるWebページへのリンクである第二のリンクのうち、少なくとも一方のリンクを削除し、
前記リンク削除手段が、前記リンクを削除する際に、一の資源位置指定子について、各アンカーテキストからのリンクの数の、全アンカーテキストからのリンクの数に対する相対的な割合を算出し、一の資源位置指定子に対する第一のリンクと第二のリンクのうち、前記相対的な割合が小さいほうのリンクを削除し、
前記同義語候補生成手段が、同義語候補を生成する際に、削除対象から除かれた各資源位置指定子のリンクのアンカーテキストを用いて入力語の同義語候補を生成する
ことを特徴とする辞書作成支援方法。

【請求項8】
辞書作成支援装置の実体確率計算手段が、資源位置指定子で識別されるWebページへのリンクが設定されたアンカーテキストが当該資源位置指定子の実体を表す確率である実体確率を、資源位置指定子とアンカーテキストとのリンクごとに計算し、
リンク削除手段が、リンクを削除する際に、第一のリンクと第二のリンクのうち、前記実体確率が小さいリンクを削除する
請求項7記載の辞書作成支援方法。

【請求項9】
辞書作成を支援するコンピュータに搭載される辞書作成支援プログラムであって、
前記コンピュータに、
同義語を生成する対象の語として当該コンピュータに入力される入力語をアンカーテキストに含む資源位置指定子を抽出し、抽出された資源位置指定子で識別されるWebページにリンクする各アンカーテキストと前記入力語との同義性を計算し、計算された同義性が上位のアンカーテキストを同義語候補として生成する同義語候補生成処理、および、
予め規定した判定ルールまたは利用者による判定に基づいて入力語の同義語か非同義語かが判定された前記同義語候補を用いて、入力語もしくは当該入力語の同義語と判定された前記同義語候補で表わされるアンカーテキストに設定された、一の資源位置指定子で識別されるWebページへのリンクである第一のリンクと、当該入力語の非同義語と判定された前記同義語候補で表わされるアンカーテキストに設定された、前記一の資源位置指定子で識別されるWebページへのリンクである第二のリンクのうち、少なくとも一方のリンクを削除するリンク削除処理を実行させ、
前記リンク削除処理で、一の資源位置指定子について、各アンカーテキストからのリンクの数の、全アンカーテキストからのリンクの数に対する相対的な割合を算出させ、一の資源位置指定子に対する第一のリンクと第二のリンクのうち、前記相対的な割合が小さいほうのリンクを削除させ、
前記同義語候補生成処理で、前記リンク削除処理で削除する対象から除かれた各資源位置指定子のリンクのアンカーテキストを用いて入力語の同義語候補を生成させる
ことを特徴とする辞書作成支援プログラム。

【請求項10】
コンピュータに、
資源位置指定子で識別されるWebページへのリンクが設定されたアンカーテキストが当該資源位置指定子の実体を表す確率である実体確率を、資源位置指定子とアンカーテキストとのリンクごとに計算する実体確率計算処理を実行させ、
リンク削除処理で、第一のリンクと第二のリンクのうち、前記実体確率が小さいリンクを削除させる
請求項9記載の辞書作成支援プログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2010036415thum.jpg
出願権利状態 登録
技術導入、技術提携、実用化開発(受託研究・共同研究等)のご相談を承っております。お気軽にご連絡ください。


PAGE TOP

close
close
close
close
close
close
close