TOP > 国内特許検索 > 単語用法差異情報取得プログラム及び同装置

単語用法差異情報取得プログラム及び同装置 コモンズ 外国出願あり

国内特許コード P140010541
整理番号 05-33
掲載日 2014年5月13日
出願番号 特願2005-203157
公開番号 特開2007-025788
登録番号 特許第4803709号
出願日 平成17年7月12日(2005.7.12)
公開日 平成19年2月1日(2007.2.1)
登録日 平成23年8月19日(2011.8.19)
発明者
  • 内元 清貴
  • 進藤 三佳
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 単語用法差異情報取得プログラム及び同装置 コモンズ 外国出願あり
発明の概要 【課題】同義語や類義語についてどのような意味の語と一緒に使われることが多いかという用法の違いに関する汎用性の高い情報を、高精度で自動的に得られるようにする。
【解決手段】複数の同義語,類義語の入力を受け付ける手段1、入力単語を含む文データをコーパスから抽出する手段2、この文データを構文解析してそれらに含まれる入力単語と文法的関係にある名詞を抽出する手段3、シソーラスからこの名詞とその上位概念のノードを抽出して有向グラフを入力単語ごとに生成する手段4、複数の有向グラフを比較して異なるノードを抽出する手段5、抽出した有向グラフの差異のノードを入力単語の用法の違いに関する情報として出力する手段6、を備えた装置Aを構成し、またコンピュータを同装置Aとして機能させるプログラムを用いる。
【選択図】図1
従来技術、競合技術の概要



複数の同義語や類義語を文中(発話文、記述文とも)で正確に使い分けることは、その言語を外国語として学習する者が難しいと感じるだけでなく、その言語を母国語として日常的に使っている者にとっても存外難しいものである。近年では、ワードプロセッシングソフトウェア(ワープロソフト)、外国語学習ソフトウェア翻訳ソフトウェア等が日常的に使用されるようになっており、これらソフトウェアには様々な入力・編集・出力支援機能が備えられていることがあるが、ユーザが類義語を用例の違いによって的確に使い分けられるように自動的に峻別したり指摘したりすることは実現されていない。





一つの試みとして、単語同士の共起の度合いによって、その単語がどのような単語と共に使われやすいか、という言語学的な研究がなされている(非特許文献1参照)。この研究では、入力文を構文解析し、一文に出現する構文的に関係のある単語同士について、その際に偶然性を排除する処理を施したうえで共起のスコアを計測し、そのスコアをソートすることによって高スコアの単語同士は構文的に関係が深いと推定される、というものである。この場合、複数の類義語をターゲットとしてそれぞれ共起スコアが高い単語を抽出すれば、どの単語にはどのような用例があるかを推測することは可能である。

【非特許文献1】

tefan Th. Griesand Anatol Stefanowitsch,“Extending collostructional analysys:A corpus-based perspective on alternations”,International Journal ofCorpus Linguistics,9:1,2004

産業上の利用分野



本発明は、複数の類義語の用法の相違を自動的に解析するためのプログラム及び装置に関するものである。

特許請求の範囲 【請求項1】
同一又は類似の意味を有する複数のターゲット単語について、例文データベースであるコーパス、及び語と語の上位下位概念の関係が記述されたデータベースであるシソーラスを検索可能に備え又は接続したコンピュータに、各ターゲット単語の用法の違いに関する情報を抽出し出力させるためのプログラムであって、当該コンピュータに、
複数のターゲット単語の入力を受け付けるターゲット単語入力ステップと、
前記コーパスにアクセスして、前記ターゲット単語入力ステップで受け付けた各ターゲット単語で検索して当該ターゲット単語をそれぞれ含む文データを抽出する文抽出ステップと、
前記文抽出ステップで抽出した文データをそれぞれ構文解析し、各文データに含まれるターゲット単語と文法的関係にある名詞を抽出する名詞抽出ステップと、
前記シソーラスにアクセスして、前記名詞抽出ステップで抽出した名詞で検索し、この名詞及びその上位概念を表すノードを抽出するとともに、それらノードと、これらノード同士の上位下位概念のつながりを表すリンクとから構成される有向グラフを、対応するターゲット単語ごとに生成する有向グラフ生成ステップと、
前記有向グラフ生成ステップで生成した各有向グラフを比較して、異なるターゲット単語の有向グラフ間において異なるノードを抽出する差異抽出ステップと、
前記差異抽出ステップで抽出した有向グラフの差異を、前記ターゲット単語の用法の違いに関する情報として出力する差異出力ステップと、
を実行させることを特徴とする単語用法差異情報取得プログラム。

【請求項2】
前記差異抽出ステップにおいて、前記コンピュータに、
各有向グラフにおいて、同一のノード又は同一のノード及びリンクを有する部分を共有化させて各有向グラフを重ね合わせることによって、異なるノードを抽出する処理を実行させる、請求項1に記載の単語用法差異情報取得プログラム。

【請求項3】
前記ターゲット単語入力ステップで受け付けたターゲット単語が3つ以上の場合、
前記差異抽出ステップにおいて、前記コンピュータに、
特定の一のターゲット単語以外の複数のターゲット単語について前記有向グラフ生成ステップで生成した各有向グラフを合成して共通の有向グラフを生成し、この共通の有向グラフと前記特定の一のターゲット単語の有向グラフとを比較して、これら有向グラフ間において異なるノードを抽出し、この工程を各ターゲット単語ごとに繰り返し行う処理を実行させる、請求項1又は2に記載の単語用法差異情報取得プログラム。

【請求項4】
前記コンピュータに、
前記名詞抽出ステップにおいて、各文データに含まれるターゲット単語と文法的関係にある名詞を、当該名詞が前記ターゲット単語と共に文データに出現する頻度に関するデータと併せて抽出する処理を実行させ、
前記有向グラフ生成ステップにおいて、生成する有向グラフの各ノードに前記頻度に関するデータによる重み付けする処理を実行させ、
前記差異抽出ステップにおいて、前記有向グラフ生成ステップで生成した重み付けが施された有向グラフを利用して、各有向グラフを比較して、異なるターゲット単語の有向グラフ間において異なるノードを抽出する処理を実行させる、請求項1乃至3の何れかに記載の単語用法差異情報取得プログラム。

【請求項5】
前記名詞抽出ステップにおいて、頻度に関するデータとして対応するターゲット単語に対して抽出された全名詞に占める当該名詞の頻度の割合を表す頻度比率を適用し、
前記コンピュータに、
前記有向グラフ生成ステップにおいて、生成する有向グラフにおいて前記名詞に対応するノードに前記頻度を付与するとともに当該ノードの上位概念のノードにその下位のノードの頻度の合計値を付与し、全ノードに個々の頻度を正規化した頻度比率を付与することで、有向グラフにこの頻度比率に基づく重み付けする処理を実行させ、
前記差異抽出ステップにおいて、前記有向グラフ生成ステップで生成した重み付けが施された比較対象となる2つの有向グラフにおいて同一のノードの頻度比率の比を各々算出し、この比の値が所定値以上であればそのノードを前記異なるノードである差異ノードに組み入れ、当該差異ノードを抽出する処理を実行させる、請求項4に記載の単語用法差異情報取得プログラム。

【請求項6】
前記差異抽出ステップにおいて、前記コンピュータに、
比較対象となる2つの有向グラフにおいて同一のノードの頻度比率の比を各々算出し、この比の値が所定値以上であればそのノードを暫定的に差異ノードとして有向グラフの差異部分に組み入れ、当該差異部分のうち各最上位ノードを各ターゲット単語について頻度比率が大きい方から順に所定数ずつ抽出し、その抽出したノードのうち共通するノードの割合を算出する工程を、前記頻度比率を逓減させながら繰り返すことで、各々の工程で得られた共通するノードの割合が一定値以上である場合、その共通するノードの割合を前回の工程で得られた共通するノードの割合と比較して、その比較した値が一定値以上である場合に、当該工程で暫定的に差異ノードと決定したノードを差異ノードとして決定し、当該差異ノードを抽出する処理を実行させる、請求項5に記載の単語用法差異情報取得プログラム。

【請求項7】
前記頻度に関するデータとして、前記頻度比率に代えて、頻度の値自体を適用している請求項5又は6に記載の単語用法差異情報取得プログラム。

【請求項8】
前記コンピュータに、
前記差異抽出ステップにおいて、抽出した異なるノードを、頻度に基づく重みの大きい方から順に所定数のノードをさらに抽出する処理を実行させ、
前記差異出力ステップにおいて、前記所定数のノードを前記用法の違いに関する情報として出力する処理を実行させる、請求項4乃至7の何れかに記載の単語用法差異情報取得プログラム。

【請求項9】
前記コンピュータに、
前記差異出力ステップにおいて、前記異なるノードのうち最上位のノードを前記用法の違いに関する情報として出力する処理を実行させる、請求項1乃至8の何れかに記載の単語用法差異情報取得プログラム。

【請求項10】
前記コンピュータに、
前記差異出力ステップにおいて、異なるノードのうち最上位のノードに加えて又はそれに代えて共通のノードの最下位のノードを前記用法の違いに関する情報として出力する処理を実行させる、請求項1乃至8の何れかに記載の単語用法差異情報取得プログラム。

【請求項11】
前記ターゲット単語入力ステップにおいて入力受付可能なターゲット単語の品詞を、形容詞又は動詞に制限している、請求項1乃至10の何れかに記載の単語用法差異情報取得プログラム。

【請求項12】
プログラムに従って作動するコンピュータにより構成され、入力された同一又は類似の意味を有する複数のターゲット単語について、各ターゲット単語の用法の違いに関する情報を抽出し出力させる単語用法差異情報取得装置であって、前記コンピュータは、例文データベースであるコーパス、及び語と語の上位下位概念の関係が記述されたデータベースであるシソーラスを検索可能に備え又は接続しており、
複数のターゲット単語の入力を受け付けるターゲット単語入力手段と、
前記コーパスにアクセスして、前記ターゲット単語入力手段で受け付けた各ターゲット単語で検索して当該ターゲット単語をそれぞれ含む文データを抽出する文抽出手段と、
前記文抽出手段で抽出した文データをそれぞれ構文解析し、各文データに含まれるターゲット単語と文法的関係にある名詞を抽出する名詞抽出手段と、
前記シソーラスにアクセスして、前記名詞抽出手段で抽出した名詞で検索し、この名詞及びその上位概念を表すノードを抽出するとともに、それらノードと、これらノード同士の上位下位概念のつながりを表すリンクとから構成される有向グラフを、対応するターゲット単語ごとに生成する有向グラフ生成手段と、
前記有向グラフ生成手段で生成した各有向グラフを比較して、異なるターゲット単語の有向グラフ間において異なるノードを抽出する差異抽出手段と、
前記差異抽出手段で抽出した有向グラフの差異を、前記ターゲット単語の用法の違いに関する情報として出力する差異出力手段と、
を具備してなることを特徴とする単語用法差異情報取得装置。

【請求項13】
前記差異抽出手段において、
各有向グラフにおいて、同一のノード又は同一のノード及びリンクを有する部分を共有化させて各有向グラフを重ね合わせることによって、異なるノードを抽出する処理を実行する、請求項12に記載の単語用法差異情報取得装置。

【請求項14】
前記ターゲット単語入力手段で受け付けたターゲット単語が3つ以上の場合、
前記差異抽出手段において、特定の一のターゲット単語以外の複数のターゲット単語について前記有向グラフ生成ステップで生成した各有向グラフを合成して共通の有向グラフを生成し、この共通の有向グラフと前記特定の一のターゲット単語の有向グラフとを比較して、これら有向グラフ間において異なるノードを抽出し、この工程を各ターゲット単語ごとに繰り返し行う処理を実行する、請求項12又は13に記載の単語用法差異情報取得装置。

【請求項15】
前記名詞抽出手段において、各文データに含まれるターゲット単語と文法的関係にある名詞を、当該名詞が前記ターゲット単語と共に文データに出現する頻度に関するデータと併せて抽出する処理を実行し、
前記有向グラフ生成手段において、生成する有向グラフの各ノードに前記頻度に関するデータによる重み付けする処理を実行し、
前記差異抽出手段において、前記有向グラフ生成手段で生成した重み付けが施された有向グラフを利用して、各有向グラフを比較して、異なるターゲット単語の有向グラフ間において異なるノードを抽出する処理を実行する、請求項12乃至14の何れかに記載の単語用法差異情報取得装置。

【請求項16】
前記名詞抽出手段において、頻度に関するデータとして対応するターゲット単語に対して抽出された全名詞に占める当該名詞の頻度の割合を表す頻度比率を適用し、
前記有向グラフ生成手段において、生成する有向グラフにおいて前記名詞に対応するノードに前記頻度を付与するとともに当該ノードの上位概念のノードにその下位のノードの頻度の合計値を付与し、全ノードに個々の頻度を正規化した頻度比率を付与することで、有向グラフにこの頻度比率に基づく重み付けする処理を実行し、
前記差異抽出手段において、前記有向グラフ生成手段で生成した重み付けが施された比較対象となる2つの有向グラフにおいて同一のノードの頻度比率の比を各々算出し、この比の値が所定値以上であればそのノードを前記異なるノードである差異ノードに組み入れ、当該差異ノードを抽出する処理を実行する、請求項15に記載の単語用法差異情報取得装置。

【請求項17】
前記差異抽出手段において、比較対象となる2つの有向グラフにおいて同一のノードの頻度比率の比を各々算出し、この比の値が所定値以上であればそのノードを暫定的に差異ノードとして有向グラフの差異部分に組み入れ、当該差異部分のうち各最上位ノードを各ターゲット単語について頻度比率が大きい方から順に所定数ずつ抽出し、その抽出したノードのうち共通するノードの割合を算出する工程を、前記頻度比率を逓減させながら繰り返すことで、各々の工程で得られた共通するノードの割合が一定値以上である場合、その共通するノードの割合を前回の工程で得られた共通するノードの割合と比較して、その比較した値が一定値以上である場合に、当該工程で暫定的に差異ノードと決定したノードを差異ノードとして決定し、当該差異ノードを抽出する処理を実行する、請求項16に記載の単語用法差異情報取得装置。

【請求項18】
前記頻度に関するデータとして、前記頻度比率に代えて、頻度の値自体を適用している請求項16又は17に記載の単語用法差異情報取得装置。

【請求項19】
前記差異抽出手段において、抽出した異なるノードを、頻度に基づく重みの大きい方から順に所定数のノードをさらに抽出する処理を実行し、
前記差異出力手段において、前記所定数のノードを前記用法の違いに関する情報として出力する処理を実行する、請求項15乃至18の何れかに記載の単語用法差異情報取得装置。

【請求項20】
前記差異出力手段において、前記異なるノードのうち最上位のノードを前記用法の違いに関する情報として出力する処理を実行する、請求項12乃至19の何れかに記載の単語用法差異情報取得装置。

【請求項21】
前記差異出力手段において、異なるノードのうち最上位のノードに加えて又はそれに代えて共通のノードの最下位のノードを前記用法の違いに関する情報として出力する処理を実行する、請求項12乃至19の何れかに記載の単語用法差異情報取得装置。

【請求項22】
前記ターゲット単語入力手段において入力受付可能なターゲット単語の品詞を、形容詞又は動詞に制限している、請求項12乃至21の何れかに記載の単語用法差異情報取得装置。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2005203157thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close