TOP > 国内特許検索 > 視覚的かつ聴覚的類似品名提示装置 > 明細書

明細書 :視覚的かつ聴覚的類似品名提示装置

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第4568838号 (P4568838)
公開番号 特開2006-085556 (P2006-085556A)
登録日 平成22年8月20日(2010.8.20)
発行日 平成22年10月27日(2010.10.27)
公開日 平成18年3月30日(2006.3.30)
発明の名称または考案の名称 視覚的かつ聴覚的類似品名提示装置
国際特許分類 G06F  17/30        (2006.01)
FI G06F 17/30 350C
G06F 17/30 340Z
請求項の数または発明の数 2
全頁数 9
出願番号 特願2004-271381 (P2004-271381)
出願日 平成16年9月17日(2004.9.17)
審査請求日 平成19年3月5日(2007.3.5)
特許権者または実用新案権者 【識別番号】504171134
【氏名又は名称】国立大学法人 筑波大学
発明者または考案者 【氏名】田中 和世
個別代理人の代理人 【識別番号】100116517、【弁理士】、【氏名又は名称】小林 邦雄
審査官 【審査官】鈴木 和樹
参考文献・文献 特開平10-069487(JP,A)
特開2003-296366(JP,A)
特開2001-337980(JP,A)
特開平06-251060(JP,A)
特開2004-171094(JP,A)
田中 和世 他,音声的距離に基く類似薬品名表示・検索システム,日本音響学会2004年秋季研究発表会講演論文集-I-,日本,社団法人日本音響学会,2004年 9月21日,第213-214頁
肖 丹青,単語間の音声的距離を応用した類似薬品名表示システム,図書館情報大学卒業研究抄録集,日本,図書館情報大学,2004年 2月 9日,第52頁
調査した分野 G06F 17/30
特許請求の範囲 【請求項1】
特定の文字列から成る品名単語と該特定の文字列と異なる文字列を有する品名単語の間において、文字列の音声発音に基づく聴覚的距離が一定値以下である場合、該異なる文字列を有する品名単語を該特定の文字列から成る品名単語の類似品名単語とし、すべての品名単語のそれぞれについて予め求められた類似品名単語が組み込まれている品名単語事典、
ユーザから入力された文字列が該事典の辞書項目の中に存在するか否かを判定するブロック、
該ユーザから入力された文字列が該事典の辞書項目にある品名単語と一致するものがなかった場合に起動され、該入力された文字列と該事典の辞書項目にある品名単語の間における音声発音に基づく聴覚的距離が一定値以下である新たな類似品名単語を探索するブロック及び
該入力された品名単語に対する該新たな類似品名単語を提示するブロックを有する類似品名提示装置であって、
上記聴覚的距離の計算においては、品名単語の読みを表す音声記号列において、母音のみの系列の距離を相対的に大きく評価する距離尺度が導入されている類似品名提示装置
【請求項2】
特定の文字列から成る品名単語と該特定の文字列と異なる文字列を有する品名単語の間において、文字列の並びの相違に基づく視覚的距離及び該文字列の音声発音に基づく聴覚的距離を計算するブロック、
該視覚的距離又は該聴覚的距離が一定値以下である場合、該異なる文字列を有する品名単語を該特定の文字列から成る品名単語の類似品名単語とし、すべての品名単語のそれぞれについて予め求められた類似品名単語が組み込まれている品名単語事典を作成するブロック、
ユーザから入力された文字列が該事典の辞書項目の中に存在するか否かを判定するブロック、
該ユーザから入力された文字列が該事典の辞書項目にある品名単語と一致するものがなかった場合に起動され、該入力された文字列と該事典の辞書項目にある品名単語の間における上記視覚的距離及び上記聴覚的距離を計算し、該視覚的距離又は該聴覚的距離が一定値以下である新たな類似品名単語を探索するブロック及び
該入力された品名単語に対する該新たな類似品名単語を提示するブロックを有する類似品名提示装置であって、
上記聴覚的距離の計算においては、品名単語の読みを表す音声記号列において、母音のみの系列の距離を相対的に大きく評価する距離尺度が導入されており
上記視覚的距離の計算においては、品名単語を記述する文字について、個々の文字の字形に基づいてすべての2文字間の視覚的距離を定義し、さらに連続する3文字列における文字の隣接間の交替が小さく評価されるような距離尺度が導入されている類似品名提示装置
発明の詳細な説明 【技術分野】
【0001】
本願発明は、商品名などのもつ文字系列の視覚的類似性(文字を読み取る際の読み間違いを引き起こし易い字形的類似性)や聴覚的類似性(音声として聴いた際の聞き間違いを引き起こし易い類似性)の尺度に基いて、個々の商品名などがユーザによって文字列として入力された場合、その商品名などに対する読み間違いや聴き間違い易い類似品名を提示する装置に関する。ユーザに入力ミスなどの警告を出す機能をもつユーザ支援システムの1種である。例えば薬剤師がユーザであるとき、類似薬剤名による調剤ミスに対する警告システムとして活用することができる。
【背景技術】
【0002】
ユーザによって入力された文字列が誤りであることを防止するものとして、ソースプログラムのコーディング時に発生する入力ミスを少なくするものが考えられている。その方法は、記憶装置にはソースプログラムの作成に使用する言語の文法,上記言語で用意されている語及びソースプログラムを作成するための入力された文字列等が格納され、キーワード抽出手段は、入力された文字列から、予め定められた文法上の条件(例えば、関数名)を満たす語をキーワードとして抽出し、検索手段は、記憶装置に対してあいまい検索を行い、キーワードと類似する語及び一致する語を探し、検索手段においてキーワードに類似する語のみが探し出された場合、確定手段は、探し出された語の内の1つをキーワードに対応する正しい語であるとし、変更手段は、作成中のソースプログラムのキーワードを、確定手段が正しいと判断した語に書き換えるものである(下記特許文献1参照)。
【0003】
同様に、ユーザに入力ミスを確実に確認させ、かつ、入力された文字列を容易に修正することができる文字列入力方法として、入力部から入力された文字列が、この文字列と類似する文字列の類似語の中に作成中の文書に既に使用されている単語と共起関係にあるものがある場合、類似語を候補単語として表示することでユーザに入力ミスを確認させるようにしたものは、知られている(下記特許文献2参照)。
【0004】
上記従来例に見られるように、入力された文字列のミスをユーザに確認させる方法は、以前からよく知られていた。しかしながら、文字字形間距離や音声の発音記号間距離を利用した視覚的かつ聴覚的な類似性を考慮して、ユーザに提示しているものは見当たらない。あるいは、もし、本願発明と同様な目的を持った発明も存在するかもしれないが、多くは経験的な知識に基づく簡易なシステムであり、本願発明のように計算機処理に基づく視覚的・聴覚的類似性を評価計算し、品名単語事典に類似品名単語セットを組み込むという明示的な構成をもった視覚的・聴覚的類似品名提示装置は存在しない。
【0005】
文字認識や音声認識に関連して、文字で与えられた単語間距離の計算は従来も提案があったが、これらは主に計算機処理によるパターン認識技術としてである。本願発明においても、これらの技術を利用して文字列の読み間違いや聴き間違いのような知覚的距離とすることも可能であるが、本願発明においては、後述するように、視覚的、聴覚的類似性の導入のために、新たに品名単語間の距離計算方法を導入している。また、品名単語の部分列同士の距離が計算でき、品名単語の一部しか入力されないなどの省略形にも対応できる。
【0006】
なお、本願発明はコンピュータで文字認識や音声認識を行うものではなく、文字読み取りや音声の聞き取りはユーザが行い、その結果が文字列としてコンピュータに入力された時、ユーザが入力した商品名等に類似した品名があることを警告するユーザ支援システムである。

【特許文献1】特開平7-160494号公報
【特許文献2】特開平11-175518号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
日本薬剤師協会のホームページには類似薬剤名による投薬ミスに対する警告が公示されており、またその類の事故が新聞報道等で見受けられる。この原因の一部は、薬剤名の読み間違いや聴き間違いにあると推測される。商品名の注文時等においても同様なミスが起こることが考えられる。処方をする場合等のケースにおいては、コンピュータに品名を入力することが通常であり、この状況において、もしコンピュータ側から警告のメッセージが提示されれば、ミスを減少させることが可能である。本願発明は、大量のデータを用いた計算機処理によって、これらの機能を有する性能の高いシステムを構築することを目的としている。
【課題を解決するための手段】
【0008】
上記目的は、品名単語の表記文字列の文字字形に基づく視覚的距離又は該表記文字列の音声発音についての聴覚的距離(すなわち、視覚的距離、聴覚的距離又は視覚的距離及び聴覚的距離双方)の計算により予め求められた類似品名単語セットが組み込まれている品名単語事典、ユーザから入力された文字列が該事典の辞書項目の中に存在するか否かを判定するブロック、ユーザから入力された文字列が事典の辞書項目にある品名単語と一致するものがなかった場合に起動され、入力された品名単語の文字列に対する類似品名単語を探索するブロック及び入力された品名単語に対する類似品名単語を提示するブロックを有する類似品名提示装置によって達成される。
【0009】
この装置を構築する準備として、予め用意された商品名リスト(文字テキストで与えられる)を基に、このリストに含まれるすべての商品名(以下、「品名単語」と記す。)について、それぞれの品名単語ペア同士の「知覚的距離」を計算しておき、これに基づいて、個々の品名単語について自分自身との距離がある一定値以下である品名単語セットを求めておく。ここで使用する「知覚的距離」は読み間違いや聴き間違いに対応するような距離を採用する(下記の実施の態様<3>及び<4>参照)。ある品名単語Aに対する類似品名単語セットをSn(A), n=1,2,..N と表す。新しい品名単語が追加された場合は同様な処理によって類似品名単語セットを更新する。
【発明の効果】
【0010】
商品名等のもつ文字系列の視覚的類似性(文字を読み取る際の読み間違いを引き起こし易い字形的類似性)や聴覚的類似性(音声として聴いた際の聞き間違いを引き起こし易い類似性)の尺度に基いて、個々の商品名等がユーザによって文字列として入力された場合、その商品名等に対する読み間違いや聴き間違い易い類似品名を提示することにより、ユーザに入力ミスなどの警告を出す機能を有しており、例えば、薬剤師がユーザであるとき、類似薬剤名による調剤ミスに対する警告システムとして活用することができる。
【発明を実施するための最良の形態】
【0011】
以下に、本願発明の実施の態様を説明する。
【0012】
<1> システムの構成と動作
本願発明は、図1に示すような構成をしており、以下のブロックからなる。
(ア)予め計算されて求められた類似品名単語セットが組み込まれている品名単語事典(ないし、その種の電子化された辞典類)。
(イ)ユーザから入力された文字列が、上記事典の辞書項目(品名単語に相当)の中に存在するか否かを判定するブロック。
(ウ)入力された品名単語の文字列に対する類似品名単語を探索するブロック(このブロックは、事典の辞書項目に入力された品名単語と一致するものがなかった場合に起動される)。
(エ)入力された品名単語に対する類似品名単語を提示するブロック。
【0013】
本装置の動作はつぎのようになる。
(1)まず、ユーザが品名単語を入力すると、その文字列と品名事典の辞書項目とを照合し、入力品名単語が事典に含まれているか否かを判定する。含まれている場合は(2)へ、否の場合は(3)へ進む。
(2)入力品名単語について、その事典の内容の一部として類似品名セットをユーザが使用しているパソコンなどの画面に表示する。この場合、音声で知らせるなどの機能も付加できる。
(3)入力品名単語と品名事典の辞書項目との距離を計算し、類似品名単語候補をユーザに提示する。また、ユーザがその提示された品名単語から適当な1個を選択すると、(2)と同様に、その選択された品名単語に対する類似品名単語セットが事典情報とともにパソコンの画面などに提示される。
【0014】
<2> 品名単語事典への組込み
この装置を構築する準備として、予め用意された商品名リスト(文字テキストで与えられる)を基に、このリストに含まれるすべての商品名(以下、「品名単語」と記す)について、それぞれの品名単語ペア同士の「知覚的距離」(類似度に反比例)を計算しておき、これに基づいて、個々の品名単語について自分自身との距離がある一定値以下である品名単語セットを求めておく。ここで使用する「知覚的距離」は読み間違いや聴き間違いに対応するような距離を採用する(以下の実施態様<3>及び<4>参照)。ある品名単語Aに対する類似品名単語セットをSn(A), n=1,2,..N と表す。新しい品名単語が追加された場合は同様な処理によって類似品名単語セットを更新する。
【0015】
この類似品名単語セットを品名単語事典に組み込んでおく。すなわち、各品名単語(辞書項目)についてその内容説明文とともに「類似品名単語のリスト」を載せておく。ある品名単語Aが選択されるとその内容説明文とともに「類似品名単語のリストSn(A), n=1,2,..N」が(パソコンなどの画面表示や音声で)提示される。
【0016】
<3> 品名単語間の視覚的距離(類似性)の計算方法
この場合の視覚的距離とは、読み間違いを引き起こし易いという意味である。そこで、まず事典の品名単語中に含まれるすべての文字について、文字字形による文字間の距離(各文字のペアがどの程度似ているか)を計算しておく。この計算自体は、実際の文字データサンプルを使用して、文字認識技術などで用いられる特徴量を利用して計算する。
【0017】
この場合、サンプルデータが活字体の場合と筆記体の場合がある。活字体の場合は、数種類の標準的字体(例えば明朝体、ゴシック体など)で文字サイズも同一のデータから距離値を計算しても差し支えない。本来は、ユーザが使用するフォントと同じことが望ましいが、汎用性の観点から、これは避ける。筆記体の場合は、多数の筆記文字サンプルが必要になり、距離値も分散を考慮した統計的距離(例えば、マハラノビス距離等)を用いることが望ましい。実現が難しい場合は、活字体のフォントの中で筆記体に近い字体を多数使用することにより同様な統計的距離を計算して近似してもよい。
【0018】
このようにして求めた、文字aと文字bとの字形上の距離をdf(a,b)とする。このとき2つの品名単語AとBを表す文字列をそれぞれ
A: a1 a2 a3 ……. an
B: b1 b2 b3 ……. bm
と表す。例えば、df(a1,b1) は、文字a1とb1の字形の違いを表す距離である。

【0019】
品名単語A,Bの知覚距離には、隣接する文字の前後の入れ替りが視覚的には誤り易いことを考慮した距離尺度を導入する。その計算方法は以下の通りである。
【0020】
[品名単語AとBの視覚的距離の計算方法]
(1)上記の文字系列のそれぞれについて、下記のような3個並びの組の系列を作成する。まずAについて、
(a1, a2, a3), (a2, a3, a4), (a3, a4, a5), …, (an-2, an-1, an)
同様にBについて
(b1, b2, b3), (b2, b3, b4), (b3, b4, b5), …, (bm-2, bm-1, bm)
上記の系列から一般項として、(ai-1, ai, ai+1) , (bj-1, bj, bj+1)の2つを選ぶとき、この2つの距離dffを次のように定義する。
距離dff{(ai-1, ai, ai+1) , (bj-1, bj, bj+1)}= min { dff1, dff2, dff3}
この式で、minは{ }内の3変数の最小値を取ることであり、また
dff1= { df (ai-1, bj-1) + df (ai, bj) + df (ai+1, bj+1) }/3
dff2= { df (ai-1, bj) + df (ai, bj-1) + df (ai+1, bj+1) }/3
dff3= { df (ai-1, bj-1) + df (ai, bj+1) + df (ai+1, bj) }/3
である。この定義式は、3個の文字系列のうち、1組が交替していてもこの距離は小さいことを意味する。以下では簡単に、この距離をdff (i, j)と表す。

【0021】
2つの品名単語の文字列A, Bが与えられたとき、2つの系列に対してdff(i,j), i=1,2,…n, j=1,2,…,mを計算できる。このdff(i, j)を局所距離として、AとBの距離の計算を動的計画法(Dynamic Programming、以下DP)を利用して行う。この目的で利用されるDPの手法は、2つの系列AとBがもっともよく対応するように最適化を図る手法(以下、「非線形伸縮最適整合法」と記す。)で、その計算アルゴリズムはすでによく知られている。次の<4>も同じ手法を用いるので、その方法については<5>で述べる。こうして得られたAとBの視覚的距離をDF(A,B)とおく。DF(A,B)の大きさに基づいて視覚的類似品名単語を選定する。このとき、相互の部分文字系列が類似している場合も選定することができる。ただし、これを提示するか否かは選択の余地がある。

【0022】
<4> 品名単語間の聴覚的距離(類似性)の計算方法
この場合の聴覚的距離とは、聞き間違いを引き起こしやすいという意味である。この場合には、品名単語同士の聴覚的距離を計算する必要があるが、そのためには、品名単語が文字列で入力された時、まず、その読みを表記する記号(以下、「音声記号」と記す。例えば、ASCIIコードを使用)で与える必要がある。この読みを与える方法としては、コンピュータによる音声合成技術で用いられている方法が利用できるが、最終的には人間がチェックして作成する。
【0023】
発音を記述する音声記号としてどのような記号体系を採用するかは、1つの問題である。ここでは、2種類の記号を使用する。1つは国際音声記号として知られる記号をASCIIコードで表した記号系(以下「XSAMPA」と記す。)、他の1つはXSAMPAから規則で変換できるサブ音声セグメント(Sub-Phonetic-Segment、以下「SPS」と記す。)である。これまでの実験からはSPSを採用した方が性能的には高いと見込まれるが、次に述べる音響標準パターンの作成にはその分、手間が掛かる。
【0024】
このようにして求めた、音声記号xとyの聴覚的距離をdh(x,y)とする。このとき2つの品名単語XとYの発音を表す音声記号列をそれぞれ
X: x1 x2 x3 ……. xn
Y: y1 y2 y3 ……. ym
と表す。例えば、dh(x1,y1) は、音声記号x1 とy1の聴覚的距離であり、x1とy1の音響標準パターンを用いて計算される。

【0025】
品名単語X,Yの聴覚的距離には、日本語の発音では特に母音の系列の影響が大きい。このことを考慮した距離尺度を導入する。その計算方法は以下の通りである。
【0026】
[品名単語X とYの聴覚的距離計算方法]
ここでの計算手法も上記<3>の視覚的距離の場合と同様に、DPを用いた非線形伸縮最適整合法を利用する。このとき、dh(xi, yj)が局所距離となる。
XとYの聴覚的距離は、次の2つの距離の線形和によって表す。
(1)XとYの音声記号系列同士の非線形伸縮最適整合に基づく距離、
DH1(X,Y)
(2)XとYの音声記号系列のうち、それぞれから母音に関する記号列のみを取り出し、この母音記号系列について非線形伸縮整合を行って得られる距離、
DH2(X,Y)
この(1)と(2)の結果を使用して、XとYの聴覚的距離を
DH= {DH1+αDH2}/(1+α)
と定義する。ここで、αは正実数の係数で、実験で適当に定める。最終的に、このDHの値を尺度として聴覚的類似品名単語を抽出する。
【0027】
<5> 動的計画法(DP)を利用した非線形伸縮最適整合法について
この方法は、2つの特徴ベクトル系列をその距離が最小になるように一方を非線形に伸縮して整合させる手法で、すでに音声認識技術などの分野でよく知られている。具体的には、2つの品名単語XとYの発音を表す音声記号列をそれぞれ
X: x1 x2 x3 ……. xn
Y: y1 y2 y3 ……. ym
とするとき、xiとyjの対応付けを最適化することであり、そのためには局所距離d(xi, xj), i=1,2,…n, j=1,2,…,mが必要となる。DPにより最適化された対応付けに基づいて、XとYの距離D(X,Y)が計算できる[参考文献:斉藤英昭他編、「視覚認知と聴覚認知」オーム社1999、pp.198-199]。

【0028】
また、この手法の拡張としてシフト連続DP(Shift Continuous DP)と呼ぶ手法があり、この手法を用いると、XとYのそれぞれの任意の部分系列同士の最適整合距離が計算できる[参考文献:伊藤慶明、「類似空間の検出法Shift CDPの性能評価と講演音声への適用」、電子情報通信学会技術研究報告 SP 2001-36, pp. 27-34, 2001]。基本的には、この手法は境界条件の設定によって上記のDPを含む形になるので、より一般的な条件設定が可能となる。
【0029】
本装置では、整合距離の計算にこのシフト連続DPを使用して、品名単語の文字系列全体同士を直接最適整合した距離ではなく、部分系列同士の距離が小さい場合に類似品名単語として抽出するようなアルゴリズムを採用している。このとき部分系列の最短の長さを幾つにするかは実験的に決定する。
【実施例1】
【0030】
<聴覚的距離に基づく類似薬剤名表示システムの実施例>
ここでは、聴覚的距離に基づいて類似薬品名を提示するシステムについての実施例を開示することにより、本願発明の有効性を示す。
【0031】
音声では部分的に省略して発声されるケースなども考えられるので、最適整合手法であるDPに関しては、特に相互の部分系列同士の最適整合が計算できるシフト連続DPの手法を使用する。
【0032】
実験で使用した薬剤名は「薬剤識別コード事典」(高杉益充監修H15年改訂版、医薬ジャーナル社)から選択したカタカナ表記の薬剤名約4000語である。薬剤名はカタカナ表記からプログラムにより音声記号表記であるXSAMPA, SPS記号表記へと変換されて使用された。
【0033】
SPS記号x, yに関する局所距離dh(x,y)は、音声認識システム開発のためにすでに作成されているデータを利用した。日本語母音としてはア、イ、ウ、エ、オ、ンの5母音+撥音とし、その定常部に相当するSPSのラベル(6種)を選んだ。距離DHの計算においては係数α=1とした。
【0034】
この結果、上記の薬剤名間のすべての組合せの距離を計算し、距離が小さい薬剤名のサンプル例を示すと、例えば下表のようになる。
【0035】
【表1】
JP0004568838B2_000002t.gif

【0036】
また、長い薬剤名の任意の一部区間の類似単語を抽出するという例では、「クロルフェニラミンニスキャップ」という入力に対して、カルフェニール、ロルフェナミンなどの類似薬剤名を抽出できる。
【0037】
なお、これらの結果が人間(とくに実際のユーザ)の聴覚知覚にどの程度よく適合するかの評価を実験的に測定するのはかなり困難である。その理由は、実際のユーザ(この場合には薬剤師など)は、予め専門的知識による先入観をもっており、与えられた条件下である程度予測して薬剤名などを入力するため、単純な意味での聞き間違いとは条件が異なるためである。
【図面の簡単な説明】
【0038】
【図1】視覚的・聴覚的類似品名単語提示装置のブロック図
図面
【図1】
0