Top > Search of Japanese Patents > KANJI COMPOUND WORD DIVIDING METHOD AND KANJI COMPOUND WORD DIVIDING DEVICE

KANJI COMPOUND WORD DIVIDING METHOD AND KANJI COMPOUND WORD DIVIDING DEVICE

Patent code P110003754
Posted date Jun 29, 2011
Application number P2010-222057
Publication number P2011-096245A
Patent number P5648956
Date of filing Sep 30, 2010
Date of publication of application May 12, 2011
Date of registration Nov 21, 2014
Priority data
  • P2009-228800 (Sep 30, 2009) JP
Inventor
  • (In Japanese)後藤 智範
  • (In Japanese)梅木 定博
Applicant
  • (In Japanese)学校法人神奈川大学
Title KANJI COMPOUND WORD DIVIDING METHOD AND KANJI COMPOUND WORD DIVIDING DEVICE
Abstract PROBLEM TO BE SOLVED: To provide a kanji compound word dividing method and a kanji compound word dividing device, in which a kanji compound word comprising continuous kanji strings included in a Japanese document can be correctly divided with super high accuracy, and the reliability of the respective divided kanji strings is improved to the extent that the kanji strings can be put into practical use.
SOLUTION: The kanji compound word dividing method is configured to divide the kanji compound word of a division object, by referring to a Japanese dictionary, in which a basic word, to be a base when dividing a kanji compound word comprising continuous kanji strings, and a part of speech, corresponding to the basic word, are associated with each other and recorded, and a word division pattern dictionary, in which a dividing pattern, indicating the array of the number of characters of respective kanji strings configured after dividing the kanji compound word, and the pattern present in the dividing pattern of a part-of-speech array pattern, indicating the array of a part of speech corresponding to the respective kanji strings configured after dividing the kanji compound word, are associated with each other, and which is classified by the number of characters of the kanji compound word and recorded.
Outline of related art and contending technology (In Japanese)


日本語文書において、主要な概念・テーマは、漢字熟語又は漢字熟語を含む名詞句に表現されることが多い。



漢字複合語は、専門性、特殊性が高く、情報の価値が高いため、漢字複合語を適切に分割する必要性が高まっている。ところが、数文字(例えば、5文字)以上の連続する漢字列で構成された漢字複合語は、非常に複雑な構造を有するため、漢字複合語を高精度で分割することは容易でない。



漢字複合語を分割する手法として、例えば、特許文献1には、単語分割処理として入力した単語の漢字列部分の文字数を設定し、頻度情報配列、単語分割指標配列、分割識別子配列をクリアした後、漢字2文字組の文字列の単語頭及び単語末に出現する頻度情報を備えた辞書に基づいて設定された文字境界の単語末頻度と単語頭頻度から、文字境界に基本単語分割指標(相乗平均・相加平均)及び接辞分割指標(頻度差・頻度和)を設定して、設定した指標により、2文字の漢字語基と1文字の接辞(接頭辞又は接尾辞)に分割する複合語分割装置及び複合語分割方法が開示されている。



特許文献1では、分割は、頻度情報配列、単語分割指標配列、分割識別子配列の3つのデータに基づいてなされる。最初に、対象漢字熟語の長さを設定する。先頭からの個々の文字の位置を示す文字位置と先頭から文字間の境界を示す文字境界位置の2つの指標を用いる。先頭の文字境界位置は0に設定される。文字境界位置に対して、前の2文字漢字列の単語末頻度、後ろの2文字漢字列の単語頭頻度を、頻度格納配列f[I,n](I=1,2,n=0,・・・,N)に設定する。文字位置p(=1)から1字ずつずらしながら、対象漢字熟語中の2文字漢字列(p=1,・・・,N-1)を辞書と照合し、対応する2種類の頻度を設定する。これら2つの頻度に基づき、基本単語分割指標(w[1,i]と接辞分割指標(w[2,i])を設定し、単語分割指標配列に格納される。



特許文献1では、これらの指標について、複数の計算式を提案している。
(a) 和と差
w[1,i]=f[1,i]+f[2,i]
w[2,i]=f[1,i]-f[2,i]
(b)相乗平均と頻度差を頻度和で正規化された値
w[1,i]=(f[2,i]・f[1,i])/2
w[2,i]=(f[1,i]+f[2,i]))/(f[1,i]-f[2,i])



特許文献1では、これらの指標以外に、基本単語分割指標として擬似的な確率指標や確率の積、また接辞分割指標としてこれらの正規化差を提案している。



特許文献1では、分割境界の決定は、上述の2つの指標、基本単語分割指標(Cut-W)と接辞分割指標(Cut-P)の値の大きさ基づいてなされる。最初に、基本単語分割指標の最大の大きさもつi番目の境界で、対象漢字列を2つに部分漢字列に分割する。それぞれの部分漢字列をさらに2分割し、部分漢字列の長さが4文字以下になるまで、再帰的に繰り返す。次に、長さが3文字以上の部分漢字列を対象に、接辞分割指標に基づいて、接頭辞と基本単語に分割する。接辞分割指標の値が正の場合には、接頭辞と基本単語に分割され、接辞分割指標の値が負の場合には基本単語と接尾辞に分割される。



特許文献1では、実例として「対共産圏輸出統制委員会」を挙げて、分割の過程が説明されている。新聞記事1年分(120MB)を対象に、2文字漢字列の2種類の出現頻度情報を算出している。当該熟語を構成する2文字漢字列と、単語頭頻度、単語末頻度は、「委員」(1930,2972)、「員会」(3,7594)、「共産」(1735,217)、「産圏」(0,15)、「制委」(0,1)、「対共」(24,0)、「統制」(99,145)、「輸出」(1529,900)とし、これらの頻度から、基本単語分割指標(w[1,i])として上述の(b)を使用すると、「対/共産圏/輸出/統制/委/員会」(1735,151.4,28.5,529.0,1.7)となる。ここで、“/”は分割境界を示し、カッコ内の数値はその単語分割指標を示している。また、接辞の分割境界とその値は、「対/共産/圏/輸出/統制/委/員会」(+1,-1,-0.98,-0.80,+0.86,+0.5,-1)となる。最初に最大値529.0をもつ8文字目の境界で分割し、「対共産圏輸出統制」、「委員会」の2つの部分漢字列に分割される。前者は4文字以上で、さらに、「対共産圏輸出」と「統制」に分割されるが、後者は3文字なのでこれ以上分割されない。対共産圏輸出」は、「対共産圏」と「輸出」に分割される。次に、「対共産圏」と「委員会」に対して、接辞分割指標に基づいて、分割がなされ、正の値をとる「対」が接頭辞に、負の値をとる「圏」、「会」が接尾辞として識別される。



漢字複合語の分割に関する特許文献以外の先行研究としては、例えば、係り受けに着目した手法(非特許文献1)、語基間の接続確率に基づく手法(非特許文献2)、名詞間の意味の共起確率を利用した手法(非特許文献3)、文脈情報を利用した手法(非特許文献4)が挙げられる。



係り受け解析を用いた手法(非特許文献1)
非特許文献では、漢字複合語を構成する語基間の係り受けに着目した自動分割手法が提案されている。「前方の単語から後方の単語に係る」、「単語の係り先は一つに限る」、「複数の単語を一つの単語が受けてもいい」、「係り受けの非交差性を守る」を原則として、数詞、接辞、一般語の3種類に品詞分類し、品詞毎に係り受け規則を定めている。



非特許文献1では、分割は、形態素解析を行い、全分割パターンを作成し、基本単語数をそれぞれ算出するステップ1と、各分割パターンの係り受けの個数を求めるステップ2と、係り受け解析を行いステップ2で求めた語基数の差を求めるステップ3と、差が最小となる分割パターンを自動分割の解とするステップ4の4つのステップにより構成され、ステップ4で解が一意に判断できない場合には、単語の使用頻度による選択を行っている。



非特許文献1において、例えば、「畜産物価格安定法」は次の過程を経て分割される。分割パターン1を「畜産 物価 格安 定法」、分割パターン2を「畜産 物 価格 安 定法」、分割パターン3を「畜産 物価 格 安 定法」、分割パターン4を「畜産 物 価格 安定 法」、分割パターン5を「畜産 物価 格 安定 法」とする。分割パターン1の基本単語数は4、分割パターン2の基本単語数は5、分割パターン3の基本単語数は5、分割パターン4の基本単語数は5、分割パターン5の基本単語数は5となる(ステップ1)。分割パターン1の係り受けの個数は1、分割パターン2の係り受けの個数は2、分割パターン3の係り受けの個数は1、分割パターン4の係り受けの個数は3、分割パターン5の係り受けの個数は2となる(ステップ2)。分割パターン1の語基数の差は4-1=3、分割パターン2の語基数の差は5-2=3、分割パターン3の語基数の差は5-0=5、分割パターン4の語基数の差は5-3=2、分割パターン5の語基数の差は5-2=3となり、ステップ3の最小値は3で、結果として分割解「畜産 物 価格 安定 法」を得る。



語基間の接続確率に基づく手法(非特許文献2)
非特許文献2では、漢字複合語をマルコフモデルの出力と考え、状態遷移モデルで表現し、基本単語からなる語の各遷移確率を用いた自動分割手法の提案を行っている。非特許文献2は、漢字熟語を(接頭辞)基本単語(接尾辞)の形で表現し、初期状態から終了状態までの遷移確率を求め、それが最大となるパターンを解とする。遷移確率は、ベイズの事後確率推定法を利用し、初期確率と繰り返し時の確率を求めるという方法で、レーニングデータを対象に「状態遷移確率推定アルゴリズム」を用いて、トレーニングデータ中の基本単語間の遷移確率を算出している。



非特許文献2において、熟語分割は、:漢字複合語の短単位モデルの遷移図を生成し(ステップ1)、各状態遷移確率を求め(ステップ2)、状態遷移確率が最大のものを解とする(ステップ3)という手順で行われる。



非特許文献2において、例えば、「太陽熱発電」は以下のように分割される。分割解1「太 陽熱 発電」の遷移起確率は0.0175、分割解2「太陽 熱 発電」の遷移起確率は0.056、分割解3「太陽 熱 発電」の遷移確率は0.036、分割解4「太陽 熱発 電」の遷移確率は0.012となる。ここで、分割解2と分割解3は分割位置が同じであるが、分割解2では「熱」が接尾辞として扱われ、分割解3では「熱」が接頭辞として扱われるため、同じ分割位置となる2通りの分割パターンが存在する。非特許文献2では、長さ3~10文字の2500語の漢字熟語に対して、上述の手法を用いた評価実験を行っている。



名詞間の意味的共起情報による手法(非特許文献3)
非特許文献3では、漢字複合語を構成する基本単語を意味カテゴリーに分類し、カテゴリー間の共起頻度を用いた分割手法の提案し、分割実験を行っている。



非特許文献3では、分割は次の手順で行われる。まず、トレーニングデータの漢字複合語を手動で基本単語に分割し、個々の基本単語に対してあらかじめ体系化されているクラスを付与する。その後、対象漢字複合語を基本単語と照合して、分割する(ステップ1)。ステップ1では全ての分割パターンを求める。次に、基本単語を意味分類辞書と照合してクラス番号を付与し、可能なクラス列を求め(ステップ2)、次いで、クラス間の係り受け規則に基づき、全係り受けクラス列を求める(ステップ3)。そして、提案されている優先度算出方法に基づき、係り受けパターン毎に優先度を算出し、最大の優先度をもつ係り受けパターンを解とする(ステップ4)。



非特許文献3において、例えば、「歩行者通路」は以下のように分割される。まず、ステップ1で対象漢字複合語を基本単語と照合し、「歩行 者 通路」と「歩 行者 通路」に分割される。次に、ステップ2で、基本単語を意味分類辞書と照合して、クラス番号を付与し、可能なクラス列を求めると、「歩行[133]者[110:120]通路[147]」と「歩[119:133:145]行者[124]通路[147]」となる。“:”は、複数のクラスが存在する場合を示している。クラス間の係り受け規則に基づき、[[133:110],147]、[133]、[110:147]、・・・、[[119:124],147]、・・・、[145,[124:147]]の合計10種類の係り受けクラス列が得られ(ステップ3)、個々のクラス列に対する優先度を計算すると、最大の優先度1.36となる[[133:110],147]が解となるクラス列で、分割解は「歩行 者 通路」となる(ステップ4)。特許文献3では、4文字以上の3008語の漢字熟語に対して、上述の手法を用いた評価実験を行っている。



文脈情報を利用した手法
非特許文献4では、基本単語間の共起情報に基づく、(a)共起割合とよんでいる熟語内の基本単語間の修飾比率、(b)相互情報量とよんでいる共起する比率に基づく計算指標、(c)優先度と呼んでいる(b)の相互情報量とテキスト中の名詞の頻度を考慮した指標という3種類の手法-計算式を提案し、評価実験を行っている。



非特許文献4では、分割は次の手順で行われる。まず、対象漢字複合語を基本単語と照合し、分割する(ステップ1)。この段階では全ての分割パターンを求める。次に、各分割パターンに対して上述した指標を算出する(ステップ2)。ここで、各指標における最大の値をもつパターンが分割解となる。



非特許文献4において、例えば、「砂糖類価格安定」は、上述した(a)共起割合の指標では、「砂 糖 類 価 格 安 定」は0、「砂 糖 類 価 格 安定」は0、「砂 糖 類 価 格安 定」は0、・・・「砂 糖類 価 格 安定」は0.10、・・・「砂糖 類 価格 安定」は0.25となり、最大の値をとる「砂糖 類 価格 安定」が分割解となる。非特許文献4では、5文字、7文字、10文字の漢字熟語それぞれ100語に対し、上述した手法を用いた評価実験を行っている。

Field of industrial application (In Japanese)


本発明は、日本語文書に含まれる連続する漢字列で構成された漢字複合語を超高精度で分割することができる漢字複合語分割方法及び漢字複合語分割装置に関するものである。

Scope of claims (In Japanese)
【請求項1】
 
連続する漢字列で構成された漢字複合語を分割する場合の基となる基本単語と該基本単語に該当する品詞を関連付け、該基本単語の字数毎に分類して、該基本単語と該品詞の両者を記録した日本語辞書と、該漢字複合語を分割した後に構成される各漢字列の字数の配列を示した分割パターンと該漢字複合語を分割した後に構成される各漢字列に該当する品詞の配列を表した品詞列パターンのうち当該分割パターンに存在するものを関連付け、該漢字複合語の字数毎に分類して、該分割パターンと該品詞列パターンの両者を記録した単語分割パターン辞書とを参照して、該漢字複合語を分割する漢字複合語分割方法であって、
前記漢字複合語分割方法は、前記漢字複合語の語頭の漢字又は前記漢字複合語の直前に決定した区切候補の直後にある漢字から、予め設定した抽出字数の順番に従って、抽出字数分の漢字列を順次抽出し、前記日本語辞書を参照して、抽出した漢字列を基本単語と照合する第一のステップと、
第一のステップで抽出した漢字列と一致する基本単語が見つかった場合には、前記日本語辞書に従い、基本単語と一致する抽出した漢字列に品詞を付与した後、該基本単語と一致する漢字複合語から抽出した漢字列の後方に漢字があるか確認し、該基本単語と一致する漢字複合語から抽出した漢字列の後方に漢字があるときは、該基本単語と一致する抽出した漢字列の語尾とその直後の漢字の間を、前記漢字複合語を分割する区切候補として決定し、第一のステップに戻る第二のステップと、
第一のステップで予め設定した全ての抽出字数から抽出した漢字列の全部と一致する基本単語が見つからなかった場合には、抽出した漢字1字を前記日本語辞書に存在しない1字未知語と定め、該抽出した漢字1字の後方に漢字があるときは、該抽出した漢字1字とその直後の漢字の間を、前記漢字複合語を分割する区切候補として決定し、第一のステップに戻る第三のステップと、
前記単語分割パターン辞書の分割対象となる漢字複合語の字数に属する分割パターンを検索した結果、前記単語分割パターン辞書中に決定した区切候補の各漢字列の字数の配列と一致する分割パターンが存在した場合には、前記単語分割パターン辞書の分割対象となる漢字複合語の字数に属する品詞列パターンを検索し、前記単語分割パターン辞書中に決定した区切候補で分割した各漢字列に該当する品詞の配列と一致する品詞列パターンが存在したときは、決定した区切候補を漢字複合語を分割する区切位置として確定する第九のステップと、
を含み、該第一のステップ乃至該第三のステップ及び該第九のステップをコンピュータに実行させることを特徴とする漢字複合語分割方法。

【請求項2】
 
連続する漢字列で構成された漢字複合語を分割する場合の基となる基本単語と該基本単語に該当する品詞を関連付け、該基本単語と該品詞の両者を記録した日本語辞書と、該漢字複合語を分割した後に構成される各漢字列の字数の配列を示した分割パターンと該漢字複合語を分割した後に構成される各漢字列に該当する品詞の配列を表した品詞列パターンのうち当該分割パターンに存在するものを関連付け、該漢字複合語の字数毎に分類して、該分割パターンと該品詞列パターンの両者を記録した単語分割パターン辞書とを参照して、該漢字複合語を分割する漢字複合語分割方法であって、
前記漢字複合語分割方法は、前記漢字複合語の語頭の漢字又は前記漢字複合語の直前に決定した区切候補の直後にある漢字から、予め設定した抽出字数の順番に従って、抽出字数分の漢字列を順次抽出し、前記日本語辞書を参照して、抽出した漢字列を基本単語と照合する第一のステップと、
第一のステップで抽出した漢字列と一致する基本単語が見つかった場合には、前記日本語辞書に従い、基本単語と一致する抽出した漢字列に品詞を付与した後、該基本単語と一致する漢字複合語から抽出した漢字列の後方に漢字があるか確認し、該基本単語と一致する漢字複合語から抽出した漢字列の後方に漢字があるときは、該基本単語と一致する抽出した漢字列の語尾とその直後の漢字の間を、前記漢字複合語を分割する区切候補として決定し、第一のステップに戻る第二のステップと、
第一のステップで予め設定した全ての抽出字数から抽出した漢字列の全部と一致する基本単語が見つからなかった場合には、抽出した漢字1字を前記日本語辞書に存在しない1字未知語と定め、該抽出した漢字1字の後方に漢字があるときは、該抽出した漢字1字とその直後の漢字の間を、前記漢字複合語を分割する区切候補として決定し、第一のステップに戻る第三のステップと、
前記単語分割パターン辞書の分割対象となる漢字複合語の字数に属する分割パターンを検索した結果、前記単語分割パターン辞書中に決定した区切候補の各漢字列の字数の配列と一致する分割パターンが存在した場合には、前記単語分割パターン辞書の分割対象となる漢字複合語の字数に属する品詞列パターンを検索し、前記単語分割パターン辞書中に決定した区切候補で分割した各漢字列に該当する品詞の配列と一致する品詞列パターンが存在したときは、決定した区切候補を漢字複合語を分割する区切位置として確定する第九のステップと、
を含み、該第一のステップ乃至該第三のステップ及び該第九のステップをコンピュータに実行させることを特徴とする漢字複合語分割方法。

【請求項3】
 
前記漢字複合語分割方法は、前記漢字複合語の漢字列に第三のステップで定義した未知語が存在する場合には、当該未知語の後方の漢字列に未知語が存在していないか検索した後、当該未知語から連続する未知語を連結して連接未知語とし、該連接未知語が前記日本語辞書に存在したときは、第三のステップで決定した区切候補を連接未知語の語尾とその直後にある漢字の間に変更すると共に、連接未知語に品詞を付与するが、連接未知語が日本語辞書に存在しなかったときは、未知語の連結を行わない第四のステップをさらに含み、該第四のステップをコンピュータに実行させることを特徴とする請求項1又は2に記載の漢字複合語分割方法。

【請求項4】
 
前記漢字複合語分割方法は、前記漢字複合語の漢字列に第三のステップで定義した未知語が存在する場合には、当該未知語の直後にある漢字列と連結して、第一の隣接語とし、該第一の隣接語が前記日本語辞書に存在したときは、第三のステップで決定した区切候補を該第一の隣接語の語尾とその直後にある漢字の間に変更すると共に、該第一の隣接語に品詞を付与するが、該第一の隣接語が前記日本語辞書に存在しなかったときは、当該未知語の直前にある漢字列と連結して、第二の隣接語とし、該第二の隣接語が前記日本語辞書に存在したときは、第三のステップで決定した区切候補を該第二の隣接語の語尾とその直後にある漢字の間に変更すると共に、該第二の隣接語に品詞を付与するが、該第二の隣接語が前記日本語辞書に存在しなかったときは、隣接する漢字列の連結は行わない第五のステップをさらに含み、該第五のステップをコンピュータに実行させることを特徴とする請求項1~3のいずれか1項に記載の漢字複合語分割方法。

【請求項5】
 
連続する漢字列で構成された漢字複合語を分割する場合の基となる基本単語と該基本単語に該当する品詞を関連付け、該基本単語の字数毎に分類して、該基本単語と該品詞の両者を記録した日本語辞書と、該漢字複合語を分割した後に構成される各漢字列の字数の配列を示した分割パターンと該漢字複合語を分割した後に構成される各漢字列に該当する品詞の配列を表した品詞列パターンのうち当該分割パターンに存在するものを関連付け、該漢字複合語の字数毎に分類して、該分割パターンと該品詞列パターンの両者を記録した単語分割パターン辞書とを参照して、該漢字複合語を分割する漢字複合語分割方法であって、
前記漢字複合語分割方法は、前記単語分割パターン辞書を参照して、前記分割パターンの出現頻度の高い順に、前記漢字複合語を複数の漢字列に順次仮分割した後、前記日本語辞書を参照して、該仮分割した全ての漢字列を基本単語と照合する第六のステップと、
第六のステップで仮分割した全ての漢字列について一致する基本単語が見つかった場合には、前記日本語辞書に従い、基本単語と一致する全ての漢字列に品詞を付与した後、仮分割した全ての漢字列と一致する基本単語が見つかった分割パターンに従い、前記漢字複合語を分割する区切候補を決定する第七のステップと、
第六のステップで仮分割した漢字列のいずれかの漢字列に一致する基本単語が見つからなかった場合には、前記日本語辞書に存在しない漢字列を未知語と定めると共に、全ての分割パターンについて仮分割したか確認して、全ての分割パターンについて仮分割していないときは、第六のステップに戻り、全ての分割パターンについて仮分割したときは、該未知語の個数が最小であり、かつ分割パターンの出現頻度の最も高い分割パターンに従い、前記日本語辞書に従い、基本単語と一致する全ての漢字列に品詞を付与した後、前記漢字複合語を分割する区切候補を決定する第八のステップと、
前記単語分割パターン辞書の分割対象となる漢字複合語の字数に属する分割パターンを検索した結果、前記単語分割パターン辞書中に決定した区切候補の各漢字列の字数の配列と一致する分割パターンが存在した場合には、前記単語分割パターン辞書の分割対象となる漢字複合語の字数に属する品詞列パターンを検索し、前記単語分割パターン辞書中に決定した区切候補で分割した各漢字列に該当する品詞の配列と一致する品詞列パターンが存在したときは、決定した区切候補を漢字複合語を分割する区切位置として確定する第九のステップと、を含み、該第六のステップ乃至該第九のステップをコンピュータに実行させることを特徴とする漢字複合語分割方法。

【請求項6】
 
連続する漢字列で構成された漢字複合語を分割する場合の基となる基本単語と該基本単語に該当する品詞を関連付け、該基本単語と該品詞の両者を記録した日本語辞書と、該漢字複合語を分割した後に構成される各漢字列の字数の配列を示した分割パターンと該漢字複合語を分割した後に構成される各漢字列に該当する品詞の配列を表した品詞列パターンのうち当該分割パターンに存在するものを関連付け、該漢字複合語の字数毎に分類して、該分割パターンと該品詞列パターンの両者を記録した単語分割パターン辞書とを参照して、該漢字複合語を分割する漢字複合語分割方法であって、
前記漢字複合語分割方法は、前記単語分割パターン辞書を参照して、前記分割パターンの出現頻度の高い順に、前記漢字複合語を複数の漢字列に順次仮分割した後、前記日本語辞書を参照して、該仮分割した全ての漢字列を基本単語と照合する第六のステップと、
第六のステップで仮分割した全ての漢字列について一致する基本単語が見つかった場合には、該仮分割した全ての漢字列に品詞を付与した後、仮分割した全ての漢字列と一致する基本単語が見つかった分割パターンに従い、前記漢字複合語を分割する区切候補を決定する第七のステップと、
第六のステップで仮分割した漢字列のいずれかの漢字列に一致する基本単語が見つからなかった場合には、前記日本語辞書に存在しない漢字列を未知語と定めると共に、全ての分割パターンについて仮分割したか確認して、全ての分割パターンについて仮分割していないときは、第六のステップに戻り、全ての分割パターンについて仮分割したときは、該未知語の個数が最小であり、かつ分割パターンの出現頻度の最も高い分割パターンに従い、該仮分割した全ての漢字列に品詞を付与した後、前記漢字複合語を分割する区切候補を決定する第八のステップと、
前記単語分割パターン辞書の分割対象となる漢字複合語の字数に属する分割パターンを検索した結果、前記単語分割パターン辞書中に決定した区切候補の各漢字列の字数の配列と一致する分割パターンが存在した場合には、前記単語分割パターン辞書の分割対象となる漢字複合語の字数に属する品詞列パターンを検索し、前記単語分割パターン辞書中に決定した区切候補で分割した各漢字列に該当する品詞の配列と一致する品詞列パターンが存在したときは、決定した区切候補を漢字複合語を分割する区切位置として確定する第九のステップと、を含み、該第六のステップ乃至該第九のステップをコンピュータに実行させることを特徴とする漢字複合語分割方法。

【請求項7】
 
連続する漢字列で構成された漢字複合語を分割する場合の基となる基本単語と該基本単語に該当する品詞を関連付け、該基本単語の字数毎に分類して、該基本単語と該品詞の両者を記録した日本語辞書と、
前記漢字複合語を分割した後に構成される各漢字列の字数の配列を示した分割パターンと前記漢字複合語を分割した後に構成される各漢字列に該当する品詞の配列を表した品詞列パターンのうち当該分割パターンに存在するものを関連付け、前記漢字複合語の字数毎に分類して、該分割パターンと該品詞列パターンの両者を記録した単語分割パターン辞書と、
前記漢字複合語の語頭の漢字又は前記漢字複合語の直前に決定した区切候補の直後にある漢字から、予め設定した抽出字数の順番に従って、抽出字数分の漢字列を順次抽出し、前記日本語辞書を参照して、抽出した漢字列を基本単語と照合する抽出照合手段と、
前記抽出照合手段で抽出した漢字列と一致する基本単語が見つかった場合には、前記日本語辞書に従い、基本単語と一致する抽出した漢字列に品詞を付与し、該基本単語と一致する抽出した漢字列の後方に漢字があるときは、該基本単語と一致する抽出した漢字列の語尾とその直後の漢字の間を、該漢字複合語を分割する区切候補として決定する区切決定手段と、
前記抽出照合手段で予め設定した全ての抽出字数から抽出した漢字列の全部と一致する基本単語が見つからなかった場合には、抽出した漢字1字を前記日本語辞書に存在しない1字未知語と定め、該抽出した漢字1字の後方に漢字があるときは、該抽出した漢字1字とその直後の漢字の間を、該漢字複合語を分割する区切候補として決定する未知語区切決定手段と、
前記単語分割パターン辞書の分割対象となる漢字複合語の字数に属する分割パターンを検索した結果、前記単語分割パターン辞書中に決定した区切候補の各漢字列の字数の配列と一致する分割パターンが存在した場合には、前記単語分割パターン辞書の分割対象となる漢字複合語の字数に属する品詞列パターンを検索し、前記単語分割パターン辞書中に決定した区切候補で分割した各漢字列に該当する品詞の配列と一致する品詞列パターンが存在したときは、決定した区切候補を漢字複合語を分割する区切位置として確定する分割位置確定手段と、
を含むことを特徴とする漢字複合語分割装置。

【請求項8】
 
前記漢字複合語分割装置は、前記漢字複合語の漢字列に未知語区切決定手段で定義した未知語が存在する場合には、当該未知語の後方の漢字列に未知語が存在していないか検索した後、当該未知語から連続する未知語を連結して連接未知語とし、該連接未知語が前記日本語辞書に存在したときは、未知語区切決定手段で決定した区切候補を連接未知語の語尾とその直後にある漢字の間に変更すると共に、連接未知語に品詞を付与するが、連接未知語が日本語辞書に存在しなかったときは、未知語の連結を行わない未知語連接手段をさらに含むことを特徴とする請求項7に記載の漢字複合語分割装置。

【請求項9】
 
前記漢字複合語分割装置は、前記漢字複合語の漢字列に未知語区切決定手段で定義した未知語が存在する場合には、当該未知語の直後にある漢字列と連結して、第一の隣接語とし、該第一の隣接語が前記日本語辞書に存在したときは、未知語区切決定手段で決定した区切候補を該第一の隣接語の語尾とその直後にある漢字の間に変更すると共に、該第一の隣接語に品詞を付与するが、該第一の隣接語が前記日本語辞書に存在しなかったときは、当該未知語の直前にある漢字列と連結して、第二の隣接語とし、該第二の隣接語が前記日本語辞書に存在したときは、未知語区切決定手段で決定した区切候補を該第二の隣接語の語尾とその直後にある漢字の間に変更すると共に、該第二の隣接語に品詞を付与するが、該第二の隣接語が前記日本語辞書に存在しなかったときは、隣接する漢字列の連結は行わない隣接語連接手段をさらに含むことを特徴とする請求項7又は8に記載の漢字複合語分割装置。

【請求項10】
 
連続する漢字列で構成された漢字複合語を分割する場合の基となる基本単語と該基本単語に該当する品詞を関連付け、該基本単語の字数毎に分類して、該基本単語と該品詞の両者を記録した日本語辞書と、
前記漢字複合語を分割した後に構成される各漢字列の字数の配列を示した分割パターンと前記漢字複合語を分割した後に構成される各漢字列に該当する品詞の配列を表した品詞列パターンのうち当該分割パターンに存在するものを関連付け、前記漢字複合語の字数毎に分類して、該分割パターンと該品詞列パターンの両者を記録した単語分割パターン辞書と、
前記単語分割パターン辞書を参照して、前記分割パターンの出現頻度の高い順に、前記漢字複合語を複数の漢字列に順次仮分割した後、前記日本語辞書を参照して、該仮分割した全ての漢字列を基本単語と照合する仮分割照合手段と、
仮分割照合手段で仮分割した全ての漢字列について一致する基本単語が見つかった場合には、前記日本語辞書に従い、基本単語と一致する全ての漢字列に品詞を付与して、仮分割した全ての漢字列と一致する基本単語が見つかった分割パターンに従い、前記漢字複合語を分割する分割候補を決定する分割決定手段と、
仮分割照合手段で仮分割した漢字列のいずれかの漢字列に一致する基本単語が見つからなかった場合には、前記日本語辞書に存在しない漢字列を未知語と定め、全ての分割パターンについて仮分割した漢字列のいずれかの漢字列に一致する基本単語が見つからなかったときは、該未知語の個数が最小であり、かつ分割パターンの出現頻度の最も高い分割パターンに従い、前記日本語辞書に従い、基本単語と一致する全ての漢字列に品詞を付与して、前記漢字複合語を分割する分割候補を決定する未知語分割決定手段と、
前記単語分割パターン辞書の分割対象となる漢字複合語の字数に属する分割パターンを検索した結果、前記単語分割パターン辞書中に決定した区切候補の各漢字列の字数の配列と一致する分割パターンが存在した場合には、前記単語分割パターン辞書の分割対象となる漢字複合語の字数に属する品詞列パターンを検索し、前記単語分割パターン辞書中に決定した区切候補で分割した各漢字列に該当する品詞の配列と一致する品詞列パターンが存在したときは、決定した区切候補を漢字複合語を分割する区切位置として確定する分割位置確定手段と、
を含むことを特徴とする漢字複合語分割装置。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2010222057thum.jpg
State of application right Registered
(In Japanese)本技術について、ライセンスや共同研究等をご希望の方は、下記「問合せ先」まで直接お問い合わせください。


PAGE TOP

close
close
close
close
close
close
close