Top > Search of Japanese Patents > MODELING SYSTEM > Specification

Specification :(In Japanese)モデリングシステム

Country (In Japanese)日本国特許庁(JP)
Gazette (In Japanese)公開特許公報(A)
Publication number P2019-212159A
Date of publication of application Dec 12, 2019
Title of the invention, or title of the device (In Japanese)モデリングシステム
IPC (International Patent Classification) G06N   7/08        (2006.01)
G06Q  10/04        (2012.01)
FI (File Index) G06N 7/08
G06Q 10/04
Number of claims or invention 10
Filing form OL
Total pages 15
Application Number P2018-109495
Date of filing Jun 7, 2018
Inventor, or creator of device (In Japanese)【氏名】峰野 博史
【氏名】柴田 瞬
【氏名】水野 涼介
【氏名】中西 豪太
Applicant (In Japanese)【識別番号】304023318
【氏名又は名称】国立大学法人静岡大学
Representative (In Japanese)【識別番号】100088155、【弁理士】、【氏名又は名称】長谷川 芳樹
【識別番号】100124800、【弁理士】、【氏名又は名称】諏澤 勇司
Request for examination (In Japanese)未請求
Theme code 5L049
F-term 5L049DD02
Abstract (In Japanese)【課題】モデリング対象の現象に関する実測値に欠損値が生じやすい場合であっても、モデリングの精度を維持すること。
【解決手段】一形態にかかるモデリングシステム1は、複数の連続した時刻における直接観測できない変数である潜在変数ztを、外部から与えられた外部変数utと、直前の時刻の潜在変数zt-1とから、非線形関数を用いて順次導出する第1導出部7aと、複数の連続した時刻における直接観測できる変数である観測変数xtを、同一の時刻の潜在変数ztから、非線形関数を用いて順次導出する第2導出部7bと、複数の連続した時刻における直接観測できる変数である観測変数ytを、同一の時刻の潜在変数ztから、非線形関数を用いて順次導出する第3導出部7cと、を備える。
【選択図】図1
Scope of claims (In Japanese)【請求項1】
複数の連続した時刻における直接観測できない変数である潜在変数を、直前の時刻の前記潜在変数から、非線形関数を用いて順次導出する第1の導出部と、
前記複数の連続した時刻における直接観測できる変数である第1の観測変数を、同一の時刻の前記潜在変数から、非線形関数を用いて順次導出する第2の導出部と、
前記複数の連続した時刻における直接観測できる変数である第2の観測変数を、同一の時刻の前記潜在変数から、非線形関数を用いて順次導出する第3の導出部と、
を備えるモデリングシステム。
【請求項2】
前記第1の導出部は、外部から与えられた外部変数をさらに用いて前記潜在変数を順次導出する、
請求項1記載のモデリングシステム。
【請求項3】
前記第2の導出部は、外部から与えられた外部変数をさらに用いて前記第1の観測変数を順次導出し、
前記第3の導出部は、外部から与えられた外部変数をさらに用いて前記第2の観測変数を順次導出する、
請求項1又は2に記載のモデリングシステム。
【請求項4】
前記潜在変数、前記第1の観測変数、及び前記第2の観測変数を、確率分布として導出する、
請求項1~3のいずれか1項に記載のモデリングシステム。
【請求項5】
前記潜在変数、前記第1の観測変数、及び前記第2の観測変数を、正規分布として導出する、
請求項4記載のモデリングシステム。
【請求項6】
前記潜在変数、前記第1の観測変数、及び前記第2の観測変数を、離散分布として導出する、
請求項4記載のモデリングシステム。
【請求項7】
前記非線形関数は、ニューラルネットワークを含んでいる、
請求項1~6のいずれか1項に記載のモデリングシステム。
【請求項8】
前記非線形関数のパラメータを、前記第1の観測変数の実測値あるいは前記第2の観測変数の実測値を用いた機械学習により、予め最適化する学習部をさらに備える、
請求項1~7のいずれか1項に記載のモデリングシステム。
【請求項9】
前記学習部は、前記第1の観測変数の実測値及び前記第2の観測変数の実測値を基にして、前記非線形関数に関するELBO値を計算し、前記ELBO値を目的関数とした機械学習により前記パラメータを最適化する、
請求項8に記載のモデリングシステム。
【請求項10】
前記学習部は、前記第2の観測変数の実測値が存在する時刻と前記第2の観測変数の実測値が存在しない時刻とで異なる演算式を用いて前記ELBO値を計算し、複数の時刻で合計した前記ELBO値を前記目的関数として用いる、
請求項9に記載のモデリングシステム。
Detailed description of the invention (In Japanese)【技術分野】
【0001】
本発明は、現象の時間的変化をモデリングするモデリングシステムに関する。
【背景技術】
【0002】
近年、様々な現象の時間的変化をモデル化する技術が浸透し始めている。下記特許文献1には、電力系統の状態量を推定する装置が開示され、この装置は、電力量の出現分布情報を受信する電力系統計測部、電力系統の状態推定を非線形カルマンフィルタを用いて計算するシミュレータ部、電力系統の計測データとシミュレータデータとを用いて確率的に尤もらしい状態値を算出する最尤状態算出部、及び、計測データとシミュレータデータとの差が小さくなるようにシミュレータ部のパラメータを逐次修正するパラメータ補正部からなる。
【先行技術文献】
【0003】

【特許文献1】国際公開2015/079554号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述した従来の装置では、モデリング対象の現象に関する実測値が時間的に連続して得られず欠損値が生じやすい場合に、シミュレータ部のパラメータを予め適切に設定しておくことが困難な傾向にある。そのため、実測値に欠損値が生じやすい場合にモデリングの精度が低下する傾向にあった。
【0005】
本発明の一側面は、上記課題に鑑みて為されたものであり、モデリング対象の現象に関する実測値に欠損値が生じやすい場合であっても、モデリングの精度を維持することが可能なモデリングシステムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するため、本発明の一形態にかかるモデリングシステムは、複数の連続した時刻における直接観測できない変数である潜在変数を、直前の時刻の潜在変数から、非線形関数を用いて順次導出する第1の導出部と、複数の連続した時刻における直接観測できる変数である第1の観測変数を、同一の時刻の潜在変数から、非線形関数を用いて順次導出する第2の導出部と、複数の連続した時刻における直接観測できる変数である第2の観測変数を、同一の時刻の潜在変数から、非線形関数を用いて順次導出する第3の導出部と、を備える。
【0007】
上記形態のモデリングシステムによれば、潜在変数の時間的な変化と、その変化に基づいた第1及び第2の観測変数の時間的な変化をモデリングすることにより、特定の現象における観測値のシミュレーションに利用することができる。特に、2つの観測変数を含んでモデリングされているので、2つの観測変数のうちの片方の観測変数の実測値が欠損しやすい状況下であっても、もう片方の実測値を用いてモデルのパラメータを推定できる。その結果、モデリングの精度を維持することができる。
【0008】
ここで、前記第1の導出部は、外部から与えられた外部変数をさらに用いて前記潜在変数を順次導出してもよく、第2の導出部は、外部から与えられた外部変数をさらに用いて前記第1の観測変数を順次導出してもよく、前記第3の導出部は、外部から与えられた外部変数をさらに用いて前記第2の観測変数を順次導出してもよい。こうすれば、外部の環境を考慮に入れてモデリングの精度をより高めることができる。
【0009】
また、潜在変数、第1の観測変数、及び第2の観測変数を、確率分布として導出する、こととしてもよく、特に、正規分布として導出してもよい。かかる構成を備えれば、生物の連続的な状態等の自然現象を適切にモデリングすることができる。
【0010】
また、潜在変数、第1の観測変数、及び第2の観測変数を、確率分布として導出する、こととしてもよく、特に、離散分布として導出してもよい。かかる構成を備えれば、生物の離散的な状態等の自然現象を適切にモデリングすることができる。
【0011】
また、非線形関数は、ニューラルネットワークを含んでいてもよく、任意の非線形関数を選択してもよい。この場合、この場合、生物成長等の非線形な現象を適切にモデリングすることができる。
【0012】
また、非線形関数のパラメータを、第1の観測変数の実測値あるいは第2の観測変数の実測値を用いた機械学習により、予め最適化する学習部をさらに備える、こととしてもよい。かかる構成を採れば、第1及び第2の実測値の実測値を用いてモデルに利用される非線形関数のパラメータを最適化することができる。特に、2つの観測変数のうちの片方の観測変数の実測値が欠損しやすい状況下であっても、もう片方の実測値を用いてパラメータを効率的に最適化することができる。
【0013】
また、学習部は、第1の観測変数の実測値及び第2の観測変数の実測値を基にして、非線形関数に関するELBO値を計算し、ELBO値を目的関数とした機械学習によりパラメータを最適化する、こととしてもよい。
【0014】
また、学習部は、第2の観測変数の実測値が存在する時刻と第2の観測変数の実測値が存在しない時刻とで異なる演算式を用いてELBO値を計算し、複数の時刻で合計したELBO値を目的関数として用いる、こととしてもよい。これにより、2つの観測変数のうちの片方の観測変数の実測値が欠損しやすい状況下であっても、もう片方の実測値を用いてパラメータを効率的に最適化することができる。
【発明の効果】
【0015】
本発明によれば、モデリング対象の現象に関する実測値に欠損値が生じやすい場合であっても、モデリングの精度を維持することができる。
【図面の簡単な説明】
【0016】
【図1】実施形態にかかるモデリングシステムの概略構成を示す図である。
【図2】図1のモデリングシステムを構成するコンピュータのハードウェア構成を示す図である。
【図3】図1の予測値生成器7が用いる学習モデルのデータ系列の生成過程を説明する概念図である。
【図4】図1の予測値生成器7が用いる学習モデルにおける各変数の設定内容の例を示す図表である。
【図5】図1の予測値生成器7が用いる学習モデルのデータ系列の生成過程の他の例を説明する概念図である。
【図6】図1の予測値生成器7が用いる学習モデルのデータ系列の生成過程の他の例を説明する概念図である。
【図7】本実施形態おける算出糖度の誤差の評価値MAE、RMSE、RAE、RSEを示すグラフである。
【図8】本実施形態おける算出糖度の時間変化を示すグラフである。
【図9】本実施形態おける算出糖度の時間変化を示すグラフである。
【図10】本実施形態おける算出糖度の時間変化を示すグラフである。
【発明を実施するための形態】
【0017】
以下、図面を参照しつつ本発明に係るモデリングシステムの好適な実施形態について詳細に説明する。なお、図面の説明においては、同一又は相当部分には同一符号を付し、重複する説明を省略する。

【0018】
まず、図1~3を用いて、本発明の一実施形態にかかるモデリングシステム1の機能および構成を説明する。図1に示すモデリングシステム1は、事前に様々な現象を取り巻く環境をモデル化し、それによって生成された学習モデルを用いて現象の時間変化を探索するコンピュータシステムである。より具体的には、学習モデルを基に現象の時間変化を高精度に推定するモデリングシステムである。モデリングシステム1の探索対象の現象としては、例えば、トマト等の植物の生育状態とし、栽培環境および生育状態に関する観測値を訓練データとして用いて事前に学習モデルを最適化し、その学習モデルを用いて現在の生育状態を推定し定量化できる。

【0019】
なお、モデリングシステム1の探索対象の現象としては、トマト等の植物の生育状態が挙げられるが、これには限定されない。例えば、モデリングシステム1は、動物または食品等のその他の有体物の状態、天候、病気、または漁獲等の自然現象の状態、通信ネットワーク、交通、ライフライン、株価、または需給等の社会現象の状態を探索対象としてもよい。また、本明細書でいう「系列」とは、複数の時点における現象の様々な観測値あるいは予測値を示す数値の系列であり、ある規則に基づいて複数の時点において観測することにより得られる数値の系列、学習モデルに従ったある計算式によって複数の時点に関して計算された数値の系列である。

【0020】
図1に示すように、モデリングシステム1は、入力部3、学習部5、及び予測値生成器7を含んで構成されている。本実施形態では、モデリングシステム1は1つの装置によって構成されているが、データ送受信機能を有する複数の装置によって構成されていてもよい。

【0021】
モデリングシステム1を構成するコンピュータ100の一般的なハードウェア構成を図2に示す。コンピュータ100は、オペレーティングシステムやアプリケーション・プログラムなどを実行する演算装置であるCPU(プロセッサ)101と、ROM及びRAMで構成される主記憶部102と、ハードディスクやフラッシュメモリなどで構成される補助記憶部103と、ネットワークカードあるいは無線通信モジュールで構成される通信制御部104と、キーボードやマウスなどの入力装置105と、ディスプレイやプリンタなどの出力装置106とを備える。当然ながら、搭載されるハードウェアモジュールはコンピュータ100の種類により異なる。例えば、据置型のPCおよびワークステーションは入力装置および出力装置としてキーボード、マウス、およびディスプレイを備えることが多いが、スマートフォンではタッチパネルが入力装置および出力装置として機能することが多い。また、CPU101にGPUが付加されていてもよい。

【0022】
後述するモデリングシステム1の各機能要素は、CPU101または主記憶部102の上に所定のソフトウェアを読み込ませ、CPU101の制御の下で通信制御部104や入力装置105、出力装置106などを動作させ、主記憶部102または補助記憶部103におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは主記憶部102または補助記憶部103内に格納される。

【0023】
図1に戻って、入力部3は、学習モデルのモデル化(以下、単に「モデル化」ともいう。)のために用いられる訓練データ系列、及び、モデル化した学習モデルに従って現象の時間変化を探索する処理(以下、単に「探索処理」ともいう。)において用いられる外部変数データ系列を外部から受け付ける。例えば、モデリングシステム1が対象とする現象が植物の生育状態である場合には、訓練データ系列に含まれる観測値(実測値)として、糖度、茎径、温度、光量、飽差、開花後の経過日数、灌水後の経過時間、積算温度、二酸化炭素濃度等が挙げられる。また、外部変数データ系列に含まれる数値として、温度、光量、飽差、開花後の経過日数、灌水後の経過時間、積算温度、二酸化炭素濃度、対象花房等が想定される。入力部3は、訓練データ系列を、温度センサ、光センサ、カメラ等の外部センサ装置からの信号を基に生成したデータ系列として受け付けてもよいし、他のコンピュータシステム等の外部装置を介して受け付けてもよい。入力部3は、外部変数データ系列を、ユーザ入力に基づいて受け付けてもよいし、内部のプログラム等によって生成されたものとして受け付けてもよいし、他のコンピュータシステム等の外部装置から受け付けてもよい。

【0024】
学習部5は、入力部3によって受け付けられた訓練データ系列を用いて予測値生成器7に対応する学習モデルのパラメータを予め最適化する。学習部5による学習モデルのパラメータの最適化の処理の詳細は後述する。

【0025】
予測値生成器7は、学習部5によってパラメータが最適化された学習モデルを用いて探索処理を実行する機能部分である。予測値生成器7は、入力部3によって受け付けられた外部変数データ系列を用いて探索処理を実行し、適切な生育状態(例えば、経時糖度等)を推定し定量化して出力する。

【0026】
ここで、予測値生成器7が用いる学習モデルにおいてデータ系列を生成する過程を説明する。図3は、予測値生成器7が用いる学習モデルにおけるデータ系列の生成過程を説明する概念図である。このように、この学習モデルは、状態空間モデル(SSM:State Space Model)をベースとしており、直接観測できない状態モデルと状態モデルから生成される観測モデルの2系列のデータ系列を有する。状態モデルは、時刻tの潜在変数ztと、その1つ前の時刻t-1の潜在変数zt-1と、その1つ後の時刻t+1の潜在変数zt+1とを含み、時刻tの潜在変数ztは前の潜在変数zt-1と、ztと同じ時刻の外部変数utを基に生成され、それ以降の潜在変数zt+1は同様にして順次生成される。この潜在変数ztは、直接観測できない現象に関する数値であり、例えば、植物の状態を示す。観測モデルは、時刻tの2つの直接観測できる変数である観測変数xt,ytと、その1つ前の時刻t-1の観測変数xt-1,yt-1と、その1つ後の時刻t+1の観測変数xt+1,yt+1とを含む。時刻tの観測変数ytは潜在変数ztと、同じ時刻tの外部変数rtを基に生成され、それ以降の観測変数yt+1は同様にして順次生成される。時刻tの観測変数xtは潜在変数ztと、同じ時刻tの外部変数stを基に生成され、それ以降の観測変数xt+1は同様にして順次生成される。すなわち、観測変数ytと観測変数xtとは同じ潜在変数ztを基に生成される。外部変数ut,rt,stは、それぞれ、潜在変数zt、観測変数yt、観測変数xtに作用する変数である。このように、この学習モデルにおいては、各変数zt,yt,xtで異なる外部変数を持つことにより、モデル化時に各変数の生成過程に適したデータを設定することで適切に現象の予測を行うことが可能となる。

【0027】
学習モデルの対象を植物の状態とする場合には、各変数には、図4に示すような数値が設定される。潜在変数ztには植物の状態が設定され、観測変数xt,ytにはそれぞれ、植物の糖度、および植物の茎径が設定される。この観測変数xtとしては、モデル化を行う際に系列のデータを連続して得ることが不可能である、あるいは、系列のデータを連続して得るためのコストが高い数値が設定され、この観測変数ytとしては、モデル化を行う際に系列のデータを連続して得ることが可能である、あるいは、系列のデータを連続して得るためのコストが低い数値が設定される。また、外部変数utとしては、温度、光量、飽差、開花後の経過日数、及び積算温度等が設定され、外部変数rt,stとしては、CO2濃度、光量、対象花房(第一花房であるか第二花房であるか)等が設定される。

【0028】
図1に戻って、予測値生成器7は、探索処理を実行する第1導出部7a、第2導出部7b、及び第3導出部7cを有している。第1導出部7aは、上記の学習モデルを前提にして、連続したそれぞれの時刻tの潜在変数ztを、外部から与えられた時刻tの外部変数utと、直前の時刻t-1の潜在変数zt-1とから、非線形関数を用いて順次導出する。例えば、非線形関数としてはDNN(Deep Neural Network)を用いて最適化された非線形関数を用いる。ここでは、下記式(1);
【数1】
JP2019212159A_000003t.gif


によって表現されるマルコフ性を仮定した生成過程、すなわち、パラメータθによって表現された、潜在変数zt-1及び外部変数utから平均μz及び標準偏差σzの正規分布(確率分布)N(z)を生成する生成過程Pθが想定される。より詳細には、第1導出部7aは、下記式(2);
【数2】
JP2019212159A_000004t.gif


を用いて、潜在変数ztを、平均μz及び標準偏差σzの正規分布として導出する。上記式(2)中、NNzは、DNNを用いて表現された非線形関数である。

【0029】
第2導出部7bは、上記の学習モデルを前提にして、連続したそれぞれの時刻tの観測変数xtを、外部から与えられた時刻tの外部変数stと、時刻tの潜在変数ztとから、非線形関数を用いて順次導出する。例えば、非線形関数としてはDNNを用いて最適化された非線形関数を用いる。ここでは、下記式(3);
【数3】
JP2019212159A_000005t.gif


によって表現されるマルコフ性を仮定した生成過程、すなわち、パラメータθによって表現された、潜在変数zt及び外部変数stから平均μx及び標準偏差σxの正規分布(確率分布)N(x)を生成する生成過程Pθが想定される。より詳細には、第2導出部7bは、下記式(4);
【数4】
JP2019212159A_000006t.gif


を用いて、観測変数xtを、平均μx及び標準偏差σxの正規分布として導出する。上記式(4)中、NNxは、DNNを用いて表現された非線形関数である。

【0030】
第3導出部7cは、上記の学習モデルを前提にして、連続したそれぞれの時刻tの観測変数ytを、外部から与えられた時刻tの外部変数rtと、時刻tの潜在変数ztとから、非線形関数を用いて順次導出する。例えば、非線形関数としてはDNNを用いて最適化された非線形関数を用いる。ここでは、下記式(5);
【数5】
JP2019212159A_000007t.gif


によって表現されるマルコフ性を仮定した生成過程、すなわち、パラメータθによって表現された、潜在変数zt及び外部変数rtから平均μy及び標準偏差σyの正規分布(確率分布)N(y)を生成する生成過程Pθが想定される。より詳細には、第3導出部7cは、下記式(6);
【数6】
JP2019212159A_000008t.gif


を用いて、観測変数ytを、平均μy及び標準偏差σyの正規分布として導出する。上記式(6)中、NNyは、DNNを用いて表現された非線形関数である。

【0031】
本実施形態のモデリングシステム1では、予測値生成器7によって様々な外部変数データ系列を用いた探索処理が実行され適切な生育状態をモデル化する。そのモデルを用いてモデルベース強化学習システムを構築すれば、目標の生育状態となるように最適な制御内容(例えば、灌水のタイミング等)を獲得することができる。

【0032】
次に、学習部5による機械学習によるモデル化の処理の詳細について説明する。

【0033】
学習部5は、入力部3によって受け付けられた訓練データ系列を用いて、DNNで表現された非線形関数NNz,NNx,NNyのパラメータを最適化する。モデル化に用いられる訓練データ系列は、各時刻t1~tm(mは自然数)において欠損値が含まれない外部変数ut,st,rt及び観測変数xt,ytのラベルデータ系列Dlと、各時刻t1~tn(nは自然数)において観測変数xtが欠損している外部変数ut,st,rt及び観測変数ytのアンラベルデータ系列Duとを含んでいる。そして、学習部5は、ラベルデータ系列Dlとアンラベルデータ系列Duとのそれぞれを対象に、変分ベイズ法の枠組みを勾配法で解く最適化手法(「Kingma, D.P., & Welling, M. : Auto-Encoding Variational Bayes, arXiv preprint, arXiv: 1312.6114(2013)」を参照)を用いて非線形関数NNz,NNx,NNyのパラメータを最適化する。

【0034】
詳細には、学習部5は、ラベルデータ系列Dlに対し近似事後分布を用い、パラメータθ,φを最適化するELBO(Evidence Lower Bound)値をデータの周辺尤度から、下記式(7)を用いて計算する。
【数7】
JP2019212159A_000009t.gif


上記(7)中、logpθ(yt|zt)は、訓練データ系列の観測変数ytに関する潜在変数ztの対数尤度であり、logpθ(xt|yt,zt)は、訓練データ系列の観測変数xtに関する潜在変数ztの対数尤度であり、時刻tのqφ(zt)は、1つ前の時刻t-1の潜在変数zt-1と、同じ時刻tの観測変数xt,ytから潜在変数ztを導き出すパラメータφを有する認識モデル(近似事後確率分布)の式である。また、DKL(A||B)は、AとBとの間のKullback-Leibler情報量を示し、右辺の第1項及び第3項はそれぞれ、観測変数xtに関する潜在変数ztの対数尤度の期待値と観測変数ytに関する潜在変数ztの対数尤度の期待値との和、及び潜在変数ztの近似事後確率分布と潜在変数ztの事前確率分布との近似度を示すKullback-Leibler情報量の期待値を示している。

【0035】
加えて、学習部5は、アンラベルデータ系列Duに対し近似事後分布を用い、パラメータθ,φを最適化するELBO値を、上記式(7)とは異なる下記式(8)を用いて計算する。
【数8】
JP2019212159A_000010t.gif


上記(8)中、qφ(xt|yt)は、時刻tの観測変数ytから同じ時刻tの観測変数xtを導き出すパラメータφを有する認識モデル(近似事後確率分布)の式であり、H(A)は、Aのエントロピーを示す。つまり、ELBO値Luは、観測変数ytから導き出される観測変数xtの近似事後確率分布におけるELBO値Llの期待値と近似事後確率分布qφ(xt|yt)の期待値の和を示している。

【0036】
さらに、学習部5は、ラベルデータ系列Dlに対し計算したELBO値Llと、アンラベルデータ系列Duに対し計算したELBO値Luとを加算することにより、下記式(9);
【数9】
JP2019212159A_000011t.gif


を用いて目的関数Jを計算する。上記式(9)中、右辺の第3項は観測変数xtの周辺尤度の期待値である。そして、学習部5は、目的関数Jを最大化するように学習モデルのパラメータθ,φの最適化することによってモデル化の処理を実行する。なお、ELBO値Ll,Luがパラメータθ,φに関して微分可能なため、目的関数もパラメータθ,φに関して微分可能である。学習部5は、逆伝搬を介した確率的勾配降下法(Stochastic Gradient Descent)によってパラメータθ,φを最適化することができる。

【0037】
以上説明した実施形態に係るモデリングシステム1によれば、外部変数utに基づいた潜在変数ztの時間的な変化と、その変化に基づいた観測変数xt,ytの時間的な変化をモデリングすることにより、特定の現象における観測値xt,ytのシミュレーションに利用することができる。特に、2つの観測変数xt,ytを含んでモデリングされているので、2つの観測変数xt,ytのうちの片方の観測変数xtの実測値が欠損しやすい状況下であっても、もう片方の実測値ytを用いて学習モデルのパラメータを機械学習によって推定できる。その結果、モデリングの精度を維持することができる。

【0038】
本実施形態では、潜在変数zt、観測変数xt,ytを正規分布として導出している。このようにすれば、生物の連続的な状態等の自然現象を適切にモデリングすることができる。

【0039】
また、学習モデルで用いられる非線形関数はニューラルネットワークを含んで表現されているので、生物成長等の非線形な現象を適切にモデリングすることができる。

【0040】
また、モデリングシステム1には、非線形関数のパラメータθを、観測変数xt,ytの実測値を用いた機械学習により、予め最適化する学習部5を備えている。このような構成により、2つの観測変数xt,ytのうちの片方の観測変数xtの実測値が欠損しやすい状況下であっても、もう片方の実測値ytを用いてパラメータθを効率的に最適化することができる。

【0041】
さらに、学習部5は、観測変数xtの実測値が存在する時刻に対応するラベルデータ系列Dlと観測変数xtの実測値が存在しない時刻に対応するアンラベルデータ系列Duとで異なる演算式を用いてELBO値Ll,Luを計算し、それらを合計した値を目的関数として用いている。これにより、2つの観測変数xt,ytのうちの片方の観測変数xtの実測値が欠損しやすい状況下であっても、もう片方の実測値ytを用いてパラメータθを効率的に最適化することができる。

【0042】
なお、本発明は、上述した実施形態の態様に限定されるものではない。

【0043】
例えば、モデリングシステム1の予測値生成器7が用いる学習モデルは、様々なデータ系列の生成過程を反映したものが採用可能である。

【0044】
上記実施形態のモデリングシステム1は、図5に示すような生成過程を有する学習モデルに対応したモデル化処理及び探索処理を実行してもよい。図5に示す生成過程は、図3に示す生成過程と比較して、状態モデルにおいて、潜在変数dtを離散分布として導出する点が異なる。モデリングシステム1は、上述した実施形態と同様にして、学習部5がモデル化処理を実行し、予測値生成器7が探索処理を実行することができる。このような学習モデルに対応した処理を実行することで、生物の離散的な状態(例えば、生育段階)等の自然現象を適切にモデリングすることができる。

【0045】
また、上記実施形態のモデリングシステム1は、図6に示すような生成過程を有する学習モデルに対応したモデル化処理及び探索処理を実行してもよい。図5に示す生成過程は、図3に示す生成過程と比較して、さらにもう1つの状態モデルが追加され、追加された状態モデルにおいて、潜在変数dtを離散分布として導出する点が異なる。追加された状態モデルでは、時刻tにおける潜在変数dtが、同じ時刻tにおける外部変数vtと、1つ前の時刻t-1の潜在変数dt-1に基づいて生成される。また、観測モデルにおいては、時刻tの観測変数xt,ytが、それぞれ、同じ時刻tの潜在変数ztに加えて、同じ時刻tの潜在変数dtに基づいて生成される。モデリングシステム1は、上述した実施形態と同様にして、学習部5がモデル化処理を実行し、予測値生成器7が探索処理を実行することができる。このような学習モデルに対応した処理を実行することで、生物の離散的な状態(例えば、生育段階)と連続的な状態(例えば、水分状態)等を組み合わせた自然現象を適切にモデリングすることができる。

【0046】
また、上記実施形態のモデリングシステム1においては、第1導出部7aが、外部変数utを用いないで、潜在変数zt-1のみから、潜在変数ztを導出してもよいし、第2導出部7bが、外部変数stを用いないで、潜在変数ztのみから、潜在変数xtを導出してもよいし、第3導出部7cが、外部変数rtを用いないで、潜在変数ztのみから、潜在変数ytを導出してもよい。同様に、図5あるいは図7に示す生成過程に対応する学習モデルが採用された場合も、いずれかあるいは全ての外部変数を用いないで各変数が導出されてもよい。

【0047】
以下、本実施形態に係るモデリングシステム1における観測変数の推定精度について評価する。ここでは、図3に対応する学習モデルを欠損値の無いラベルデータ系列Dlを用いてモデル化した場合(以下、「Cont-S」と示す。)、図3に対応する学習モデルを欠損値のあるアンラベルデータ系列Duを用いてモデル化した場合(以下、「Cont-SS」と示す。)、図5に対応する学習モデルを欠損値の無いラベルデータ系列Dlを用いてモデル化した場合(以下、「Disc-S」と示す。)、図5に対応する学習モデルを欠損値のあるアンラベルデータ系列Duを用いてモデル化した場合(以下、「Disc-SS」と示す。)、図6に対応する学習モデルを欠損値の無いラベルデータ系列Dlを用いてモデル化した場合(以下、「2L-S」と示す。)、及び、図6に対応する学習モデルを欠損値のあるアンラベルデータ系列Duを用いてモデル化した場合(以下、「2L-SS」と示す。)の評価結果を示した。

【0048】
図7には、それぞれの場合での算出糖度の誤差の評価値MAE(Mean Absolute Error)、RMSE(Root Mean Square Error)、RAE(Relative Absolute Error)、RSE(Relative Square Error)を示している。このように、欠損値のあるデータ系列も用いてモデル化したCont-SSの場合は、欠損値の無いデータ系列のみを用いてモデル化したCont-Sに比較して、MAEが41%、RMSEが46%低下した。また、その他の生成過程を有する学習モデルについても、同様に、欠損値のあるデータ系列も用いてモデル化した場合のほうが、精度が向上していることが評価された。特に、Cont-SS、DiscSS、及び2L-SSの全てにおいて、RAE及びRSEが1未満となっており高精度が実現できている。

【0049】
図8~10には、それぞれの場合での算出された糖度平均値の時間変化を糖度の実測値と比較して示している。これらの結果から、欠損値のあるデータ系列も用いてモデル化したCont-SS、Disc-SS、及び2L-SSの場合は、欠損値の無いデータ系列のみを用いてモデル化したCont-S、Disc-S、及び2L-Sに比較して、糖度の時間変化に追随できていることが分かった。このように、観測変数に欠損値が生じても相補的なモデル化処理によって潜在空間を適切に表現できており、少量の訓練データによっても高い表現力が維持された学習モデルをモデル化できていることが分かった。
【符号の説明】
【0050】
1…モデリングシステム、3…入力部、5…学習部、7…予測値生成器、7a…第1導出部、7b…第2導出部、7c…第3導出部、dt,zt…潜在変数、rt,st,ut,vt…外部変数、xt,yt…観測変数。
Drawing
(In Japanese)【図1】
0
(In Japanese)【図2】
1
(In Japanese)【図3】
2
(In Japanese)【図4】
3
(In Japanese)【図5】
4
(In Japanese)【図6】
5
(In Japanese)【図7】
6
(In Japanese)【図8】
7
(In Japanese)【図9】
8
(In Japanese)【図10】
9