TOP > 国内特許検索 > タンパク質複合体の会合領域の空間を評価する方法およびプログラムならびに解析装置 > 明細書

明細書 :タンパク質複合体の会合領域の空間を評価する方法およびプログラムならびに解析装置

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第5127037号 (P5127037)
公開番号 特開2008-135019 (P2008-135019A)
登録日 平成24年11月9日(2012.11.9)
発行日 平成25年1月23日(2013.1.23)
公開日 平成20年6月12日(2008.6.12)
発明の名称または考案の名称 タンパク質複合体の会合領域の空間を評価する方法およびプログラムならびに解析装置
国際特許分類 G06F  19/16        (2011.01)
FI G06F 19/16
請求項の数または発明の数 12
全頁数 32
出願番号 特願2007-279664 (P2007-279664)
出願日 平成19年10月26日(2007.10.26)
優先権出願番号 2006291846
優先日 平成18年10月26日(2006.10.26)
優先権主張国 日本国(JP)
審査請求日 平成22年9月14日(2010.9.14)
特許権者または実用新案権者 【識別番号】501167644
【氏名又は名称】独立行政法人農業生物資源研究所
発明者または考案者 【氏名】前田 美紀
個別代理人の代理人 【識別番号】100081422、【弁理士】、【氏名又は名称】田中 光雄
【識別番号】100084146、【弁理士】、【氏名又は名称】山崎 宏
審査官 【審査官】宮久保 博幸
参考文献・文献 国際公開第2005/081166(WO,A1)
国際公開第2005/104654(WO,A2)
前田美紀,蛋白質の会合領域内の非占有空間体積を計算する,第7回日本蛋白質科学会年会プログラム・要旨集,2007年 5月 7日,p.122
前田美紀,蛋白質サブユニット間空間体積の計算とその利用,構造活性相関シンポジウム講演要旨集,2007年11月 8日,第35巻,p.55-56
Eargle, J.,Visualizing the dual space of biological molecules,Computational biology and chemistry,2006年 3月 3日,Vol.30, No.3,p.219-226
Lo Conte, L.,The atomic structure of protein-protein recognition sites,Journal of molecular biology,1999年 2月 5日,Vol.285, No.5,p.2177-2198
Jones, S.,Principles of protein-protein interactions,Proceedings of the National Academy of Sciences of the United States of America,1996年 1月 9日,Vol.93, No.1,p.13-20
調査した分野 G06F 19/10
JSTPlus/JMEDPlus/JST7580(JDreamII)
PubMed
特許請求の範囲 【請求項1】
少なくとも1のタンパク質を含む複数の構造単位からなるタンパク質複合体の1または複数の会合領域の空間を評価する方法であって、
(a)評価対象とするタンパク質複合体の立体構造座標データに基づき、前記タンパク質複合体の構造単位を構成する原子またはアミノ酸残基のうち、前記タンパク質複合体の1または複数の会合領域に存在する原子またはアミノ酸残基を定義する工程;
(b)前記タンパク質複合体の1または複数の会合領域に存在する原子であると定義された原子の座標データまたは前記タンパク質複合体の1または複数の会合領域に存在するアミノ酸残基であると定義されたアミノ酸残基のα炭素の座標データを母点として、前記会合領域の空間を四面体分割して、前記空間内に四面体の集合体を作成し、ついで、前記タンパク質複合体の立体構造座標データに基づいて、前記四面体の集合体が前記構造単位の内部に対応する部分が存在するか否かを判定し、内部に対応する部分が存在する場合、構造単位間空間を含む四面体のみを抽出することによって前記四面体の集合体を精密化して得られる凹多面体で前記空間を記述する工程を含む、会合領域空間の評価方法。
【請求項2】
さらに、
(c)前記凹多面体を構成する個々の四面体の内部に、メッシュ点を三次元的に等間隔に発生させ、ついで、四面体の内部に存在する原子のファンデルワールス半径内に存在するメッシュ点を除外し、残ったメッシュ点を会合領域内メッシュ点と定義する工程;
(d)個々の四面体内部の会合領域内メッシュ点を積算して、前記凹多面体全体に含まれる会合領域内メッシュ点の総数を計数する工程;および
(e)前記凹多面体全体に含まれる会合領域内メッシュ点の総数と、メッシュ点間距離を一辺とする単位立方体の体積とを用いて、会合領域の空間体積を計算する工程を含む請求項1に記載の評価方法。
【請求項3】
前記工程(a)において、
(a-1)評価対象とするタンパク質複合体の立体構造座標データに基づき、前記タンパク質複合体に含まれる全原子の各々について、複合体を形成している状態で第1の溶媒接触表面積を計算し、前記タンパク質複合体の各構造単位が単独で存在する状態で第2の溶媒接触表面積を計算し;ついで、
(a-2)全原子の各々について、第1の溶媒接触表面積と第2の溶媒接触表面積との差表面積を計算し、前記差表面積が所定の閾値以上であるか否かを判定し、前記所定の閾値以上の差表面積を示す原子を、前記タンパク質複合体の1または複数の会合領域に存在する原子であると定義するか、または、全原子の各々について計算された第1の溶媒接触表面積および第2の溶媒接触表面積を用いて、前記タンパク質複合体に含まれるアミノ酸残基の各々について、複合体を形成している状態での第1の溶媒接触表面積と、前記タンパク質複合体の各構造単位が単独で存在する状態での第2の溶媒接触表面積との差表面積を計算し、前記差表面積が所定の閾値以上であるか否かを判定し、前記所定の閾値以上の差表面積を示すアミノ酸残基を、前記タンパク質複合体の1または複数の会合領域に存在するアミノ酸残基であると定義する請求項1または2に記載の評価方法。
【請求項4】
前記工程(b)において、前記母点群の座標データに基づいて、所定の閾値により前記母点群を複数のクラスタに分類し、これら複数のクラスタを別個の会合領域として、複数の会合領域の各々の空間について、四面体分割する請求項1または2に記載の評価方法。
【請求項5】
前記工程(b)において、前記母点群の座標データから作成されるドロネー四面体群のうち辺の長さが閾値以下であるものを抽出することによって会合領域多面体を精密化する請求項1または2に記載の評価方法。
【請求項6】
さらに、(f)前記会合領域内メッシュ点の全てまたは一部のメッシュ点を、単独で、または、前記タンパク質複合体もしくは前記タンパク質サブユニットの立体構造とともに、表示する工程を含む請求項2に記載の評価方法。
【請求項7】
さらに、(g)前記会合領域の空間表面積に対する前記空間体積の比を計算し、この比から前記2つのタンパク質サブユニット間の相補性を判定する工程を含む請求項3に記載の評価方法。
【請求項8】
前記会合領域の精密化前の体積に対する精密化後の体積の比を計算し、この比からタンパク質会合領域の形状を判定する工程を含む請求項5に記載の評価方法。
【請求項9】
工程(c)から(e)までにおいて計算される原子内外のメッシュ点数の比から求められるタンパク質会合空間中の原子占有率を計算する請求項2に記載の評価方法。
【請求項10】
工程(a)および(b)で記述される会合領域多面体の内部にある、水分子など低分子化合物を構成する原子を検出する請求項1に記載の評価方法。
【請求項11】
請求項1ないし8いずれかに記載の会合領域空間の評価方法を、コンピュータに実行させるためのプログラム。
【請求項12】
少なくとも、中央処理装置、外部インターフェース、操作部、表示部および記憶装置を含み、請求項1ないし8いずれかに記載の会合領域空間の評価方法を実行するための解析装置。
発明の詳細な説明 【技術分野】
【0001】
本発明は、タンパク質複合体の会合領域の空間を評価する方法に関する。より詳しくは、本発明は、タンパク質複合体の会合領域の空間体積を計算する方法および会合領域を可視化する方法に関する。
さらに、本発明は、タンパク質複合体の会合領域の表面積に対する空間体積の比から、タンパク質複合体を構成する構造単位間の相補性を判定する方法にも関する。
以下、本書類中では、構造単位とはタンパク質複合体を形成する個々の分子(共有結合で結合した原子からなる一連の構造体)を指す。
【背景技術】
【0002】
タンパク質そのものに対する立体構造研究はこれまでは構造決定が主流であり、「構造ゲノム科学」の進展とともに立体構造の情報が蓄積されている。
タンパク質構造解析に関連するコンピュータを利用した方法開発としては、これまで構造決定のための手法開発、決定された構造の検証方法の開発などが中心であったが、今後は立体構造データを利用・解析し、タンパク質立体構造構築原理などの生物学的意味を見つける研究がますます増加すると考えられる。
特に、単量体中心で解析されてきたタンパク質の構造解析は、今後複合体の研究へと進むと予想されるため、複合体を解析するための新しい方法の開発が必要である。
【0003】
タンパク質複合体とは、少なくとも1つのタンパク質を含む複数の構造単位の会合体であり、構造単位には、タンパク質、低分子化合物、糖類、核酸等の分子が含まれる。すなわち、タンパク質複合体は、複数のタンパク質分子からなるタンパク質多量体、またはタンパク質と、低分子化合物、糖類、核酸等の分子との異種複合体を意味する。
なお、本書類中でタンパク質サブユニットとは、多量体タンパク質の1つの連続したアミノ酸の鎖からなるタンパク質分子を意味すると同時に、多種複合体タンパク質の場合ではそれを構成する個々の連続したアミノ酸鎖をも意味し、単に、サブユニットと表記する場合もある。
【0004】
タンパク質の構造決定に限定されないコンピュータを利用した方法開発としてはドラッグデザインへの応用[特許文献1~5]が早くから行われており、タンパク質-低分子リガンドのドッキング、ドラッグデザインなどのツール、分子(動)力学シミュレーションプログラムは一般に利用されるレベルの精度のものが既に開発されている。
しかし、タンパク質多量体(特に会合面)の解析例がまだまだ少ないことから、分子量の大きいタンパク質多量体の解析ツールはまだ十分ではない。特にタンパク質多量体をシミュレーションするためには、膨大な計算機のパワーが必要であるため、このような方法による会合状態の解析はまだ一般的でない。
【0005】
タンパク質科学の領域では、古くからタンパク質の相互認識は相互作用表面の相補的な形によると考えられている。この相補的という単語には、物理化学的相補性と形状相補性の2つの意味が含まれる。
タンパク質-タンパク質相互作用の検出については電荷の相補性など物理化学的相補性についての先行研究は数多くあるが、タンパク質多量体におけるタンパク質サブユニット間の会合面の相補性を評価する方法としては、X線結晶学者が利用している形状相補性(Shape Complementarity; SC)プログラム以外一般に公開されていない[非特許文献1]。
このSCプログラムは、2つのタンパク質表面上に法線ベクトルをそれぞれ設定し、2つの法線ベクトルの一致性を検出するものであるが、結果がタンパク質の表面形状に依存するという問題があった。
【0006】

【特許文献1】特許第3256307号明細書
【特許文献2】特許第2621842号明細書
【特許文献3】特許第3669704号明細書
【特許文献4】特許第3747048号明細書
【特許文献5】米国特許第6727100号明細書
【非特許文献1】Lawrence MC, Coleman PM. J. Mol. Biol. 234, 946-950 (1993)
【非特許文献2】Chothia C. J. Mol. Biol. 105, 1-12 (1976)
【非特許文献3】Eisenberg D, McLachlan AD. Nature 319, 199-203 (1986)
【非特許文献4】Raschke TM, Tsai J, Levitt M. Proc. Natl. Acad. Sci. USA. 98, 5965-5969 (2001)
【非特許文献5】Lee B, Richards FM. J. Mol. Biol. 55, 379-400 (1971)
【非特許文献6】Maeda M. J. Mol. Graph. Modell. 19, 543-551 (2001)
【非特許文献7】Maeda M, Minaka N. "Evolutionary and structural estimation of ligand binding domain of steroid hormone receptors." Keystone symposia 2000, macromolecular assembly at work: Application of physics, chemistry and mathematics to biology (C5) (Feb. 2000)
【非特許文献8】Ponstingl H, Henrick K, Thornton JM. Proteins: Struct. Funct. Genet. 41, 47-57 (2000)
【非特許文献9】奥清高、伊藤正文、野口文雄、小林秀彦、「VRMLを用いた双晶形態の可視化」: http://www.apc.saitama-u.ac.jp/~chemsoft/314.html
【非特許文献10】Eargle J, Luthey-Schulten Z. Computational Biology and Chemistry. 30, 2219-226 (Jun. 2006)
【非特許文献11】Jones S, Thornton JM. Proc. Natl. Acad. Sci. USA. 93, 12-20 (Jan. 1996)
【非特許文献12】“The Chemist's Companion: A Handbook of Practical Data, Techniques, and References”, ed. by Gordon AJ and Ford RA, A Wiley-Interscience Publications. 1972, pp108
【非特許文献13】Laskowski RA. J. Mol. Graph. 13, 323-330 (1995)
【発明の開示】
【発明が解決しようとする課題】
【0007】
タンパク質複合体の構造解析には、その構造単位間の会合状態を判定することが不可欠であり、そのためには、構造単位間の相補性を表す指標が必要である。しかしながら、上記のごとく、現在、個々の構造単位の表面形状に依存せずに構造単位間の相補性を高い精度で表す指標が存在しない。
かくして、本発明の課題は、タンパク質複合体における構造単位間の相補性を高精度で表すための新たな指標およびその測定方法を提供することにある。
【課題を解決するための手段】
【0008】
そこで、本発明者は、タンパク質複合体を構成する構造単位間の会合領域の空間を高精度で記述し、この空間の形状から構造単位間の相補性を評価する方法を開発した。
本発明の評価方法は、概略、タンパク質複合体の会合領域を定義する工程(1)および定義された会合領域空間を四面体分割により作成した四面体の集合体を精密化して、凹多面体で記述する工程(2)を含む。
【0009】
本発明の工程(1)において、タンパク質複合体の会合領域を定義するためには、会合領域に存在する原子またはアミノ酸残基を抽出する必要がある。例えば、1の構造単位に含まれる原子と別の構造単位に含まれる原子との間の距離を計算し、この距離が所定の範囲にあるとき、それらの原子を会合領域に存在する原子として抽出することができる。
【0010】
タンパク質複合体における構造単位間の相補性は、会合面の形状相補性以外にも、静電相互作用、疎水性相互作用などが関与していると考えられる。
本発明者は以前よりタンパク質多量体の会合面の解析を行ってきた。マウス四量体カルボニル還元酵素(1CYD)の解析結果より、電気的相補性として検出できる水素結合や塩橋は会合面の周辺部位に存在しており、会合面中央部分には広く電気的な相補性のない部位があることが明らかとなった。この電気的相補性のない部位にはフェニルアラニンなど環状アミノ酸が多く存在しており、疎水性相互作用を含む空間充填効果があると考えられた。
【0011】
一般に、タンパク質多量体中の2つのタンパク質サブユニットが会合するドライビングフォースは疎水性相互作用であると考えられている。この疎水性相互作用の大きさは会合領域の溶媒接触表面積(後述)と相関することが知られており、その強さは約25cal・mol-1・(Å2)-1であると報告されている[非特許文献2~4]。
水中ではタンパク質分子の周囲には水和水が存在し、単量体で存在する場合はその全周囲に分布するが、複数のサブユニットが会合することで、会合領域に存在する水和水がリリースされ、これが疎水性相互作用の要因であると考えられている。
【0012】
タンパク質分子の表面上、水などの溶媒が接触可能な領域の面積は、溶媒接触面積(accessible surface area; ASA)と定義されている[非特許文献5]。ASAとは、溶媒分子を球として近似し、原子または分子などの構造要素に溶媒分子球を接触させながら移動させたとき、その溶媒分子の中心点の軌跡が描く面の面積を意味する(図1)。水分子の場合は通常、球の半径を1.4Åとすることが多い。
【0013】
本発明者は、以前に、タンパク質多量体のサブユニット間の会合に寄与するアミノ酸残基を決定するために、遊離構造と二量体構造との間のASAの差を利用する方法を提案している[非特許文献6、7]。サブユニット間の会合面を特定するための同様の方法は、全く同時期に英国のグループも発表している[非特許文献8]。
【0014】
本発明の工程(2)において、第1段階で、多様な形状の凹部を有するタンパク質複合体の会合領域の空間を凸多面体である四面体の集合体で記述する。次に、第2段階で、タンパク質複合体の構造単位と空間的に重複する四面体を除外することによって前記四面体の集合体を精密化して、より高い精度で会合領域空間に適合する凹多面体を作成する。
ある点群から四面体分割により、凸多面体は一意に決まるが、タンパク質複合体の会合領域は凹凸が多く存在し、全体として凹多面体の空間であるため、単純に四面体分割のみで処理するだけでは不十分である。
凸多面体を四面体分割する場合、点群と分割方法が定義されると、必ず一つの四面体の集合体を定義できるが、凹多面体を四面体分割する場合には、凹部の存在位置を判定する工程を付加する必要がある。すなわち、点群を単なる点の集合体として捉えた場合、凹部の判定は困難になる。
1つの解決法は、凸多面体の集合体として凹多面体を定義することである。一例として、双晶形態における凹多面体を複数の凸多面体の和として取り扱う研究が挙げられる[非特許文献9]。この方法では、凹多面体である双晶の形状を定義するために凸多面体である単晶の和で表現している。すなわち、単晶を凸多面体として記述し、この凸多面体を対称軸周りに回転させた2つの多面体の和として双晶を定義する。しかし、このような方法では、多様な形状の凹部を有するタンパク質複合体の会合領域の空間を描画することはできない。
一方で、ここで視点を変えてみれば、点の属性が異なればその属性を利用することで凹部の記述が可能となる。本発明では、点群の各点に対して、その点が属する構造単位情報を対応させることで、分割された四面体が各構造単位内、構造単位間のいずれに属するかという質的な情報を付加した。この付加情報を利用することで、構造単位間のみを記述する集合体の定義を行うことに成功した。
このような工夫により、本発明の手法によれば、一組のタンパク質複合体の原子座標に属する点群が定義されれば、必ず1つの会合領域を記述する凹多面体を定義することができるため、有利である。
【0015】
本発明の評価方法は、さらに、前記凹多面体の体積を計算し、これを会合領域の空間体積とする工程(3)を含む。
タンパク質多量体におけるタンパク質サブユニット間の会合領域の空間体積は会合によって排除される水分子の数と関連すると考えられるため、会合領域の空間体積が小さい程、疎水性相互作用が大きくなると考えられる。例えば、同一のサブユニット対が会合する形が複数予想される場合であっても、会合の様式が異なると会合領域の空間体積が異なる(図2)。
したがって、タンパク質複合体の構造単位間の相補性の指標として、会合領域の空間体積を導入することは有用である。
【0016】
非特許文献5~7に記載の方法を適用すれば、会合領域の溶媒接触表面積を求めることができるが、会合領域の空間体積を定義することはできない。
理論上、物体の表面積が一定であっても、物体の形状が扁平になるにつれ、その物体の体積が減少し、表面積に対する体積の比率は小さくなる。同様に、体積が一定であっても、物体の形状が扁平になるにつれて、その物体の表面積は大きくなり、表面積に対する体積の比率は小さくなる。つまり、体積/面積比をとることにより、会合表面の大きさによらない規格化が行える。
【0017】
以上のことから、本発明では、構造単位間の会合領域の空間体積に加えて、空間体積と溶媒接触面積の比(体積/面積比)によって、会合領域における相補性を評価する。
会合領域の空間が扁平であることは、構造単位間の平均距離がより小さいことを意味し、より相補性が高いことを示す。表面構造の凹凸が合致する構造は、単位面積あたりの空隙部体積が小さくなるという原理による。このような観点からタンパク質会合面の相補性を詳細に解析した例はこれまでにない。
【0018】
例えば、ドロネー分割を使ったタンパク質の会合領域に関して、サブユニット間の空隙(会合領域と分子内ポケットの両方を含む)を検出して可視化する方法が報告されている[非特許文献10]。しかしながら、この方法は、空隙の体積を計算することを意図せず、構造単位間の相補性を評価するものではない。
その他、後述するgap index[非特許文献11]は類似の概念として提案されているが、非特許文献11では、値の大小で相補性の大小を言及するのみであって、各々の会合表面の形によるバイアスを考慮していない。
【0019】
本発明者は、タンパク質複合体を構成する構造単位の表面間距離が小さいということは2つの構造単位の対応する表面形状が相補的かつ近接できる構造をとっていることになると考え、2つの構造単位間の相補性を表すために分子表面間距離という指標を導入した。この結果、SCプログラムとは異なり、表面形状によらない客観的な尺度でタンパク質表面の相補性を検出することができる。
【発明を実施するための最良の形態】
【0020】
本発明において、まず、対象とするタンパク質複合体の立体構造座標データをX線結晶構造解析により作成するか、または、公開されたタンパク質立体構造のデータベース(例えば、The Protein Data Bank (PDB; http://www.rcsb.org/pdb/))から入手する。
本発明において、タンパク質複合体に含まれる全原子の座標データを用いて解析することが理想的であるが、一般に、X線結晶構造解析ではほとんどの水素原子の位置が特定されない。そこで、以下の解析においては水素原子の位置を仮定しないで、位置情報の特定される非水素原子について解析を行う。しかし、中性子線回折によるデータのように水素の位置まで特定された精度の高い座標が利用できる場合は、水素を考慮した解析が可能である。
ホモロジーモデリングなどの方法によって予測されたタンパク質の立体構造についても本方法は適用可能であるが、以下の解析結果と照合する場合は水素原子を除いた構造を用いることが望ましい。
対象とするタンパク質複合体の立体構造座標に基づいて、構造単位間の会合領域を可視化し、会合領域の空間体積を計算するためのアルゴリズム(図3)は、以下のステップからなる。
【0021】
ステップ1:会合領域の表面上に存在するアミノ酸残基の定義
本発明において、特定のアミノ酸残基が会合領域の表面に存在するか否かは、複数の構造単位が複合体を形成している状態で計算した溶媒接触表面積と構造単位の座標のみを単独で抽出した構造(仮想単体構造)で計算した溶媒接触表面積との差(ΔASA)に基づいて判断する。
【0022】
溶媒接触表面積は、種々の方法で計算することができるが、ここでは、Leeらの方法[非特許文献5]に準じた方法で溶媒接触表面積を計算する原理を説明する。
図4には、溶媒接触表面積の測定対象となる原子Aおよび原子Aと結合している原子Bが描写されている。実際には原子Aには複数の原子が結合していることが多いが、本図では簡便化のため、2つの原子について図示する。便宜上、原子Aの中心点を三次元座標の原点とする(図4A)。
まず、XY平面に平行な面で、原子Aと原子Bの結合体をΔZ刻みで分割して、n枚のスライスを作成する。図4Bに、原子Aのi番目のスライス(スライスi)に原子Bが接触している状態をZ軸方向からみた上面図を示す。
原子Aと原子Bが重ならない部分の角度(Δθ)を求め、原子Aの半径と溶媒球半径の和とΔθから原子同士の重なりのない弧の部分の長さLiが求まる。このLiとΔZとの積(Li×ΔZ)を求め、これをスライス表面積Aiとする。スライス1からスライスnまで同様の操作を行い、Aiの総和を求めることによって、原子Aの溶媒接触面積ASAを計算する。
【0023】
対象とするタンパク質複合体の立体構造座標データに基づいて、複合体状態での原子の溶媒接触表面積(ASAcomp)および構造単位を単体として抽出した構造における原子の溶媒接触表面積(ASAmono)を全原子について個別に計算する。複合体形成によって生じるASAの差(ΔASA = ASAmono - ASAcomp)を原子ごとに算出し、設定した閾値以上のΔASAを示す原子を会合領域の表面上に存在する原子と定義する。
原子a1、a2、a3、a4、およびa5からなる分子Aと、原子b1、b2、b3、b4、およびb5からなる分子Bから複合体Xが形成される場合の定義方法を例示する。図5に、分子A、分子Bの単体構造および複合体構造の模式断面図を示す。
複合体Xの状態において、分子Aの原子a1についてASAを計算し、これをASAcomp (a1)とする。また、分子Aの単体構造中の原子a1についてASAを計算し、これをASAmono (a1)とする。図6に示す斜線領域の球殻の表面積が、それぞれ、ASAcomp (a1)およびASAmono (a1)である。
つぎに、複合体X形成による原子の差表面積(ΔASA)を次式により求める。
ΔASA(a1) = ASAmono(a1) - ASAcomp(a1)
ここで、ΔASA(a1) 閾値のとき、原子a1は会合領域に存在すると判定する。
同様の手順で、他の原子についても会合領域に存在するかどうかを判定する。
【0024】
このようにして、タンパク質複合体に属する全ての原子についてASAを計算し、アミノ酸残基ごとに属する原子についてのASAを集計した値をアミノ酸残基の溶媒接触表面積ASA(res)とする。単体構造での溶媒接触表面積ASAmono(res)と複合体構造での溶媒接触表面積ASAcomp(res)から差表面積ΔASA(res)を求め、ΔASA(res) 閾値のとき、そのアミノ酸残基は会合領域に存在すると定義する。
【0025】
ステップ2:会合領域空間の記述
ステップ1で定義された原子の座標情報に基づき、会合領域空間を四面体分割する(図7)。会合領域空間を四面体分割する方法として、空間分割に適用されるいかなる方法も用いることができるが、最終的にサブユニット間空間形状を精密化するためにはドロネー四面体分割をする必要がある。そのため、ここでは、ドロネー四面体分割を用いて、会合領域空間を記述する原理を説明する。
【0026】
本発明において、タンパク質を構成するアミノ酸残基の主鎖および側鎖に存在する全原子を対象としてΔASAを検出するため、会合領域の表面上に存在する全原子を用いて空間を記述することが望ましいが、高い精度を望まなければ、アミノ酸残基のα炭素(Cα)の座標をそのα炭素原子が属する残基の代表座標として、空間を記述することもできる。この場合は会合部位をアミノ酸の座標単位で定義する。
【0027】
図7Aに、会合領域の表面上に存在すると定義されたアミノ酸残基原子を示す。これらの点を母点とし、ドロネー四面体分割により、会合領域空間を四面体の集合体として表現する(図7B)。この状態では、四面体の集合体は凸多面体であり、作成された四面体がタンパク質サブユニットの構造と重複する領域が多く存在する可能性がある。
そこで、計算精度を上げ、同時に計算時間を短縮するために、各点が属する構造単位(サブユニット)に関する情報を基にして、構造単位内部領域と重複する四面体を除外し、四面体の集合体(凸多面体)が会合領域に適合するように精密化して凹多面体を作成する(図7C)。この凹多面体を多面体1とする。
【0028】
次に多面体1を構成する四面体のうち、辺の長さが閾値以上であるものを含む四面体を削除することでさらに凹多面体をさらに精密化する(多面体2)。辺の長さで四面体を削除するために各辺は最短位置にある2点を結ぶ直線である必要があるため、多面体2を作成する場合はドロネー四面体分割で多面体を定義する必要がある。
以下のステップ3の段階は多面体1および多面体2の両方を一括して多面体として扱い、同様に計算を行う。
【0029】
ステップ3:会合領域の空間体積の計算
ステップ2で精密化された多面体(凹多面体)を構成する各々の四面体の内部に、単位体積を有するメッシュ点を等間隔で発生させる。
まず、精密化された多面体から1個の四面体を選出する(図8A)。つぎに、選出された四面体全体を内包し、XYZ軸に平行な辺からなる直方体を定義する(図8B)。このとき、四面体の各頂点は、前記直方体を構成する面のいずれかに含まれる。
この直方体内に等間隔(r)の走査線を作り(図9A、B)、走査線上に等間隔(r)でメッシュ点を発生させる(図9C)。この操作により、直方体内部全体にXYZ方向に等間隔なメッシュ間隔(r)でメッシュ点を発生させることができる。
【0030】
つぎに、発生させたメッシュ点が四面体の内部に存在するか否かを判定する。この判定において、各走査線と四面体表面との交点を求め、交点の間に存在するメッシュ点が四面体内部に存在するにメッシュ点であると判定する。
【0031】
走査線と四面体表面との交点は、以下のようにして検出する。
まず、四面体の特定の面(三角形)を構成する3つの頂点座標からこの3点を含む平面の式(一般形:ax+by+cz+d=0)を得る。次に、この平面と走査線(y=m、z=n)の交点を求める。
【0032】
上記手順で得られた、平面と走査線の交点の座標が、平面に含まれる三角形の内部にあるかどうかを判定する。図10に示すように、点Q(ここでは平面と走査線の交点に対応する)が三角形Pの3つの頂点のうちの2つと点Qを結んだ線分のなす角∠PQP(12,i3)を計算する。
計算された3つの∠PQPの角度の和を計算し、その和と2πを比較し、下記の分類に従い、点Qが三角形の内部に存在するか外部に存在するかを判定する。
A.交点Qが三角形P内に存在する場合(図10A)
JP0005127037B2_000002t.gif
B.交点Qが三角形P外に存在する場合(図10B)
JP0005127037B2_000003t.gif
同様の操作を他の3面についても行い、特定の走査線と四面体表面との交点を特定する。
【0033】
上記手順で得られた走査線と四面体の交点(Q,Q)の数と座標から四面体と走査線の関係を下記のとおり判定する。
交点が1つでその座標がメッシュ点の座標と一致した場合、そのメッシュ点は四面体内部にあると判定する。
交点が2つでそれらの交点のX座標がともにメッシュ点よりも大きいか小さい場合、メッシュ点は四面体外部にあると判定する。
交点が2つあり、1つの交点のX座標がメッシュ点よりも小さく、他方の交点のX座標がメッシュ点よりも大きい場合、メッシュ点は四面体の内部にあると判定する。
交点が3つ以上ある場合は、走査線が三角形の辺かいずれかの面に含まれることになるため、該当する辺あるいは面上にある点を内部と判定する。
【0034】
このようにして、四面体内部に存在するメッシュ点を特定し(図11A)、これらのメッシュ点のうち、会合領域に存在する原子のファンデルワールス半径(rvdw)内に含まれるものを除外し、残ったメッシュ点を会合領域内メッシュ点とする(図11B)。
このとき、計算量を減らすため、メッシュ点と会合領域近辺原子の関係を調べ、会合領域近辺に存在する原子のみに対して上記操作を行う。すなわち、各原子の座標が四面体を含む直方体から全方向に対応する原子のrvdwだけ大きくした直方体に原子の座標が含まれるか否かのチェックを行う。座標点が直方体の内部にある場合のみ、引き続きその原子のrvdw内に四面体内のメッシュ点を含むか否かのチェックを行い、会合領域内メッシュ点を得る。
【0035】
精密化された多面体を構成する全ての四面体について、同様の手順を実行し、精密化された多面体全体に含まれる会合領域内メッシュ点を計数する。メッシュ点1つに対してメッシュ点間距離を1辺とする立方体の単位体積を対応させ、会合領域内メッシュ点の総数と単位体積との積を求めることによって、会合領域の空間体積を計算することができる。
【0036】
また、上記会合領域内メッシュ点を適当な間隔で抽出し、それらの座標を適当な方法でフォーマット変換することにより、モデリングプログラムで可視化する。前記メッシュ点は、適当な可視化プログラムを使用してタンパク質立体構造と共に表示することができる。
【0037】
さらに、タンパク質複合体の構造単位の相補性を評価することができる。この相補性のパラメータとして、上記で得られた会合領域の空間体積と、ステップ1で得られた会合領域の溶媒接触表面積(ΔASA)との比(体積/面積比)を用いることができる。
【0038】
あるいは、タンパク質会合領域の形状を評価することができる。ここで、タンパク質会合領域の形状とは、会合領域の空間の平面様形状からの離れ具合を意味する。
この形状のパラメータとして、多面体1から算出された精密化前の会合領域の空間体積(I: Initial polygon volume)に対する多面体2から算出された精密化後の会合領域の空間体積(E: Extracted polygon volume)の比を用いることができ、本発明において、前記比をE/I比と定義する。
E/I比は、平面曲線の曲率や、空間内の曲線がどの程度平面曲線から離れているかを表す捩率に相当する概念である。すなわち、会合面がコンパクトにまとまった構造であるならば、多面体1と多面体2の体積の比であるE/I比は1に近くなり、例えば、らせんのようにねじれた形である場合、E/I比は0に近づく。
【0039】
本発明による会合領域空間の評価方法は、コンピュータ、例えば、図28に示される解析装置に、
(a)評価対象とするタンパク質複合体の立体構造座標データに基づき、前記タンパク質複合体の構造単位を構成する原子またはアミノ酸残基のうち、前記タンパク質複合体の1または複数の会合領域に存在する原子またはアミノ酸残基を定義する工程;
(b)前記タンパク質複合体の1または複数の会合領域に存在する原子であると定義された原子の座標データまたは前記タンパク質複合体の1または複数の会合領域に存在するアミノ酸残基であると定義されたアミノ酸残基のα炭素の座標データを母点として、前記会合領域の空間を四面体分割して、前記空間内に四面体の集合体を作成し、ついで、前記タンパク質複合体の立体構造座標データに基づいて、前記四面体の集合体が前記構造単位の内部に対応する部分が存在するか否かを判定し、内部に対応する部分が存在する場合、重複部分を含む四面体を除外することによって前記四面体の集合体を精密化して得られる凹多面体で前記空間を記述する工程を実行させるプログラムを用いることによって、達成される。
【0040】
本発明に用いることができる解析装置10は、少なくとも、中央処理装置11、外部インターフェース12、操作部13、表示部14および記憶装置15を含む。
中央処理装置11は、コンピュータにさまざまな演算を実行させる演算装置および命令を解読して演算装置に送ることや、コンピュータ内の各装置の動作のタイミングを制御することを行う制御装置を含む。
外部インターフェース12は、データベースまたは外部機器20からの情報の伝授を行う。これにより、対象とするタンパク質複合体の立体構造座標データを公開されたタンパク質立体構造のデータベースからネットワーク経由で入手することができ、または、X線結晶構造解析システムと接続して、個別に作成されたタンパク質複合体の立体構造座標データを入手することもできる。
操作部13は、キーボード、マウス等の入力装置であり、これら入力装置を介して、下記の実施例に記載の各種パラメータを入力することができる。
表示14は、ディスプレイ装置を意味し、外部インターフェースから取り込んだタンパク質複合体の立体構造座標データに基づき、タンパク質複合体の全体、その構成単位を個別に、可視化し任意の角度で表示することができる。また、会合領域の空間を記述する四面体の集合体や、メッシュ点を、単独またはタンパク質複合体もしくは構造単位とともに表示することができる。これにより、オペレーターは、会合領域の空間を目視により確認することができる。
記憶装置15は、本発明の評価方法を実行するためのプログラム、可視化するためのモデリングプログラム、各種パラメータ、入手したタンパク質複合体の立体構造座標データ等を記憶し、必要に応じて、それらの情報を中央処理装置11に送り、さらに、中央処理装置11による演算処理後のデータを記憶することができる。
本発明の解析装置10には、上記の装置のみならず、外部記憶装置やスキャナインターフェースなどの他の装置を使用目的に依存して付加することもできる。
【0041】
本発明のプログラムは、外部記憶装置に格納し、ここから、電気通信回線を通じて提供して、本発明の解析装置10の中央処理装置11または記憶装置15にインストールして実行することもできるし、フロッピー(登録商標)ディスクやCD-ROMなどのコンピュータ読取可能な記憶媒体に格納し、これらの記憶媒体を本発明の解析装置10のプログラム読取部を介して実行することもできる。
【0042】
実施例1:デフォルト値の決定
(1)溶媒接触面積の計算における刻み値ΔZ
溶媒接触表面積(ASA)の計算精度は、刻み値ΔZに依存して変化する。ΔZの違いによる1CYDのASAの変動を図12A、図12B、図12Cに示す。図12Aは1CYDの四量体(天然型)、図12Bは1CYDのAB二量体(仮想構造)、図12Cは同AD二量体(仮想構造)について計算した結果である。
ΔZが0.005Åでの値が収束値であると仮定すると、いずれの結果においても、ΔZの値が0.35Å以下で誤差が0.1%以下に収まる。さらに誤差0.01%以下になる値は、AB二量体では0.06Å以下、AD二量体では0.1以下、四量体では0.15以下であった。
【0043】
したがって、ΔZは0.15Å以下とすることが必要である。この範囲であれば、誤差0.01%以内の計算精度を得られると考えられる。特に好ましい値は、ΔZ=0.06Å以下である。0.06Å以下のΔZ値を使用することにより、誤差精度を0.01%以下に抑えることができる。以上の結果より、構造による若干の幅を考慮して、本発明においてはΔZのデフォルト値を0.05Åとした。
【0044】
(2)四面体分割におけるメッシュ間隔(r)
メッシュ間隔(r)を変化させた場合の体積の計算に与える影響を調べた結果を図13に示す。図13Aは、マウス四量体カルボニル還元酵素(1CYD)のAB会合領域を計算した結果、図13Bは、マウス四量体カルボニル還元酵素(1CYD)のAD会合領域の体積を計算した結果を示す。
【0045】
図13A、図13Bのいずれの結果においても、rが0.4Å以下でほぼ収束した。特に0.2Å以下では0.05Åでの値と比べて誤差0.01%以下となり、完全に収束すると考えられる。
一方で図13A、図13Bのどちらにおいてもrが1.0Åより小さい場合には誤差が1%未満となるので、面積が大きい場合はこの程度の値を使用することもできる。0.05Å以下で誤差がほぼ0.1%以下になるので、計算する体積の違いにもよるが、0.05Å以下の値を使用することが推奨される。
【0046】
一般に溶媒接触表面積を計算する場合の水分子球の半径は1.4Å、共有結合を形成する炭素-炭素間距離は1.45~1.55Åであることから[非特許文献12]、0.2Åという値は分子を対象とする場合、十分小さいと考えられる。
これらの結果から、本発明において、メッシュ間隔(r)のデフォルト値を0.2Åとした。
【0047】
(3)多面体1から多面体2への精密化時に四面体を削除する辺の閾値
多面体1を多面体2へと精密化するときにドロネー分割で得られた四面体のうち、閾値よりも長い辺を持つ四面体を削除する手順を踏む。この閾値を0~20Åの間で変化させて、空間体積として得られる値の変化を検討した。
【0048】
会合面が比較的扁平でまとまった形をしている1AMK(PDB番号)では8Å以上で体積はおおよそ同じ値となった。そこで具体的な閾値を決定するために、8Å、10Å、12Å、14Åを閾値としたときに得られる多面体2について、各辺が分子表面より外部に露出する程度を検討した。
【0049】
1AMK(コンパクトな会合面)、1AJS(U字形の会合面)および1FIP(ねじれた会合面)の3つのタンパク質立体構造で検討を行ったところ、8~10Åの閾値を採用すれば、いずれのタンパク質構造においてもほとんどの辺が分子表面外に観察されなかった。
これらの結果から、本発明において構造精密化時に四面体を削除する辺の閾値は10Åとした。
【0050】
実施例2:タンパク質複合体の会合領域の可視化
短鎖型脱水酵素/還元酵素ファミリに属するマウス四量体カルボニル還元酵素(1CYD)に本発明の方法を適用して、会合領域の可視化を行った。1CYDは、図14に示すように、天然でホモ四量体構造をとり、全体で2種類の会合面を有する。ここでは2種類の会合面を特定するため、それぞれAB面およびAD面と称する。会合面では、サブユニットの同じ面同士が対向している。
【0051】
1CYDの立体構造座標データをThe Protein Data Bank (PDB; http://www.rcsb.org/pdb/))から入手した。
この立体構造座標データに基づいて、1CYDの溶媒接触表面積(ASApoly)および計算機上で作成した単体構造での溶媒接触表面積(ASAmono)をそれぞれ計算した。
溶媒接触表面積の計算は、刻み値ΔZを0.05Åとして、Leeらの方法[非特許文献5]に準じた方法で実行した。
得られたASA値を基にして、各原子についてΔASAを求め、ΔASAが1.0Å以上の原子を会合領域の表面上に存在する原子として定義した。
【0052】
つぎに、定義された原子の座標情報に基づき、ドロネー四面体分割を用いて、AB面およびAD面について会合領域を四面体の集合体(多面体)として表現した(図15)。
多面体を構成する各四面体について、会合領域内メッシュ点を決定した。会合領域内メッシュ点を100個に1つの割合で抽出し、1CYDの立体構造と共に表示した(図16)ところ、メッシュ点は2つのサブユニット間の空間を充填するような形で分布することが確認された。
【0053】
実施例3:不連続な会合領域空間を有するタンパク質複合体の評価
タンパク質の中には会合面が不連続なものが存在する。そのようなタンパク質複合体の例を図21に示す。図21ではΔASAが0.1以上のアミノ酸残基の分子表面について、片方のサブユニット上の会合領域を曲面で示している。例えば1AJS、1AMK、1FIPでは全体としての会合表面は連続しているものの、図21A、図21B、図21Cで示すように領域の一部が欠けている。1E3M、1EK9では、図21D、図21Eに示すように完全に分離した領域が複数個存在する。
これらのタンパク質複合体の会合領域空間の四面体分割の結果を見ると、四面体の辺が長いものが多数含まれ、このような四面体によって本来の会合空間ではない領域が多面体として記述されていた(図22B、図22C)。
本発明において、四面体分割により会合領域空間を四面体の集合体として表現し(図7B)、さらに四面体の頂点原子座標が2つのサブユニットをまたいで分布するように精密化するが(図7C)、前述の方法だけでは会合部位が連続的な領域として認識され、会合原子が不連続に分布するタンパク質複合体の場合では精密化が不十分であることが分かった。
【0054】
そこで、最初の多面体を構成する四面体のうちで余分な空間を記述するものを除去し、サブユニット間の空間のみを抽出するアルゴリズムが必要となる。タンパク質の会合領域が常に連続的か離散的かの2種類である場合は当該原子配置によるクラスタリングを行い、クラスタごとに会合領域を計算することが可能である。しかし、図21に示すように、タンパク質の会合面は必ずしもその2種類に分類できるわけではない。そこで、どのような形状であっても、同一の処理ができるアルゴリズムを採択する必要があった。
【0055】
ここに、四面体分割のアルゴリズムがドロネー分割である必然性がある。任意の多面体を四面体分割するアルゴリズムはいくつも考えられるが、ドロネー分割の場合は得られた四面体の辺が最短の2つの母点を結んでいるという数学的性質がある。そのため、個々のドロネー四面体単位で会合領域内に含まれるか否かを判定することができる。
そもそも四面体は会合領域を記述するために設定されたものであるので、その位置から直接的に内外判定することはできない。しかしその定義より、サブユニット間の会合面間空間は水分子を排除する程度に近い距離であるはずなので、再近接原子間の距離が長いものは会合領域を記述しているとは言えない。そこで、ドロネー四面体の一辺がある閾値以上の場合にその四面体は余分な領域を含むと判定する。
【0056】
1AJS、1AMK、1FIP、1E3Mおよび1EK9の2つのサブユニットについて、四面体の最長辺の長さの閾値の変化による計算体積の変化を図22および表1に示す。表1の値は最初の精密化工程で計算された体積と比較した、閾値を変化させたときに計算された体積の値の割合(カバー率)を示している。比較的会合面がコンパクトになっている1AMKでは閾値を10Åに設定すると、四面体の除去を行わない場合に算出される空間体積部分の93%がカバーされる。一方で、サブユニットの表面積に比べて会合領域が小さい1E3Mや1EK9では、20Åの閾値の場合でもカバー率は全体の2割前後であり、このようなタンパク質の場合にはサブユニット間四面体を選択するという精密化工程のみでは不十分であることがわかった。
【0057】
【表1】
JP0005127037B2_000004t.gif

【0058】
そこで、表1に示すタンパク質構造について8~14Åの範囲でタンパク質構造と精密化処理後の多面体の形状を目視にて判断したところ、閾値を8~10Åとしたときに立体構造上に描画した分子表面の外側に多面体を構成する四面体がほぼなくなった。この結果と表1に示すカバー率の結果より、四面体精密化カットオフのデフォルト値を10Åとした。
【0059】
一例として1FIPと1E3Mの精密化前後の多面体の形状について描画したものを図23に示す。図23Aと図23Bはカットオフ前の多面体、図23Cと図23Dは10Åでカットオフした後の多面体である。このようにして、ドロネー四面体分割によって得られた多面体から長辺をもつ四面体を削除することによって、会合部以外の余分な領域を含む四面体が除去できた。
このようにして閾値以上の辺を含む四面体を除去する処理によって、不連続あるいは離散的な会合領域を統一した基準で評価できた。
【0060】
また、10Åで再精密化後に計算された会合領域体積の再精密化前の計算値に対するカバー率(表1の値)と図21で示す会合表面の形状を比較したところ、割合の高い1AMKは比較的連続したコンパクトな形状であるのに対し、割合の低い1E3Mや1EK9は会合領域が離散的あるいは細長く伸展した形状になっている。1AJSおよび1FIPは1E3Mや1EK9に比較するとコンパクトな形ではあるが、1AJSでは会合領域がU字形になっており、また1FIPではらせん状となっているなど、再精密化をしない場合では余分な領域を含みやすい形状となっている。
このことから精密化前の多面体の体積(I: Initial polygon volume)に対する精密化後の多面体(E: Extracted polygon volume)の体積の比(E/I比)が、タンパク質の会合領域の形状、あるいはタンパク質サブユニットの全表面積に対する会合面の割合と関連した値となっており、この比の値は会合面のまとまり具合を示す指標として利用できると考えられた。
【0061】
そこで、種々の会合領域形状を持つタンパク質について、E/I比を算出した(表2)。目視により確認した会合領域の形状との相関性を調べたところ、E/I比が0.4程度までは、ほぼ平たい多面体の形状をしていることが確認できた。E/I比が0.4より小さくなると、たわんだ形になったり、ねじれた形になったりというような形状の多様性が確認された。
これらのことから、E/I比を平面からのずれのパラメータとして用いることの有用性が示された。
【0062】
【表2-1】
JP0005127037B2_000005t.gif

【0063】
【表2-2】
JP0005127037B2_000006t.gif

【0064】
【表2-3】
JP0005127037B2_000007t.gif

【0065】
【表2-4】
JP0005127037B2_000008t.gif

【0066】
実施例4:短鎖型脱水酵素/還元酵素ファミリに属する多量体タンパク質
短鎖型脱水酵素/還元酵素ファミリに属する複数の多量体タンパク質について、本発明の方法により会合領域空間の溶媒接触表面積および体積を計算した。
【0067】
(1)複合体型によるΔASA値、SV値およびSV/ΔASA値の違い
この実施例で用いたタンパク質は、天然で二量体を形成する群と天然で四量体を形成する群に分類される。各タンパク質複合体の立体構造座標データをThe Protein Data Bank (PDB; http://www.rcsb.org/pdb/))から入手し、これらの立体構造座標データに基づいて、実施例2と同様に、サブユニット会合領域の表面積および空間体積を計算した。
二量体を形成するタンパク質についての計算結果を表3に示し、四量体を形成するタンパク質複合体についての計算結果を表4に示した。
【0068】
二量体を形成するものは、1DIRを除きいずれのタンパク質も1CYDではAB面に対応する部位(図14参照)で会合し、二量化していた。
四量体を形成するものはいずれも1CYDでのAB面、AD面の2つの面が主要な相互作用面であったが、2つの面に比べて小さいながらも対角線関係にある2つのサブユニット間(1CYDではサブユニットAとCの間にある図14に示すAC領域)にも2つのサブユニットの残基が接触している部位があった。
【0069】
表3、表4の各カラムは、会合面のカラムで示す2つのサブユニット間のΔASA値、全原子を母点として求めた空間体積SV(all)値、アミノ酸残基のCα原子のみを母点として求めた空間体積SV(Cα)値、2種類の空間体積値の比SV(Cα)/SV(all)、SV(all)/ΔASA値、同じタンパク質構造中でのSV(all)/ΔASA値の平均値を示している。
【0070】
例えば、表3の1A4U、1B14、1B15、1B16の4つの立体構造はいずれもショウジョウバエ(Drosophila lebanonensis)由来のアルコール脱水素酵素の構造であるが、4つの構造は各々酵素単独の構造、補酵素との二者複合体、補酵素+アセトンの三者複合体、補酵素+ペンタノンの三者複合体である。
同一の酵素の立体構造であるにも関わらず、SV/ΔASA値は最大の1A4Uと最小の1B14では0.164Åの違いがある。この酵素の場合はリガンドを結合しない場合に最も会合面ΔASA値が大きく、リガンドが結合することで、おそらくはリガンド周りに微少な構造変化が起こり、ΔASA値が小さくなると考えられる。
同時に空間の体積も小さくなるが、SV/ΔASA値はむしろ小さくなり、構造変化に伴いサブユニットがより近づいていることがわかった。
【0071】
同様に、四量体酵素では1AHH、1AHIおよび1FMCの3つはいずれも大腸菌由来の7α-ヒドロキシステロイド脱水素酵素の構造である。1AHHは補酵素のみを結合した構造であるのに対して、1AHIと1FMCは補酵素と7-オキソグリコケノデオキシコリン酸(7-oxo glycochenodeoxycholc acid)の3者複合体である。
実際に、1AHH、1AHIおよび1FMCのAB/CD面のSV/ΔASA値を見ると、1AHIと1FMCは約1.48であるのに対して、1AHHは約1.40であり、わずかではあるがリガンド結合の結果会合面の状態が変化していることがわかる。
顕著な違いが見られるのはAC/BD面(1CYDでのAC面に対応する)であり、1AHIと1FMCが7程度のSV/ΔASA値であるのに対して、1AHHでは13になる。ΔASA値と比較すると2つの構造に比べて1AHHでは対角線の位置にあるサブユニットの接触が減少することがわかった。
【0072】
上述のように同じタンパク質の立体構造であってもリガンドの結合の有無などの状態に起因する微少な構造変化を本方法により検出することができた。
【0073】
また、1AHH、1AHIおよび1FMCのような対角関係のサブユニット間の空間の変化はリガンド結合とよく関係しているが、それ以外の面は、同じ酵素であれば構造変化に伴う若干の変動はあるものの、ほぼ同程度の値となるので、SV/ΔASA値は会合面特有の値となると考えられる。
【0074】
(2)会合タンパク質サブユニット数に依存した天然条件下での安定会合面積の範囲
図17は、表3、表4で示すタンパク質構造についての会合領域の空間体積と表面積との関係を示す。
各々の値はおおむね比例関係を示し、会合面積が増加すると空間体積も増加する傾向が見られた。点の分布を見ると、ΔASAが2500以上(区分1)、1000以上2500未満(区分2)、500以上1000未満(区分3)、500未満(区分4)の4つのクラスタに分かれた。
【0075】
このうち最も値の大きい区分1に含まれる6つの面は全て二量体の酵素であり(表3)、二量体の中でも1DIRの会合面は四量体の多数の面が属する区分2に含まれた。
【0076】
最もΔASAの小さい区分4に含まれる10つの面は、四面体の対角線上の配置にあるサブユニット間の領域(図14におけるAC領域に対応)であり、これらの領域はサブユニット会合への寄与は小さいと考えられる。区分3に含まれる2つの面も四量体の対角線上に位置するサブユニットであるが、これらは他の対角領域と比べてはるかにΔASAが大きく、隣接するサブユニット間の結合以外に対角面での結合の効果が生じ、四量体としてより安定な構造をとると考えられる。
【0077】
大多数の面が含まれる区分2は、四量体酵素の場合にサブユニットが会合するために必要な大きさの会合面の範囲であると考えられる。四量体酵素の場合は隣接する同種会合面(例えばAB面とCD面)が同時に結合に関与するため、この範囲の会合面の大きさがあれば十分であると推定される。
一方で、二量体でΔASAが区分2の範囲に含まれる酵素(1DIR)は、他の二量体酵素の会合面の面積よりも小さい。したがって、1DIRは他の二量体酵素と比べてゆるい会合をしている可能性があるが、SV/ΔASA比は他の二量体より小さく、形状相補性の高さで表面積の小ささを補っていると考えられる。
【0078】
(3)天然多量体における標準的なSV/ΔASA値の範囲
図18は表3、表4で示すタンパク質構造についての会合領域の表面積(ΔASA)と空間体積/表面積比(SV/ΔASA)を示す。
SV/ΔASA値はΔASA値が500以上(上記区分1~3に対応)でほぼ一定の範囲に分布している。
そこで、上記区分1~3に含まれる面を選択し、タンパク質ごとに平均値を算出した後、その代表値に対して平均値(μ)と標準偏差(σ)を計算したところ、それぞれμ=1.695、σ=0.254であった。
【0079】
このSV/ΔASA値が正規分布に従うと仮定して、μとσの値からμ±3×σの値を計算すると0.933、2.457となり、この値に対応する位置を図18に破線で示す。ΔASAが小さい対角関係のサブユニット間の面以外はすべてこの範囲に含まれ、少なくとも短鎖型脱水素/還元酵素においては天然の会合面のSV/ΔASA面はこの範囲に含まれると結論した。
【0080】
このようにして、従来の指標だけでは識別することができなかった会合領域の相補性が、本発明の方法を適用することによって評価することができた。
【0081】
実施例5:四面体分割における母点群
所定の閾値以上のΔASAを示す全原子の座標を四面体分割の母点とすることが望ましいが、計算したいタンパク質複合体の大きさによっては母点の数を減らす必要があることも想定される。
その場合の近似的方法として(1)会合表面に存在する原子を抽出する際のΔASAの閾値を上げる方法、(2)原子点群の代わりに所定の閾値以上のΔASAを示すアミノ酸残基のCα原子のみを母点群とする方法の2つが考えられる。
【0082】
(1)ΔASAの閾値の検討
種々のタンパク質多量体について、ΔASAの閾値を1.0Åとしたときの会合領域表面積を基準として、ΔASAの閾値を変化させたときの会合領域表面積の変化率(カバー率)を図19に示した。
ΔASA値の閾値を1Åずつ増加させるにしたがって、タンパク質の種類や同じタンパク質であっても会合面によって、カバー率減少の割合が異なることが解る。しかしながら、いずれのタンパク質においても最初の値から減少した。
【0083】
特に、1AHHのBD面では閾値を4Åにすると領域の体積が0になった。表4に示すとおり、1AHHのBD面はΔASAの値がもともと小さく、閾値を上げることでこの部位におけるコンタクト状態が検出できなくなることを意味する。
また、計算機上の計算時間としても、Pentium(登録商標) M 2GHzのコンピュータで計算した場合においても実用レベルの時間で計算が終了するため、巨大複合体を計算する場合を除き、閾値を上げるメリットはないと結論した。
【0084】
(2)母点としてのCα原子の適用
残基単位でΔASAを計算した場合、差のある残基の代表座標としてCαの位置を使用できる。
【0085】
図20に、SV(all)値に対してSV(Cα)/SV(all)比をプロットしたものを示す。
SV(Cα)/SV(all)比の平均は1.127、標準偏差は0.229であり、ほとんどの場合においてCα原子のみを母点とした場合の方が、全原子を母点とした場合に比べて若干大きい値となることがわかった。
一方で、この比の値を二量体、四量体の別、会合面の大きさ別で集計したところ、2000を超えるSV(all)値を示す会合面では、比の平均値が1.057、標準偏差が0.129となり、この範囲であればほぼ同程度の値を得ることができた。
【0086】
この誤差の存在を知っていれば、場合によってはCαを母点とする近似法を利用することができる。しかし、図20に示すようにこの比の値はもとの会合面積が小さい場合に非常に大きな誤差を生じるため、会合面積が小さい場合には使用すべきではない。
【0087】
【表3】
JP0005127037B2_000009t.gif

【0088】
【表4】
JP0005127037B2_000010t.gif

【0089】
実施例6:精密化前後のSV値の比とタンパク質会合空間の形状の関係
実施例5では同一のタンパク質ファミリに属するタンパク質についての解析を行った。同一のタンパク質ファミリにおいては個々のサブユニットの立体構造の折れ畳みは基本的なところでほぼ同じであるので、会合領域の形状もおおよそ似通っていると考えられる。実施例5で用いられたタンパク質群は会合領域内に水分子が存在せず、比較的平たいタンパク質の表面のみで結合している例であった。しかし、タンパク質全般では、会合領域内に水分子が存在する、あるいは会合領域がねじれているといった様々な会合形状をとっている。このうち会合領域の平面からの変形の程度を精密化前後のSV値によって評価できる。
【0090】
先に会合表面の形状を示した1AJS、1AMK、1FIP、1E3Mおよび1EK9の5つのホモ二量体を例とする。精密化前後の体積比(カットオフ10Åの場合)は表1に示すカットオフ値を10とした時のカバー率に対応する。この時、会合領域が連続的である1AJS、1AMKおよび1FIPの3構造は、会合領域が離散的である1E3Mおよび1EK9に比べて精密化前後の体積比が大きい。これは、図23BおよびDで示すように、会合領域が離散的である場合、カットオフなしで計算される体積値が余分な空間を多く含むことに由来する。
【0091】
次に、比較的大きな体積比を示す1AJS、1AMKおよび1FIPに着目すると、1AMKでは会合表面上に凹凸はあるが、ねじれは少ない。一方で、1FIPでは片方の鎖の一部が片方の鎖の一部を包み込むような形状になっている。1AJSについても同様に片方の鎖の構造の一部を他方の鎖が巻き込んでいる。このように、連続的な会合表面であっても、精密化前後の比が1に近いものとそうでないものは形状が区別でき、特に1に近いものは会合領域の形状が平面に近いと判定できる。
【0092】
実施例7:既存の評価パラメータとの関係
(1)SV値とgap volumeの相違およびgap volume/SV値
タンパク質の窪みを可視化する既知の方法としてはLaskowskiのSURFNET[非特許文献11]がある。この方法によりタンパク質サブユニット間の空間も計算でき、求められた体積はgap volumeと呼ばれる[非特許文献11]。
SURFNETは、分子のファンデルワールス(VdW)表面を定義し、この表面に接する種々の大きさの球を発生させ、その総和として空間を定義する。これを単一の分子に対して計算すれば分子表面の窪みの大きさが計算でき、複数の分子に対して計算すれば分子表面以外に分子間の空隙(gap)の大きさが計算できる。Ponstinglらのホモタンパク質データセットについて計算した例のプロットを図24Aに示す。また計算値の一部について表5に列挙する。計算された全データの値のうち、gap volume/SV値の最も高かった構造は1BIFであり、最も低かったものは2ILKであった。
【0093】
【表5】
JP0005127037B2_000011t.gif

【0094】
図24Aならびに表5に示すように、本方法によるSV値とgap volume値の間には相関は見られるものの、ほとんど一致しない。その要因は3つある。
第一に、その原理からSURFNETは球の充填できる隙間を検出する。最初に大きめの仮想球がテストされ、仮想球の表面が原子のVdW表面と重なる場合は半径を小さくしていき、該当する半径の球を採用する。仮想球の半径が1.0Å以下になった場合は無視されるため、表面間の距離が2.0Å以下である場合、空間はSV値として計算されるが、gap volumeの体積としては計算されない。そのためサブユニット表面同士が接近している構造の場合には、gap volumeはSV値に比べて小さくなる(例:表5の2ILK)。
【0095】
第二に、会合領域の定義が異なる。会合領域の周囲はタンパク質が存在しない空間である。そこでどこまでを会合領域として定義するかが体積値に影響する。本法により定義される会合領域は縁部分に存在する会合表面原子の中心点をつなぐ多角形であるのに対して、SURFNETによって定義される領域はタンパク質に接する球面で外界と区別される。SURFNETのアルゴリズムで定義される会合領域は縁原子を結ぶ線より外側に出ることが予想されるため、内部の形状がどちらのアルゴリズムによっても左右されないような形状である場合、SURFNETによって計算される体積の方が大きくなると考えられる。
【0096】
第三に、会合表面に分子内窪みがあった場合、この窪みが仮想球の充填できる大きさ以上であると、SURFNETではgap volumeの一部として検出する。一方で、本検出方法では精密化過程でサブユニット間にのみ位置する四面体を抽出しているため、会合表面にある分子内窪みは体積として加算されない。そのため、会合面上に一定の大きさ以上の窪みがある場合は、gap volumeはSV値に比べて大きくなる(例:表5の1BIF)。
以上のことから、相補性指標として体積/面積値を利用する場合、厳密に会合領域を計算しているSV値の方がgap volumeよりも有利である。
【0097】
このように、SURFNETと本方法では基本的にタンパク質サブユニット間の空間を可視化できるものの、得られる空間の体積は異なるものである。これらの値を利用すると、会合空間の形状が指標化できる。
つまり、gap volumeとSV値の大小関係が形状によって異なることを利用して、gap volumeとSV値の比(gap volume/SV値)をとることにより下記の性質を数値によって判定できる。すなわち、gap volume/SV値が、(1)1未満の場合、2つのタンパク質の会合表面は近接しており距離2.0Å以下の部分が多い。(2)1付近の場合、会合面に大きな窪みはない。(3)1よりかなり大きい場合は、会合面に無視できない大きさの窪みがある。表5の例でもわかるようにSV値は全体としてgap volumeよりも小さくなる。これは会合領域の辺縁部において本方法で計算するよりも広く体積を定義することによると考えられる。
【0098】
タンパク質の会合部位形状を数値で判定できるようになれば、多数の検体の処理が可能になる。例えば、ドラッグデザインで最初に対象となるタンパク質が決まっている場合は、そのタンパク質の構造からターゲット部位を選択すればよい。一方で、ある系のいずれかのタンパク質をターゲットとすればよいという場合に、gap volume/SV値の高いものを選択すれば、会合表面部位に大きな窪みがあるタンパク質を探すことができるようになる。
【0099】
(2)SV/ΔASA値とSC値の関係
タンパク質会合表面の形状の相補性に関する指標の1つはSC値である[非特許文献14]。この値は会合表面上に多数の点をとり、その点での法線ベクトルと対応する相手方会合表面の点での法線ベクトルの角度と点間距離から算出される値のメジアン値で示される。Ponstinglらのタンパク質データセットを用いてSC値を計算し、SV/ΔASA値との関係を調べたものが図24Bである。
図24Bに示されるようにSV/ΔASA値とSC値の間には相関関係は見られなかった。したがって、同じ表面形状の相補性を示す指標であっても、SC値とSC/ΔASA値は完全に独立した指標であり、別の観点から形状を評価する方法として、同時に利用できることがわかる。
【0100】
実施例8:原子の空間占有率の計算と会合領域内水分子の検出
(1)サブユニット会合領域原子の空間占有率
工程(a)~(b)により定義された多面体内部にある点を、工程(c)~(e)により分子内外の判定を行い、内部および外部の点の数を積算し、その比をとることによって会合領域での原子の空間占有率(以下、「原子占有率」と略する場合がある。)を計算することができる。
表6に示す37個のホモ二量体構造を使用して会合領域での原子占有率を計算した。これらのデータセットにおける原子占有率の平均値は51.35%、標準偏差は3.81%であり、天然タンパク質においては平均値周辺を最適値とするパッキングがされていることがわかった。
【0101】
(2)分子内部領域原子の空間占有率
ある方法で定義された分子内部領域が四面体の集合体である多面体として記述されている場合、その多面体の母点とエッジ情報を入力として用いることにより、実施例7に記載の手順と同様の手順で原子占有率を計算することができる。
【0102】
(3)サブユニット会合領域内水分子の検出
タンパク質の会合領域には、2つの表面の間を水素結合で安定化する水分子があることが知られている。このような水分子を検出するために、上記で定義した多面体領域が利用できる。
工程(a)~(b)により定義された多面体を構成する個々の四面体について、PDBファイルに含まれる水分子の座標が四面体の存在場所が内部か外部かを以下の手順で判定し、会合領域で安定化に関与していると推定される水分子を検出する。
【0103】
すなわち、ある点が四面体の内部にある場合、その点は四面体を構成するいずれの面に対しても残る1つの頂点と同じ側にある。そこで、四面体の4つの面の全てについて、水分子の座標残る頂点からの法線ベクトルを計算し、4つの法線ベクトルの向きが全て同じである場合に水分子は内部にあると判定する。同様に水分子以外の低分子化合物を構成する原子についても同様の方法で会合領域内部にあるものを検出できる。
この方法で検出した水分子の数を表6に示した。解析に用いた38例のうち、水分子の最小数は0、最大数は50、平均値は11.5、標準偏差は13.9であった。サブユニット間の原子占有率と比べて、最適値というものはなく、個々の会合領域に特異的な値となることがわかった。
【0104】
【表6】
JP0005127037B2_000012t.gif

【産業上の利用可能性】
【0105】
ドラッグデザイン分野では、以前は活性部位において基質と競合することで活性阻害する視点でのデザインが主流であったが、最近は、タンパク質の会合する部位にくさびとなる低分子化合物を挿入することで、タンパク質複合体が活性型の配置をとることができなくするというコンセプトでのドラッグデザインも行われるようになってきている。
本方法はタンパク質サブユニット間の空間を可視化でき、このような薬物候補物質が入り込めるような空隙を検出することができ、上記のような新方面でのドラッグデザインにおいて有用なツールとなるであろう。
【0106】
また、現在、様々なタンパク質の会合体を予測する方法が国内外で開発されているが、これらの方法はX線結晶構造解析で得られた構造を再現できるかどうかで評価されている段階である。今後、複合体構造が未知であるタンパク質の会合体予測を行う時代になると考えられるが、タンパク質-タンパク質複合体の確からしさを示す指標はまだ確立されていない。本発明の方法を用いて、天然タンパク質の会合状態を示すことで、タンパク質-タンパク質予測複合体の構造妥当性の評価をする指標の1つとして使用することができる。
【0107】
さらに、タンパク質に低分子リガンドをドッキングさせる方法についての発明、研究論文の報告はかなり蓄積されてきたが、シード探索(データベースからタンパク質の構造にマッチするものを検索する)後の、リード最適化(シードの側鎖を改変してより良いものを設計する)では空間を目で見て側鎖を経験的に付加していくことが多い。本発明の方法を用いて、空間をメッシュで表示すれば、実際にシード周辺にどの程度の大きさのポケットが残存するかを可視化することができ、また入力に少し改変を加えれば部分的な空隙の体積を測定することができる。
【図面の簡単な説明】
【0108】
【図1】分子上の溶媒接触表面積を説明する概念図。
【図2】タンパク質サブユニット会合の様式を示す概略図。
【図3】タンパク質複合体の会合領域の空間を評価するための本発明によるアルゴリズム。
【図4】溶媒接触表面積を計算する手順を説明する概念図。
【図5】2分子の単体構造および複合体構造の模式断面図。
【図6】単体構造および複合体構造での原子の溶媒接触表面積を示す概略図。
【図7】会合領域に存在する原子の座標をもとに四面体分割により空間を定義する方法を説明する概念図。
【図8】四面体内部にメッシュ点を発生させる手順を説明する概念図。
【図9】四面体内部にメッシュ点を発生させる手順を説明する概念図。
【図10】四面体内部に存在するメッシュ点を特定する方法を説明する概念図。
【図11】会合領域内メッシュ点を特定する手順を説明する概念図。
【図12】溶媒接触面積の計算における刻み値ΔZの影響を示すグラフ。
【図13】会合領域体積に対するメッシュ間隔(r)の影響を示すグラフ。
【図14】1CYDの天然ホモ四量体構造。
【図15】1CYDの会合領域を四面体の集合体として記述した図。
【図16】1CYDの会合領域をメッシュ点で可視化した図。
【図17】タンパク質複合体の会合領域の表面積と空間体積との関係を示すグラフ。
【図18】タンパク質複合体の会合領域の表面積と空間体積/表面積比との関係を示すグラフ。
【図19】種々のタンパク質複合体について、会合領域に存在する原子を定義するための閾値と定義された原子のカバー率との関係を示すグラフ。
【図20】四面体分割のための母点として全原子を用いた場合とアミノ酸残基のα炭素のみを用いた場合の比較。
【図21】二量体タンパク質の会合表面形状の例。
【図22】多面体を構成する四面体の最長辺のカットオフ閾値を変化させたときに、再精密化後の計算値の初期精密化時の値に対するカバー率。
【図23】不連続な会合領域を有するタンパク質複合体の会合領域の空間記述の具体例。
【図24】多数のホモ二量体タンパク質について既存の評価値(gap volumeおよびSC値)とSV値およびSV/ΔASA値の関係を示すグラフ。
【図25】タンパク質複合体の会合領域の空間を評価するための方法を実行するための解析装置の概略図。
【符号の説明】
【0109】
1・・・タンパク質分子、
2・・・水分子、
3・・・溶媒接触表面、
4・・・会合領域空間、
5・・・タンパク質多量体のサブユニット対、
10・・・解析装置、
11・・・中央処理装置、
12・・・外部インターフェース、
13・・・操作部、
14・・・表示部、
15・・・記憶装置、
20・・・データベースまたは外部機器。
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11
【図13】
12
【図14】
13
【図15】
14
【図16】
15
【図17】
16
【図18】
17
【図19】
18
【図20】
19
【図21】
20
【図22】
21
【図23】
22
【図24】
23
【図25】
24