構造生物 Vol.5 No.1
¶1999年4月発行

PFのタンパク質結晶構造解析データ収集のためのセキュリティを持つコンピュータネットワークシステム


佐々木教祐(名大情文)、渡邉信久(高エネ物構研)、坂部知平(筑波大TARA)、 坂部貴和子(名大理)


 1999年3月発行のJ. Synchrotron Rad. の6巻116〜118頁に、"Computer network system with security for a protein data collection system at the Photon Factory" というタイトルでTARAネットワークについて記述した論文が掲載されたのでその内容とその後の変更およびBL6Cに設置予定の自動データ収集システムの計画についても報告したい。

1.はじめに

 最初のタンパク質結晶構造解析データ収集は、20 x 40 cm2 のイメージングプレート(IP)と巨大分子用ワイセンベルグカメラを組み合わせて1986年PFのBL6Aに建設されました(Sakabe, 1991)。このシステムではFuji BA100がIP読取装置として使われ、コントロールにはパソコンPC9801を使い、データはオープンリールの磁気テープに保存されていました。ユーザはそれらのテープを研究室に持ち帰り処理していましたので、データの安全性について心配する必要はありませんでした。1996年には同じ大きさのIPを読みとることができる新しいIP読取装置Fuji BAS2000がBL6Aに導入され蛋白結晶データ収集に使われています。

 1993年、BL18Bが2番目の蛋白質結晶用のステーションとしてつくられました。ここには巨大分子用ワイセンベルグカメラとしても使うことができる時分割ラウエカメラが設置されました(Sakabe et al., 1995)。ここには、IP読取装置として40 x 80cm2の大型IP用のIPR4080(Sakabe et al., 1997)、すなわち理学株式会社の製品名R-AXIS DS 40Lが2台とBA2000が設置されました。データはIP読取装置のコンピュータのディスクに保存され、ユーザはDATや8mmテープに各自のデータをコピーして研究室に持ち帰っていました。

 1996年、次の蛋白データ収集ステーションBL6BがTARA坂部プロジェクトにより建設され、半径575.7mmのカセット専用のワイセンベルグカメラと2台のR-AXIS DS 40Lが設置されました。このカセットには大型IPが1枚または2枚セットできるようになっていますが、通常は1枚の大型IPを使ってデータ収集をしています。ユーザが2枚の大型IPを使うとデータ量が非常に増加することになります(Sakabe et al., 1997)。同じ時期にPFリングの近くにTARA坂部プロジェクトによりプレハブが建設され、この建物にデータ処理や結晶構造解析のためのコンピュータがたくさん導入されました。これに伴いデータ転送スピードの改良、セキュリティ、大容量データのハンドリングの改良のため実験ホールとTARAハウスの間にプライベートネットワークをつくりました。コンピュータネットワーク構築とその評価について述べるとともにTARA坂部プロジェクトの新しいビームラインBL6Cを含めて論じます。

2.高い信頼性のあるネットワークシステムの構築

 ワイセンベルグカメラやラウエカメラを用いてIP上に記録される強度データは、デジタル画像データとしてディスクに出力されます。1枚の大型IP(40 x 80cm2)のデジタル画像データ量は64MBであり、通常1つの結晶からデータを収集するために20枚以上のIPが使われ、データ量は1GB以上に達します。これらのデータを保存するためにPFリングから35メートルほどの所に建てられたTARAハウス(Fig.1)にDEC社製AlphaServer 4000が導入されました。プライベートネットワークシステムはFig.2に示すようにつくられました。このプロジェクトによって採用されたネットワークシステムの最優先事項は高度なセキュリティをもつシステム作りでした。

 IP読取装置R-AXIS DS 40LからのデジタルデータはNFSを使ってDEC AlphaServer 4000のRAIDディスクに書き込まれます。保存されたデータは日に一度自動的にDLTに書き込まれ、このDLTにバックアップされたファイルは1年間保存されます。各自のデータが何らかの理由で読めなくなったときは、TARA坂部プロジェクトに申し出てDLTからユーザのDATに再書き込みをしてもらえます。RAIDディスクの容量は115GBで全体を1ボリュームとして運用しています。RAIDディスクをNFSマウントした多くのコンピュータで同時に小さな計算がたくさん行われることを考慮して、RAIDは効率、安全性、可用性からレベル5を採用しました。ディスク容量の推定は、RAIDディスク上の最低保存期間を3日としました。ユーザビームタイム期間中、ディスク上のデータはすべて大型IPからつくられるとして、1台のIP読取装置で1枚の大型IPを読むのに12分かかります。そこで1日に120枚のIPが読むことができ、IP読取装置R-AXIS DS 40Lは5台あるので、1日で600枚が処理でき、その量は38.4GBに達します。このように計算すると115GBのRAIDディスクは3日間で完全に一杯になります。このディスクシステムの特長はディスクの一つにトラブルが起こっても自動的に補助ディスクに交換され、故障ディスクはコンピュータを止めることなく交換可能なことです。その上、このプライベートネットワークに接続しているほとんどのワークステーションは、NFSでRAIDディスクと接続しているためデータのハンドリングが非常に便利にできるようになっています。またデータサーバのRAIDディスク上の大容量データを保護するためにセキュリティが必要になります。ネットワークのセキュリティの向上のために、CISCO PIX-32 ファイアウォールが導入されました(Comer & Stevens, 1995)。

 ネットワークのバックボーンの速度向上のために、100Mbpsイーサネットが導入されました。ネットワーク上を流れるデータ量の主なものの1つはR-AXIS DS 40Lから発生する大型IPのデジタルデータです。R-AXIS DS 40Lのドラムの円周は100cmで回転スピードは1秒間に8.33回転です。これからデータの転送速度は、133.3kbytes/secになります。5台の IP読取装置があるのでこれらが同時に動きネットワークにデータを出力すると5.3Mbpsになりますが、この値はネットワークの効率を50%としても10Mbpsイーサネットでは十分ではありません。さらIP読取の間にデータのチェックとデータ処理のためにRAIDディスクから画像処理用のワークステーションに画像が2回転送されます。そのときネットワーク上を流れるデータ量は640MBとなります。ネットワークの効率を50%と仮定するとそれらの画像データの転送にかかる時間は102.4秒が必要です。このように計算すると100Mbpsイーサネットの導入が必要なことが分かります。ネットワークのトラフィックの軽減のために(Comer & Stevens, 1994)、BL18Bに接続するサブネットとBL6AとBL6Bに接続するサブネットの2本に分けました(Fig.2)。このほかにBL6AとBL18BでSUNコンピュータに接続しているBAS2000が2台あります。これらのIP読取装置は20 x 40cm2の小型のIPを読んで、装置付属のコンピュータにデジタル画像データを保存し、すべての処理が終わった時点でftpによりRAIDディスクに画像データを移動しています。これらの画像ファイルの転送は大型IPデータと比較するとそれほどネットワークに影響を及ぼしません。PF実験ホールとTARAハウスの間に光ファイバケーブルが施設され、100MbpsのFDDIで接続されました。100Mbpsスイッチングハブが多量のデータが流れるポイントには設置されています。このネットワークには大型IP読取装置をコントロールする5台のSGI IndyとTARAハウスにあるデータ処理及び構造解析用のための研究室にあるコンピュータも含めて35台が接続されています。このネットワークは高エネルギー加速器研究機構(KEK)のネットワークにCISCO PIX-32を通じて接続されています。

3.結果と討論

 このデータ収集システムは、1997年10月のビームタイムから使われています。権限を持たない人による不正アクセスのトラブルは、PIXファイアウォールを使っているためまだ起きていません。また大型IP読取装置からはNFSを使ってRAIDディスクへ直接デジタル出力されているため、ユーザ自身によるメディアを用いたバックアップによるトラブルは非常に少なくなっています。実験中にデータを他のコンピュータやDATに移す必要が無くなり、放射光の利用効率も高くなっています。国内のユーザはBL6Bでは半日か1日、BL6A/BL18Bでは1日しか占有できませんので効率の向上は非常に重要なことなのです。

 1997年の11月から12月のユーザビームタイムの1日あたりのDLTにバックアップされたデータ量をFig.3に示してあります。1日あたりの最大データ量は約40GBで、すべての大型IP読取装置が24時間稼働したときの計算値に一致する値になっています。この時期のDLT平均バックアップデータ量は1日当たり13GBであり、RAIDディスクに平均1週間データを保存しておくことが可能でした。1998年1月から3月のビームタイムでは1日当たり平均7GBでした。1998年4月から7月では1日当たり平均6GBでした。

 3つの各ビームラインとTARAハウスの6台のワークステーションはNIS/NFSで接続されており、これらすべてのワークステーションにはデータ処理用のソフトウェアがインストールされています。蛋白質構造解析用の一般的なプログラムはTARAハウス内の3台のワークステーションにインストールされています。しかしユーザビームタイム中ではすべてのワークステーションはオンラインデータ解析やDenzo(Otwinowski & Minor, 1996)やWEIS(Higashi, 1989)を用いたデータ処理に使用されており、その他の計算は行われていません。一般的な処理は、まずR-AXIS DS 40Lで読み込んだ画像ファイルデータをRAIDディスクに書き込み、広範なオンラインデータ分析とデータ処理がRAIDディスク上のデータファイルを使って行われます。このようにネットワークシステムの状況はDLT(Fig.3)によるバックアップデータから推測することができ、この情報は将来の進んだネットワークシステムをデザインするために大変役立つものです。DLTにバックアップされているユーザのデータをDATに再生してほしいのと要求は1年間に3回ありました。

 2つのIPカセットを使った完全自動データ収集システム(Sakabe et al., 1997)は、まもなくBL6C(Fig.1)にインストールされます。このシステムのIPカセットは半径400mm、幅450mmの大きさで、IPサイズは2512mm x 450mmであり、1枚のIPからのデジタルデータは226MBになります。このカメラシステムのタイムスケジュールからすると平均的には30分ごとに0.226GBが出力されることになります。このデータ収集システムが1日に24時間稼働すれば、1日あたりさらに10.8GBのRAIDディスク領域が必要になります。データ処理も含めて自動化を目指していますが、データ処理パラメータが適当でない場合や使えない構造因子が生じる場合もあると思われます。特に蛋白質結晶学の画像データは非常に貴重であり、同じ品質の結晶を作れるチャンスはないことから、データの広範な分析や再処理のために画像データをRAIDディスク上に少なくとも3日間は保存しておく必要があります。このような理由からさらに32.5GBのRAIDディスクが必要となります。構造因子まで処理した結果のファイルは、ディスク容量が非常に小さくなり、インターネットを使ってユーザの研究室に送ることができるようにもなります。こうなれば、パターソン図の計算やフーリエ合成図の計算、電子密度図を使って3次元構造のアサイメントや最小自乗精密化などの計算もユーザのビームタイム時間内にこれらのコンピュータを使って行うことができるようになりますので、これらの計算のためにさらに高速のデータ転送が重要事項になってきます。2000会計年度にはさらに高速データサーバをもつ進んだネットワークシステムをつくる計画を持っています。

4.論文後の追加事項と将来計画

 RAIDディスクの容量を115GBで1年間運用したが、容量不足のため何回か保存期間を短縮しなければならないことが起こったため159GBに増やしました。これにより1999年1月から2月のビームタイム期間では最大使用量が7日間保存を維持しても使用ディスクの容量が全体の50%を越えることはありませんでした。

 また、新しく導入される自動データ収集システムでは、データ収集の測定パラメータおよびデータ処理のためのパラメータをRAIDサーバディスクに保存しておき、その後のデータ測定・処理の条件設定に役立てることを考えています。

 このBL6Cに設置された自動データ収集システムは、1つのデータセットを30秒でイメージングプレートに記録することができます。そのデータは30分後にはデジタルイメージとしてコンピュータディスク上にファイルとして自動的に書き込まれます。さらにそのデータは東博士が開発中の自動処理プログラムで処理され、1時間後には反射強度データとなっています。この結晶の構造がある程度推定できていれば、分子置換法などを使った自動構造決定法の開発により蛋白質の構造決定まで進めていくことも可能になってきます。

 また次のようなデータ測定サービスも現実味を帯びてきます。まず結晶と測定条件をユーザから送ってもらいます。そしてユーザからの測定条件に基づいて結晶をマウントし、データ測定を行い、データの自動処理により反射強度データに変換後、ftpサーバに転送するとともにe-mailでユーザに知らせます。ユーザは、ftpサーバから反射強度データを研究室に受け取り、データのチェックをして、データの良し悪しのリポートを送り返すことになります。このこのようなサービスをルーチンに行うことも視野に入れて考えています。実際にサービスを行うとなると、例えばデータを測定する人をどう確保するか、結晶をセットして予備実験の段階で至急ユーザに確認する方法をどうするかなど種々の問題がでてくると思われますので、徐々に体制の整備をしていく必要があると思います。

 今後、新しく導入されるデータ自動収集システムを最大限有効に利用できるコンピュータネットワークも含めたシステム作りを推進していきたいと考えています。

参考文献

  1. Comer, D. E. & Stevens, D. L. (1994). Internetworking with TCP/IP. Vol.II - Design, Implementation and Internals, 2nd ed. Englewood Cliffs, New Jersey: Prentice-Hall.
  2. Comer, D. E. & Stevens, D. L. (1995). Internetworking with TCP/IP. Vol. I -   Principles, Protocols and Architecture, 3rd ed. Englewood Cliffs, New Jersey: Prentice-Hall.
  3. Higashi, T. (1989). J. Appl. Cryst. 22, 9-18.
  4. Otwinowski, Z. & Minor, W. (1996). Methods in Enzymology, edited by C. W. Carter Jr & R. M. Sweet, p. 276. New York: Academic Press.
  5. Sakabe, K., Sasaki, K., Watanabe, N., Suzuki, M., Wang, Z. G., Miyahara, J., Sakabe, N. (1997). J. Synchrotron Rad., 4, 136-146.
  6. Sakabe, N. (1991). Nucl. Instrum. Methods, A303, 448-473.
  7. Sakabe, N., Ikemizu, S., Sakabe, K., Higashi, T., Nakagawa, A., Watanabe, N., Adachi, S., Sasaki, K. (1995). Rev. Sci. Instrum. 66, 1276-1281.


ご意見、ご要望などは下記のアドレスにメールを下さい。
sasaki@tara.met.nagoya-u.ac.jp