ニフクラ ブログ

ニフクラやクラウドの技術について、エンジニアが語るブログです。

ニフティクラウド異常!? サーバーと通信できない事象が発生した場合

お久しぶりです。主にニフティクラウドの運用に携わっているキュウエです。 業務上の立場から、ニフティクラウドへの技術的な問い合わせに関して相談を受けることが多々あります。

そのお問い合わせについてですが、「お問い合わせ窓口」は受付から回答までお時間を頂戴する場合があり、お客様には大変申し訳ないことと痛感しております。

そこで今回は、暫定対処も含めてサービスを継続させるためにお客様側で実施できることを、ニフティクラウドのコントロールパネルの特性を解説しながらご紹介したいと思います。

「ニフティクラウド異常!?サーバーに通信できない事件」と題して、実際にあった事例と解決例を紹介します。

「サーバーに通信できない!」

「サーバーに通信できなくなった」という場合、以下のパターンがございます。

  1. サーバー作成後、初めての接続ができない
  2. これまで正常稼働していたサーバーに接続できない

まず上記 1. についてですが、パブリッククラウドではSSH経由の通信で利用するものが多く、ニフティクラウドでもこのSSH接続を利用します。初回利用時には、このSSH接続に関するお問い合わせを受けることが多いです。

初回起動時の注意点はニフティクラウドFAQを「SSH」で検索すると以下の様な項目が出てきます。 ここでは詳細については説明いたしませんが、まずはこのFAQをご参考頂ければと思います。

続いて 2. についてですが、これまで正常なシステム稼働やサーバーへのSSH接続が行えていたものが、「突然できなくなった!」というお問い合わせです。 原因については様々考えられますが、本番環境で発生した場合にお客様のサービスに影響を及ぼす可能性がございます。

本記事では 2. のパターンについて説明いたします。

コントロールパネルのステータスと接続

サーバーに接続できなくなった原因は、お客様オフィス内ネットワークの物理的・論理的な変更や、仮想サーバー内の設定変更、ニフティクラウドのファイアウォール設定やファシリティなども含めて、数多くの可能性が考えられます。

以下に、コントロールパネルにて「ステータスが "!" マークになっている」「ステータスがくるくる回ったままになる」となってしまうことから推測される「突然接続できなくなった原因」を記載いたします。

このようになってしまう原因のひとつに「サーバーの高負荷」が挙げられます。何かが引き金となって高負荷が発生し、各種アプリケーション用のプロセス、SSHプロセス、そしてニフティクラウドのコントロールパネルと密接に関する「vmware-tools」のプロセスなどが落下したことが突然サーバーに接続できなくなった原因であると考えられます。

vmware-toolsとは

ニフティクラウドの仮想化基盤はVMwareを採用していますが、これにより各仮想サーバー内にvmware-toolsというツールがインストールされています。このvmware-toolsを介してニフティクラウドコントロールパネルからさまざまな操作が出来るようになっています。

vmware-toolsはLinuxOS内でひとつのプロセスとして実行されており、このプロセスが高負荷によって落下してしまうと、コントロールパネル上のサーバーのステータスが以下の様になります。

  • 「ビックリマークになる!」

konpane

  • 「くるくるのままになる!」

kurukuru1

※※上記例は実際に負荷をかけたわけではなく、他のお客様に影響を与えないようにvmware-toolsを直接停止させた結果です※※

基本的にはvmware-toolsのプロセスであるvmtoolsdは自動実行の設定となっており、意図的に停止したり、Kernelのアップデートをする以外では落下することはありません。その為、今回のシチュエーションではvmtoolsdが停止した原因はサーバー負荷によるものが高いと推測できます。 vmtoolsdが停止するとニフティクラウドコンパネからサーバーの停止と再起動が不可能になります。また、vmtoolsdだけでなくSSHなどのプロセスも停止し、SSH接続が不可能となってしまったと考えられます。

対処方法

今回のような「サーバー高負荷によってvmware-toolsやsshが停止してしまった」状態での対処手順は以下が考えられます。

  1. コンソールからOSにログインし原因を確認する。
  2. 上記 1. が不可能な場合、OSの再起動を実行する。

1. についてはニフティクラウドのコンソールを利用し、OS上の状況を確認してください。良くある状態として「OOM Killerが走っている」「fsckが実行されている」などが確認される場合もございます。 ※その対応についてもご案内したいところですが、今回はOS上のトラブルついては割愛させていただきます。

ニフティクラウドのOSでは初期状態でrootパスワードが設定されておりませんので、初回ログイン時にrootに関わらずユーザーとパスワードを設定していただくことをお勧めします。

また、パスワードを設定していない場合はシングルユーザーモードでログインし、設定していただく必要がございます。シングルユーザーモードでのログインは以下のFAQをご参照ください。

また、有志に作成していただいたパスワードを設定する為の初期化スクリプトもございます。サーバー作成時・再起動時にコントロールパネルで設定すると便利です。

いざという時に初めてニフティクラウドコンソールを使っていただく際に、「対象のブラウザがない」「社内の外部接続要件が厳しい」といった理由で使用に時間が掛る場合もあります。

私もそうですが、いざトラブルが発生した場合、普段利用しないツールなどは選択肢に入れたくないですよね。 事前にコンソールで出来る操作の確認や、お客様の環境で動作する条件を揃えて頂くことをお勧めいたします。

    1. についてですが、「前節で、『再起動が不可能になる』って書いてあるじゃないか!!」 と思うかもしれませんが、vmware-toolsが止まってる場合でも「強制停止」が可能です。

こちらについてはOS内のシャットダウンではなく、お客様の仮想マシンに対して強制的に停止をかけることができます。

  • 強制停止

kurukuru3

  • 通常停止する場合はエラーになる

kurukuru2

これによって、コンパネがビックリマークになっても停止と起動が実行できます。

原因究明に時間が掛ると想定される場合は、再起動は一つの手段です。ぜひご活用ください。

まとめ

今回はニフティクラウドコンパネで見える状態から障害を推測し、その対処方法の一例を紹介いたしました。 上記に記載した通り、強制再起動は切り分けが行き詰った時やサービスの再開が急務の場合における最終手段です。

まだサービス開始前の場合でしたら、ニフティクラウドコンソールを使って実際にOSの状態を確認し、原因を調査することをお勧めします。

その他、ニフティクラウドでは今回の事例を含めて過去の問い合わせがFAQとして数多くまとまっています。 今回の事例の補足として役に立つものをいくつか記載しておきます。

今回のようにニフティクラウドコントロールパネルを確認、操作することで、障害復旧を迅速に進めることが可能です。まだご利用になったことのない方は、ぜひ事前に色々触って見て頂ければと思います。

もちろん、ニフティクラウド側に異常が発生している可能性もございます。
その際は、ニフティクラウドトラブル対応窓口に試してみた操作や切り分けを記載の上、ご連絡ください。
ニフティクラウドのサポート部隊が迅速に調査と対応を実施させていただきます。