- - PR -
ネットワークに問題があると思うのですが・・・
投稿者 | 投稿内容 | ||||||||
---|---|---|---|---|---|---|---|---|---|
|
投稿日時: 2006-01-29 02:11
SIベンダーが話している事にどうしても納得できないので、皆様のご意見を是非いただけないでしょうか。
まず、 A社:(私の会社)アプリケーションベンダー B社:システムを利用しているエンドユーザー C社:B社のSI会社でB社向けに構築したネットワークでA社のアプリケーション動かしている また、下記のようなネットワーク構成でシステムが稼動していました。 ・L3-S/Wからはインターネットへつながっている ・FWとL2SWは、それぞれホットスタンバイで自動的に切り替わるようになっている ・1〜5は全てNICを二重化していましたが、BONDINGがうまく動作しておらず、 実際にNIC1のみで動いていました。 ┌──────┐ │ L3-S/W │ └┬────┬┘ ┌┴─┐┌─┴┐ │FW ├┤FW │ └┬─┘└─┬┘ ┌─┴─┐┌─┴─┐ │L2SW├┤L2SW │ └─┬─┘└─┬─┘ ┌──┼──┬─┴┬──┐ ┌┴┐┌┴┐┌┴┐┌┴┐┌┴┐ │1 ││2 ││3 ││ 4││5 │ └─┘└─┘└─┘└─┘└─┘ 障害の内容 ・1は2〜5と常にアプリケーションレベルで通信を行っていました。 ・突如、1から2の通信で、1から2へ通信できないというようなアプリケーションのエラーでした。 ・1からtelnetで2へはログインでき、PINGも応答がありました。 ・C社はネットワークには何もエラーログなどは出ていなかったといっています。 ・ネットワークに問題ないという前提で、同じ環境を作りましたが、エラーはでませんでした。 アプリケーション的には何も問題がないと思うのですが、何か他に原因が考えられるようであれば、 是非、皆様のご意見をいただけないでしょうか。 | ||||||||
|
投稿日時: 2006-01-29 04:58
こんばんわ.
書かれている情報で, 「通信に支障があった」ということももって 「network に問題がある,application に問題は無い」 と判断する根拠には全くならないと思いますけど. というか,どこに問題があるか判断できる材料が全く書かれていません. むしろ「telnet は正常に機能するのに application で error」ということから, 「network と application,どちらに可能性がある?」 と訊かれれば,「application に問題があるんじゃない?」 と答える流れに思えますが... ちなみに「同じ環境で試した」ということですが, 機器や環境設定は寸分違わず「同じ」なんでしょうか? 「そこまで無理」という話なら,「どこまで同じ?」は結構重要だと思います. | ||||||||
|
投稿日時: 2006-01-29 06:01
こんばんは?
この記述よりネットワークの問題よりもサービスがダウンしているのでは? と疑うのが普通ですが...
とあるので、サービスの形態は解かりませんけど WEBサーバや、DBサーバのコネクション数が上限を超えたとか TCPのコネクションが上限を超えたとかじゃないですかね? 疑問に思ったのですが「アプリケーションに問題は無い」とどうして言い切れるのでしょう? 通常は正常に動作していても、決算時期などに設計時の想定負荷を大きく上回る処理要求が来たとしたら果たして正常に動作するのでしょうか? 障害の起こった状況等をもう少し詳しく説明していただかないと仮定の仮定の・・・ と問題点がなかなか絞れませんね。 ・サービスの形態・構成 ・障害の起こる(起こった)時間帯 ・データの流量(データのサイズとか頻度) ・障害の発生頻度(一回だけなのか再現性があるのか) これだけの情報では障害対応をここの掲示板に丸投げしているのと同じですよ! [ メッセージ編集済み 編集者: 未記入 編集日時 2006-01-29 06:03 ] | ||||||||
|
投稿日時: 2006-01-29 06:54
今与えられている情報ですと、アプリケーションが悪いんじゃない?
と考えてしまいますね。 アプリケーションのログがたよりですが、エラー以外に何か発生していた、 という事はありませんか?また、そのエラーが起こる原因は他になにか考え られないのでしょうか。 | ||||||||
|
投稿日時: 2006-01-29 13:56
皆様
いろいろとご回答いただきありがとうございます。 「同じ環境で試した」というのは、全く同じ環境で行えたわけではありません。 F/WもL2スイッチも冗長化されておりません。 ただし、ネットワーク構成以外は、障害が発生したときと全く同じでテストしました。 たとえば、サーバの時間がずれていたので、同じくらいずらしてみました。 現在はNICのTeamingを解除し、ひとつのNICにすると正常に動作しております。 そもそもNICの冗長化(Teaming)がうまくいっていなかったのにネットワークは正常に稼動していたというのが納得いかないのですが、いかがなのでしょうか。 よろしくお願いいたします。 | ||||||||
|
投稿日時: 2006-01-29 14:39
こんにちわ.
teaming ですか?bonding ではなく? 前者なら device driver 固有の話かもしれませんし, 後者なら Linux の kernel の機能だったりするでしょうし, 微妙に話が違うと思います. で,NIC を冗長化しなければ正常に動くのですね? とすると,冗長化が「どううまくいっていないのか?」が 非常に重要な問題ですが,telnet は正常に使えるのに その application だけ正常に使えないという理解でよろしいのですよね? 検証した際も NIC は冗長化していたのですか? 上位の network 機器はともかく,NIC は冗長化した状態で検証しないと 「application は問題ない」という考えには至る理由が見当たりません. むしろ「NIC の冗長化に対応していない application だから」って オチだったりしないのか?と勘繰ってしまいます. なんとなく「network が悪い」と言わしめるように誘導する気配を感じます. ですが,並べられている状況証拠からむしろ application に不具合が生じているような情報しか読み取れませんが? | ||||||||
|
投稿日時: 2006-01-29 14:52
早速ご返事いただきましてありがとうございます。
C社はBondingだとは言っているのですが、導入する当初はTeamingだときいていました。 現在はNICの冗長化なしで動いているのですが、導入してから2年間はずっと障害は起こっていません。 また、検証した際もNICは冗長化しておりましたが、何の問題もなく動作しました。 他の会社でも冗長化は行っておりますが、問題なく稼動しております。 もし、2のサーバのNICに異常があって、冗長化しているもうひとつのNICに切り替わろうとしたときに、 Bondingの設定がうまくいかずエラーが出たりはしないのでしょうか? Bondingする際にはL2スイッチの設定も必要だったと思うのですが、私の勘違いでしょうか? | ||||||||
|
投稿日時: 2006-01-30 17:00
>teaming ですか?bonding ではなく?
という話はよくわかりませんが、それが原因なら >・1からtelnetで2へはログインでき、PINGも応答がありました。 という話は成り立つのでしょうか? 現象から 1)特定のポートやパケットが、この時だけ切断されるような状況がネットワーク機器 におこった。 2)アプリケーション、1、または2の環境が原因で通信できなくなった。 例)サーバプロセスがおちた、1のOSが管理する空きポート番号がなくなった。 2)のパターンのほうが原因と考えられる要素は簡単に出てきます。 L2SWの状態でそんなにダイナミックに変わることあるでしょうか? ハードの故障なんて考えられますけど、それならtelnet,pingもNGですよね、 L2SWで、telnet,pingはOKでアプリケーション通信はNGの状況ってどういうケース があるでしょう。 最初の投稿で技術論ではない、体制に関わることをアップされて、会社の信頼 みたいなことを懸念をされてるようにもおもいますが、それはこちらで相談しても 答えは得られないのではないですか。 |