purazumakoiの[はてなブログ]

技術メモから最近はライフログも増えてきてます。

月間300万PVのサイトの引っ越しをした時に起こった問題

自社サイトのサーバを引っ越す必要がありました。

契約は、とあるホスティングサービスのフルマネージドプランです。

理由は、PVが多すぎてSSDの容量が200GB(実利用可能が160GB)ではアクセスログがたまりすぎてストレージの容量が圧迫されたからです。

運用のオペレーションや、費用の問題から、Cloudではなく、現行サーバの新プランに移行しました。 するとメルマガやアプリプッシュをした際、サーバが処理できず、502エラーがでたりするようになりました。

今までは問題なく処理できていたのになぜ?と色々調べました。 WAFやIDSなどを停止したりしても問題は解決しません。

そうなると原因は? ここからは現時点での仮説ではありますが、そこで見つけたのは、ロードアベレージ(load average)が明らかに移管後の方があがっている

f:id:purazumakoi:20181130165010j:plain
ロードアベレージ比較

そうなると、ハードウェアの問題ではないかと思いました。 詳細スペックは非公開ですが、そこで思いつくのは

旧サーバ:SSD

新サーバ:SAS

回転数など詳細は不明だが、これではないかと思う。

パフォーマンスもSSDの方が読み込みは速度に2倍以上違いあるとなると、単純比較で納得が行く。 ボトルネックがディスクというのは十分考えられる。

https://www.toshiba-sol.co.jp/pro/magnia/tech/dl/ssd_wp.pdf

ベンチマークでストレージ特性を把握 | 日経 xTECH(クロステック)