【IT】Oracle DBの「非公開バグ」が表面化、大阪市基幹システム障害の真相

1田杉山脈 ★2019/07/05(金) 21:19:01.46ID:CAP_USER
大阪市で住民票などの証明書発行業務を担う基幹システムが停止。復旧まで21時間を要し、8000件近い証明書発行業務に影響が及んだ。原因はOracle Databaseのクラスタ機能に潜むバグだった。ネットワークの不調をきっかけにシステムが停止し、再起動もできなくなった。米オラクルはバグの存在を把握しながら対外開示をしていなかったとみられる。

 2019年6月7日午後0時5分頃。大阪市内の24の区役所や出張所、梅田・難波・天王寺のサービスカウンターで、住民票の写しや記載事項証明書、国民健康保険や税務関連の証明書などが印刷できなくなった。金曜日の昼休みということもあり、週内に書類を発行してもらおうと区役所など窓口に来ていた住民からは悲鳴と怒号が上がった。

同じ頃、大阪市西区の阿波座にある大阪市ICT戦略室も騒然としていた。システム障害を知らせる警報が鳴り、各区役所からトラブル発生を知らせる電話が相次いだ。「統合基盤システムが停止しました。確認してもらえますか」。ICT戦略室の担当者はシステムの開発元で保守契約も交わしているNTTデータ関西の担当者を呼び寄せた。同社はNTTデータの地域子会社だ。

 統合基盤システムは大阪市の基幹システムだ。住民基本台帳、税務、福祉、国民健康保険、介護保険という住民情報系の5システムと連携し、各システムへのログイン時のユーザー(職員)認証や各システムから受け取った証明書データなどの印刷をつかさどる。2015年1月に運用を始めた。「住民情報系5システムに共通して必要となる機能を統合基盤システムに切り出すことでコスト削減を図った」(ICT戦略室)。システムはアプリケーションサーバーと、職員の認証情報や印刷用データなどを管理するデータベースサーバー、それらのデータを蓄積する共有ストレージなどから成る。

 データベース管理システム(DBMS)は米オラクルの「Oracle Database」を採用している。バージョンは「システム構成に関わるので明らかにできない」(大阪市ICT戦略室)。負荷分散と障害回避を目的に同製品のクラスタ機能「Oracle Real Application Clusters(Oracle RAC)を使い、2ノードをActive/Active構成で並行稼働させている。片方が止まってもサービスを継続できるようにしていたが、今回は「2ノードがほぼ同時に停止した」(同)。アプリケーションサーバーは稼働していたものの、ユーザー認証や印刷データの格納に不可欠なDBMSが停止した。これによって「統合基盤システムのほぼ全てが使えなくなった」(同)。

 NTTデータ関西の保守担当者はDBMSが停止している事態を把握し再起動を試みた。しかし2ノードとも再起動できない状態が続いた。このためNTTデータ関西は日本オラクルなどと連絡を取りつつ原因究明を開始。その結果、午後3時30分頃にDBMSのシステムファイルが破損している事実を特定した。

 破損していたシステムファイルはOracle RACを構成する各ノードがそれぞれの死活状況を共有ストレージに書き込む「投票ディスク」である。この内容が異常なデータになっていたという。「投票ディスクを参照した2つのノードが共に異常を検知して、それぞれ自身でDBMSとしての機能を停止させた」(大阪市ICT戦略室)。保守担当者が再起動を試みてもできなかったのは、各ノードが再起動の過程で投票ディスクの内容を参照するようになっていたからだ。投票ディスクの異常値を検知して停止してしまった。
https://tech.nikkeibp.co.jp/atcl/nxt/mag/nc/18/020600011/070200035/

5名刺は切らしておりまして2019/07/05(金) 21:36:34.85ID:RCrhuJTG
これはボラクルを訴えるべきだね
11名刺は切らしておりまして2019/07/05(金) 21:52:30.04ID:dM0FEAvT
オラクルの名の通り、神のご信託が出るまで待つしかないな
14名刺は切らしておりまして2019/07/05(金) 22:04:45.65ID:e0/EZFaK
これ担当者クビとんでたかもな。
必死だろ、自分のせいじゃないって説明するの。
オラクル知らんぷり。アホかと。
15名刺は切らしておりまして2019/07/05(金) 22:06:59.09ID:kp70bBbB
インフォミックスならこんな事にはならなかった
17名刺は切らしておりまして2019/07/05(金) 22:11:55.29ID:qnuwBjuc
ORAORAORAORAORAORAORAORAORAORAAAAAA!!!
18名刺は切らしておりまして2019/07/05(金) 22:14:01.88ID:nE7xAemt
マイクロソフトが大手なのは大手なりの理由があるんだよな
23名刺は切らしておりまして2019/07/05(金) 22:16:56.74ID:oSA+08h/
quorum が壊れてたのか
いくらなんでも、そりゃ、致命傷だわ
ってか、RACならみんな使ってる部分だから、潜在バグがあったとは信じられん
ま、Oracleは真相明かさないから、闇の中だね
25名刺は切らしておりまして2019/07/05(金) 22:27:25.34ID:SMsYixoP
こんなん地獄やん。
29名刺は切らしておりまして2019/07/05(金) 22:39:00.02ID:wvuVf8MW
これ別に非公開じゃ無いぞ、聞かれたら答えるだけw
31名刺は切らしておりまして2019/07/05(金) 22:46:17.82ID:s42rCeyv
再起動できないのがバグなんじゃない?
35名刺は切らしておりまして2019/07/05(金) 22:54:46.94ID:56ywAqcX
>>31
確かに2系統のうち片方だけ起動させるのに故障した共有ディスクの内容を参照する必要は無いかもな。
39名刺は切らしておりまして2019/07/05(金) 23:09:00.81ID:ENMNo3L/
>>35
本文に書いてあるがクォーラム(投票データ)が壊れてて動かない状態。
何度再起動してもどちらも自分に優先権がとれずアーカイブログ(変更履歴)か何かに書き込みが
できず表領域(原本)の書き換えフェーズに移れないって状態だったんじゃないかと。
32名刺は切らしておりまして2019/07/05(金) 22:46:32.51ID:GnsokGUR
このあいだ5chではオラクルのバグなんてありえないって、市とNTT叩いてなかった?
33名刺は切らしておりまして2019/07/05(金) 22:46:59.33ID:boifjmR8
やはり、MariaDBに移行するのだろうか?
しかしNTTデータだけにPostgreにしましょう!とか提案してそうだ・・・
34名刺は切らしておりまして2019/07/05(金) 22:51:36.85ID:p5bBKIY9
オラクルに限らず大規模なシステムはどこかにバグがあるのは前提みたいなもんで、
DBがクラッシュしてもいいようにしっかりとBCPやIRPを組んでおけばだいたい大丈夫なものだ。
MTTRを最小限に抑えるのはそれなりのシステム構成と投資が必要だが多分そうなっていなかったのだろう。
たとえば大阪市の基幹システムのDRにおけるRPO/RTOはどういう設定になっているか聞きたいものだ。
58名刺は切らしておりまして2019/07/06(土) 00:09:53.94ID:lVXTCcPc
>>34
まったく同意
37名刺は切らしておりまして2019/07/05(金) 23:04:28.45ID:+hv3Ophw
ボラクルになっちまったからな。
47名刺は切らしておりまして2019/07/05(金) 23:22:55.47ID:tVPj258/
どんなDBでもシステムでも最終的にはガバナンスが悪けりゃ問題が起きるもの。
49名刺は切らしておりまして2019/07/05(金) 23:32:55.46ID:tVPj258/
フリーのDBで構成してて同じ様にクラッシュしてたら、果して一日でリカバリー出来ていたか?
52名刺は切らしておりまして2019/07/05(金) 23:48:31.76ID:ENMNo3L/
>>49
ホントこれ。 21時間で復旧だと超早いって感覚。
でも客は「高い金払って冗長化したのに意味ねーじゃねーか」ってキレる。
止めたくなかったら二桁金額足りねぇってわかってない。
一度でいいから Non-Stop サーバ的な奴は触ってみたいが、まぁ機会はないよね。
50名刺は切らしておりまして2019/07/05(金) 23:33:22.03ID:ljIuplys
オラクルは昔は飛び抜けて検索が速かったからな
その頃からのユーザーが今もだらだら使ってるだけ

いつの間にかSQLServerに追い越されてるし

53名刺は切らしておりまして2019/07/05(金) 23:49:19.72ID:p5bBKIY9
最終的には市の責任だけどオラクルのせいにしたい訳だ。
54名刺は切らしておりまして2019/07/05(金) 23:51:49.22ID:VvpTla/W
Oracleは嫌いだけど、これは違う気がする。
採用してるシステムなんて山ほどあるし。
55名刺は切らしておりまして2019/07/05(金) 23:52:33.61ID:nKbkwOKF
安定のボラクル
57名刺は切らしておりまして2019/07/06(土) 00:06:27.38ID:3pC+n7hI
記事の内容はほんと言い訳っぽい。
システムがクラッシュした時の想定復旧時間がどれだけなのかをまず言わなければ。
それともRACはクラッシュしないとでも思っていたのか?
61名刺は切らしておりまして2019/07/06(土) 00:38:01.21ID:W8mFzqN0
この程度のシステムは途上国も含めて世界中で稼働してそうだけど
なんでこんなことが起きるのかが分からん
本質的な原因を教えて
66名刺は切らしておりまして2019/07/06(土) 01:22:25.58ID:iy8T6f1z
投票ディスクはRAC構築時にバックアップすると思いますが…
69名刺は切らしておりまして2019/07/06(土) 01:34:25.25ID:b/wSFwfT
>>66
投票ディスクに何が書かれているか知らんが、インカーネーションとか含まれてたら、
投票ディスクだけ戻しても使えないんじゃ?
73名刺は切らしておりまして2019/07/06(土) 03:14:52.04ID:rlwtwqaW
しかもオラクルってユーザからバグを通知されてもまず直さないからね
すごい会社だと思うわユーザが
75名刺は切らしておりまして2019/07/06(土) 03:36:41.72ID:SweGEUB3
>>73
お前本当にバグ報告上げたことあるの?
ちゃんと保守結んでたら専用のパッチとかすぐ手配してくれるんだけど。
あ?もしかして英語出来ないから本社とやり取り出来ないの?
72名刺は切らしておりまして2019/07/06(土) 02:58:14.07ID:VaWn/H0z
全国の自治体で統一しろよ
いちいちバラバラにやっていたら金かかるじゃねえか
74名刺は切らしておりまして2019/07/06(土) 03:23:58.60ID:v66UyLvv
>アプリケーションサーバーは稼働していたものの、
>ユーザー認証や印刷データの格納に不可欠なDBMSが停止した。

意味わかんない。
クラウド糞やん

77名刺は切らしておりまして2019/07/06(土) 04:12:01.89ID:cdP8OFeR
クラスタ機能ねえ…
バグなんて甘い言い方してないで、はっきり欠陥と言えよ

引用元:http://egg.5ch.net/test/read.cgi/bizplus/1562329141/