月曜日、開発者らは、ローカルコンピュータ上のimpalaへの接続が失敗し、サービスの問題である可能性があると報告した。テスト後、正常に動作し障害も復旧したため調査は行わなかったが、翌日再び同様の障害が発生した。サービスは通常どおりです。ネットワークの問題だと思われます。ネットワークの同僚に連絡して調査してください。Telnet接続。ネットワークの負荷はそれほど高くはなく、しばらくアイドル状態にすると正常に戻りました。3日目に再び現れたので、調査することにしました。
まず、haproxy バックエンドの impala の数を調整します。そうしないと、チェックするものが多すぎます。手動アクセス後にエラーが報告されました
SASL メッセージ (LDAP): パスワードの検証に失敗しました
間違ったパスワードに関連するエラー。そこでローカルでテストしたところ、確かに接続できないことが分かりましたが、以前のパスワードは正しかったので、手動で Kerberos アカウントにログインしました。
初期認証情報の取得中にクライアントの認証情報が取り消されました
このエラー メッセージは、アカウントがロックされていることを示します。
コマンドラインからkadmin.localにログインします。
getprinc ユーザー名を取得し、ユーザーデータのパスワードの誤りが 5 回を超えているかどうかを確認し、5 回を超えている場合はアカウントがロックされていることがわかります。
パスワード試行失敗の値が 5 より大きい
アカウントはロックされています。ロックを解除するには、コマンド modprinc -unlock username を入力してください。
そうすればすべてが正常になります。しかし、なぜこのようなことが起こるのでしょうか?
Kerberos のトラブルシューティングを続行します
krb5kdc のログを表示する
検証失敗:事前認証が失敗しました AS REQ (4 etypes {18 17 16 231) 172.20.15.163:
PREAUTH FAILED:
それまでにログインエラーが多発していたことが判明した。これは、172.20.15.163 が原因で、ここに記録された間違ったパスワードの数であるはずです。
ログインして確認してください。このマシンはテスト サーバーです。開発者はエラー報告にはあまり注意を払いません。したがって、ログインが失敗しても問題はなく、スケジュールされたタスクが失敗しても、そこでハングするだけです。この失敗の原因となった。新しいキータブを交換したら解決しました