Adobe Experience Manager Assetsデプロイメントを監視するためのベストプラクティス

Experience Manager Assetsの観点から、監視には、次のプロセスとテクノロジーの観察と報告を含める必要があります。

  • システム CPU
  • システムメモリ使用量
  • システムディスク IO および IO 待機時間
  • システムネットワーク IO
  • ヒープ使用率と非同期プロセス(ワークフローなど)のためのJMX MBean
  • OSGi コンソールヘルスチェック

通常、Experience Manager Assetsは、ライブ監視と長期監視の2つの方法で監視できます。

ライブ監視

開発のパフォーマンステストの段階、または高負荷な状態になったときに、環境のパフォーマンス特性を把握するためにライブ監視を実行する必要があります。通常、ライブ監視はいくつかのツールを使用して実行します。以下にお勧めのツールを示します。

  • ビジュアルVM:Visual VMを使用すると、CPU使用率、Javaメモリ使用率など、詳細なJava VM情報を表示できます。さらに、デプロイメントで実行するコードのサンプリングと評価もおこなえます。

  • Top:Top は、CPU、メモリ、IO 使用量などの使用量統計を表示するダッシュボードを開く Linux コマンドです。インスタンスの状況の概要を示します。

  • Htop:Htop は、インタラクティブなプロセスビューアです。Top が提供する情報に加えて、詳細な CPU およびメモリ使用状況が表示されます。Htopは、yum install htopまたはapt-get install htopを使用して、ほとんどのLinuxシステムにインストールできます。

  • Iotop:Iotop は、ディスク IO 使用量の詳細なダッシュボードです。ディスク IO を使用するプロセス、およびそのプロセスによる使用量を示すバーやメーターが表示されます。Iotopは、yum install iotopまたはapt-get install iotopを使用して、ほとんどのLinuxシステムにインストールできます。

  • Iftop:Iftop は、イーサネット/ネットワークの使用量についての詳細情報を表示します。Iftop では、イーサネットを使用するエンティティについての通信チャネルごとの統計情報、および使用されている帯域幅の量が表示されます。Iftopは、yum install iftopまたはapt-get install iftopを使用して、ほとんどのLinuxシステムにインストールできます。

  • Java Flight Recorder(JFR):非実稼動環境で自由に使用できる、Oracle の市販ツールです。詳しくは、Java Flight Recorderを使用してCQランタイムの問題を診断する方法を参照してください。

  • Experience Manager error.log ファイル:ファイルを調べて、シ Experience Manager error.log ステムに記録されたエラーの詳細を調べることができます。tail -F quickstart/logs/error.logコマンドを使用して、調査するエラーを特定します。

  • ワークフローコンソール:ワークフローコンソールを使用して、遅れているワークフローや、停止しているワークフローを監視できます。

通常は、これらのツールを一緒に使用して、Experience Managerデプロイメントのパフォーマンスに関する包括的なアイデアを得ます。

メモ

これらのツールは標準的なツールです。アドビでは直接サポートしません。追加のライセンスは必要ありません。

chlimage_1-33

図:Visual VMツールを使用したライブ監視。

chlimage_1-32

長期的な監視

Experience Managerデプロイメントの長期的な監視には、ライブで監視されるのと同じ部分を、長期間監視する必要があります。 また、環境に固有のアラートも定義します。

ログの集約とレポート

ログを集計するツールがいくつかあります。例えば、Splunk™やElastic Search、Logstash、Kabana(ELK)などです。 Experience Managerデプロイメントの稼動時間を評価するには、システム固有のログイベントを理解し、それらに基づいてアラートを作成することが重要です。 開発と運用に関する十分な知識があれば、ログ集計プロセスを調整して重要なアラートを生成する方法をより深く理解できます。

環境の監視

環境の監視には、以下の監視が含まれます。

  • ネットワークのスループット
  • ディスク IO
  • メモリ
  • CPU 使用率
  • JMX MBean
  • 外部 Web サイト

それぞれの項目を監視するには、NewRelic(TM)や AppDynamics(TM)などの外部ツールが必要です。これらのツールを使用して、システム固有のアラート(システム利用率が高い、ワークフローのバックアップ、ヘルスチェック失敗、Web サイトへの不正なアクセスなど)を定義できます。アドビでは、特定のツールを推奨することはありません。ご自身に合ったツールを見つけ、説明した項目の監視に利用してください。

内部アプリケーション監視

内部アプリケーションの監視には、JVM、コンテンツリポジトリ、プラットフォーム上に構築されたカスタムアプリケーションコードを介した監視など、Experience Managerスタックを構成するアプリケーションコンポーネントの監視が含まれます。 通常、SolarWinds(TM)、HP OpenView(TM)、Hyperic(TM)、Zabbix(TM)などの一般的な多くの監視ソリューションで直接監視できる JMX MBean を通して監視を実行します。JMX への直接接続をサポートしないシステムでは、JMX データを抽出して、それらのシステムがネイティブで理解できる形式で公開するシェルスクリプトを記述できます。

JMX MBean へのリモートアクセスは、デフォルトで無効になっています。JMXによる監視の詳細は、Monitoring and Management Using JMX Technologyを参照してください。

多くの場合、統計情報を効果的に監視するにはベースラインが必要です。ベースラインを作成するには、通常の動作条件の下で一定期間システムを監視し、通常の指標を特定します。

JVM 監視

Javaベースのアプリケーションスタックと同様に、Experience Managerは、基盤となるJava仮想マシンを通じて提供されるリソースに依存します。 JVM により公開されているプラットフォーム MXBean によって、それらのリソースの多くの状態を監視できます。MXBean について詳しくは、プラットフォーム MBean サーバーおよびプラットフォーム MXBean の使用を参照してください。

JVMを監視できるベースラインパラメーターを次に示します。

メモリ

  • MBean: lava.lang:type=Memory
  • URL:/system/console/jmx/java.lang:type=Memory
  • インスタンス:すべてのサーバー
  • アラームしきい値:ヒープまたは非ヒープメモリ使用率が、対応する最大メモリの 75%を超えた場合。
  • アラーム定義:システムメモリが不十分である、またはコードにメモリリークがあります。スレッドダンプを分析して、定義を満たすかどうか判断します。
メモ

このBeanが提供する情報はバイト単位で表されます。

スレッド

  • MBean:java.lang:type=Threading
  • URL:/system/console/jmx/java.lang:type=Threading
  • インスタンス:すべてのサーバー
  • アラームしきい値:スレッド数がベースラインの 150%を超えた場合。
  • アラーム定義:適切に停止できていないアクティブなプロセスがある、または非効率な操作で大量のリソースを消費しています。スレッドダンプを分析して、定義を満たすかどうか判断します。

監視Experience Manager

Experience Manager も、JMX を通して一連の統計情報および操作を公開しています。これにより、システムヘルスの評価をおこない、ユーザーに影響を与える前に問題を特定できます。詳しくは、 JMX MBean のドキュメントを参照してください。Experience Manager

Experience Managerに対して監視できるベースラインパラメーターを以下に示します。

レプリケーションエージェント

  • MBean:com.adobe.granite.replication:type=agent,id=”<AGENT_NAME>”

  • URL:/system/console/jmx/com.adobe.granite.replication:type=agent,id=”<AGENT_NAME>"

  • インスタンス:1 つのオーサーインスタンスおよびすべてのパブリッシュインスタンス(フラッシュエージェント)

  • アラームしきい値:QueueBlocked true の値が 、または QueueNumEntries の値がベースラインの 150%を超えた場合。

  • アラーム定義:システムにブロックされたキューが存在しており、レプリケーションターゲットがダウンしているか、または到達不能であることを示しています。多くの場合、ネットワークまたはインフラストラクチャの問題により過剰なエントリがキューに登録されています。それによってシステムのパフォーマンスに悪影響が生じる可能性があります。

メモ

MBeanおよびURLパラメーターの<AGENT_NAME>を、監視するレプリケーションエージェントの名前に置き換えます。

セッションカウンター

  • MBean:org.apache.jackrabbit.oak:id=7,name="OakRepository Statistics",type="RepositoryStats"
  • URL:/system/console/jmx/org.apache.jackrabbit.oak:id=7,name="OakRepository Statistics",type="RepositoryStats"
  • インスタンス:すべてのサーバー
  • アラームしきい値:開いているセッションの数がベースラインよりも 50%以上多い場合。
  • アラーム定義:特定のコードによりセッションが開かれ、閉じられない状態になっています。この状態は徐々に進行し、最終的にはシステムでメモリリークの原因となります。システム上のセッション数は多少変動しますが、継続的に上昇してはいけません。

ヘルスチェック

操作ダッシュボードのヘルスチェックには、監視用の対応する JMX MBean があります。ただし、カスタムのヘルスチェックを記述して、追加のシステム統計情報を公開できます。

監視に役立つ、あらかじめ用意されたヘルスチェックをいくつか示します。

  • システムチェック

    • MBean:org.apache.sling.healthcheck:name=systemchecks,type=HealthCheck
    • URL:/system/console/jmx/org.apache.sling.healthcheck:name=systemchecks,type=HealthCheck
    • インスタンス:1 つのオーサーサーバー、およびすべてのパブリッシュサーバー
    • アラームしきい値:ステータスが OK ではない場合。
    • アラーム定義:いずれかの指標のステータスが警告または重要となっています。問題の原因について詳しくは、ログ属性を確認してください。
  • レプリケーションキュー

    • MBean:org.apache.sling.healthcheck:name=replicationQueue,type=HealthCheck
    • URL:/system/console/jmx/org.apache.sling.healthcheck:name=replicationQueue,type=HealthCheck
    • インスタンス:1 つのオーサーサーバー、およびすべてのパブリッシュサーバー
    • アラームしきい値:ステータスが OK ではない場合。
    • アラーム定義:いずれかの指標のステータスが警告または重要となっています。問題を発生させたキューについて詳しくは、ログ属性を確認してください。
  • 応答パフォーマンス

    • MBean:org.apache.sling.healthcheck:name=requestsStatus,type=HealthCheck
    • URL:/system/console/jmx/org.apache.sling.healthcheck:name=requestsStatus,type=HealthCheck
    • インスタンス:すべてのサーバー
    • アラーム期間:ステータスが OK ではない場合。
    • アラーム定義:いずれかの指標のステータスが警告または重要となっています。問題を発生させたキューについて詳しくは、ログ属性を確認してください。
  • クエリパフォーマンス

    • MBean:org.apache.sling.healthcheck:name=queriesStatus,type=HealthCheck
    • URL:/system/console/jmx/org.apache.sling.healthcheck:name= queriesStatus,type=HealthCheck
    • インスタンス:1 つのオーサーサーバー、およびすべてのパブリッシュサーバー
    • アラームしきい値:ステータスが OK ではない場合。
    • アラーム定義:システムで 1 つ以上のクエリの実行速度が遅くなっています。問題を発生させたクエリについて詳しくは、ログ属性を確認してください。
  • アクティブなバンドル

    • MBean:org.apache.sling.healthcheck:name=inactiveBundles,type=HealthCheck
    • URL:/system/console/jmx/org.apache.sling.healthcheck:name=inactiveBundles,type=HealthCheck
    • インスタンス:すべてのサーバー
    • アラームしきい値:ステータスが OK ではない場合。
    • アラーム定義:システム上の非アクティブまたは未解決な OSGi バンドルの存在。問題を発生させたバンドルについて詳しくは、ログ属性を確認してください。
  • ログエラー

    • MBean:org.apache.sling.healthcheck:name=logErrorHealthCheck,type=HealthCheck
    • URL:/system/console/jmx/org.apache.sling.healthcheck:name=logErrorHealthCheck,type=HealthCheck
    • インスタンス:すべてのサーバー
    • アラームしきい値:ステータスが OK ではない場合。
    • アラーム定義:ログファイルにエラーがあります。問題の原因について詳しくは、ログ属性を確認してください。

一般的な問題と解決策

監視の過程で問題が発生した場合は、次に示すトラブルシューティングタスクを実行して、Experience Managerデプロイメントの一般的な問題を解決します。

  • TarMK を使用している場合は、Tar 圧縮を頻繁に実行します。詳しくは、リポジトリのメンテナンスを参照してください。

  • OutOfMemoryErrorログを確認します。 詳しくは、メモリの問題の分析を参照してください。

  • ログを確認し、インデックス化されていないクエリ、ツリートラバーサル、インデックストラバーサルへの参照がないかを確認します。これらは、インデックス化されていないクエリ、または不適切にインデックス化されたクエリを示しています。クエリとインデックスのパフォーマンスの最適化に関するベストプラクティスについては、クエリとインデックスに関するベストプラクティスを参照してください。

  • ワークフローが予期したとおりに動作していることを確認するには、ワークフローコンソールを使用します。可能な場合は、複数のワークフローを単一のワークフローにまとめます。

  • ライブ監視を再確認し、他にボトルネックがないか、または特定のリソースを大量に使用している箇所がないかを確認します。

  • クライアントネットワークからのエグレスポイントと、ディスパッチャーを含むExperience Managerデプロイメントネットワークへの入口ポイントを調べます。 多くの場合、これらがボトルネックが発生する領域となります。詳しくは、Assets のネットワークにおける考慮事項を参照してください。

  • Experience Managerサーバのサイズを大きくします。 Experience Managerデプロイメントのサイズが不適切な可能性があります。 Adobeカスタマーケアは、サーバーのサイズが小さいかどうかを特定するのに役立ちます。

  • access.log および error.log ファイルで、不具合の発生した時刻付近のエントリを調査します。カスタムコードの異常の兆候となるパターンを探します。それらを監視するイベントのリストに追加します。

このページ