A/Bテストの実施期間の決め方とは?具体的なテスト期間の試算方法を解説
「A/Bテストの実施期間はどのくらいが適切なのか」これは、テスト運用の実務でクライアントから最も多く聞かれる質問のひとつです。
「有意差が出たから2日で止めた」「4週間回しても結果が出ないので延長した」。こうした判断を繰り返している場合、偽陽性に基づく誤った意思決定を積み重ねているリスクがあります。本記事では、A/Bテストの実施期間を正しく設計するための基本ルール、テストの「止めどき」を見極める判断基準について解説します。本記事を読むことで、統計的に妥当な期間設計について示唆を得られるかと思います!
A/Bテストの実施期間はなぜ重要なのか
A/Bテストの結果は「いつ判定するか」によって結論が変わります。同じデータセットであっても、判定するタイミングが異なれば「勝ち」にも「負け」にもなり得ます。
これは統計的有意性の仕組みに起因しています。統計的有意性とは、「観測された差が偶然ではないと判断できる程度の証拠があること」と解釈します。より厳密に言えば、p値が事前に定めた閾値(一般的には0.05)を下回ることで「統計的に有意」と判定します。また、期間の設計は「短すぎても長すぎてもいけない」という二面性を持っています。期間が短すぎれば、曜日効果や購買サイクルを十分に捉えられず、特定の曜日や時間帯に偏ったデータで判断するリスクがあります。逆に期間が長すぎれば、Cookieの失効やユーザーの再振り分けによって各バリエーションのユーザーが混ざり合い、本来の差を検出できなくなります。適切な実施期間での検証が結果の妥当性を左右する重要なファクターとなります。
実施期間の基本ルール「最低1週間、最長4週間」
CROのベストプラクティス観点では、A/Bテストは1〜4週間の範囲での実施が標準的です。この範囲には統計的根拠があります。
なぜ最低1週間が必要なのか – 曜日変数
まず最低1週間を確保すべき最大の理由は、曜日や時間帯によるユーザー行動の違いをケアするためです。平日と週末ではサイトを訪問するユーザー層が異なりますし、平日の日中と夜間でもモチベーションに差があります。BtoBサイトであれば、月曜日と金曜日で意思決定に対する姿勢が異なることも珍しくありません。たとえば、火曜日から木曜日までの3日間でテストを実施し、特定のバリエーションが「勝ち」と判定されたとします。しかし、それは平日のビジネスユーザーだけの結果かもしれません。週末に訪れるユーザーでは逆の結果が出ている可能性が残ります。このため、1週間の倍数で期間を揃えることで、こうした曜日バイアスを抑制することができます。したがって、計算上は数日で必要サンプルに到達する場合でも、最低1週間はテストを継続した方がより良いといえます。
最大期間の目安が4週間である理由 – サンプル希薄化対策
上限4週間推奨の主な根拠は、サンプルの希薄化です。通常ツールを用いたA/Bテストでは、Cookieを使ってユーザーを振り分けます。しかし、このCookieは長く維持されません。ユーザーによるCookie削除、近年ではブラウザのプライバシー機能による古いCookieの自動削除、ITPによる失効、あるいは長期間になるほどユーザーは別デバイスや別ブラウザからアクセスする可能性が高まるため、本来同じ人であっても別ユーザーとして扱われるケース。このようにテスト期間が長くなるほど最初に振り分けた群とは異なる群に再割り当てされるユーザーが増えていきます。テスト開始1週目であればAとBがきれいに分かれている状態ですが、4週目になるとAの一部がBに、Bの一部がAに混ざり始めます。さらに長期間続けると、両バリエーションのユーザー構成が混ざってしまうことで、本来は差があるにもかかわらず統計的に検出できなくなります。
実施期間を試算する方法
A/Bテストの実施期間は、計算でシミュレーションできます。特に昨今ではAIの活用によって手軽かつ高精度に判断をしやすくなりました。
5つの条件をもとに期間を計算する
実施期間の算出に必要な変数は以下の5つです。
- 単位期間のCV数 ※1ヶ月=30日で試算するとイメージしやすいケースが多そうです
- 単位期間のセッション数
- 検出したい相対リフトの最小値 ※サイトによりますが、例えば、5%、10%など
- 検出力(通常80%)
- ベイズ勝率(通常90%以上)です。
計算には専用のサンプルサイズ計算ツール(AB Testguide、Optimizely Sample Size Calculator、など)を活用できます。あるいは、Gemini, ChatGPT, ClaudeなどのLLMに「次の条件でA/Bテストの実施を検討している。想定される期間を教えて」というプロンプトを出せば詳細にシミュレーションをしてくれます。上限の4週間でも必要サンプルに到達しない場合は、テスト期間を無理に延長するのではなく、テスト対象ページのトラフィックを広げるか、より大きなリフトが期待できる施策に差し替える方が合理的となります。
購買サイクルが長い商材の対応策
テスト期間を決めるもうひとつの重要な要素が購買サイクルです。不動産、自動車、教育など高額な商材は必然的に検討期間が長期化します。このような商材で2週間しかテストを実施しないと、テスト期間中に意思決定を完結するユーザーがほとんどいないという状況に陥ります。この場合の対応策としておすすめなアプローチは、資料請求、カート投入、見積もり依頼などを中間KPIとして計測することです。商材によっては、メール登録などのリード獲得を活用できます。可能であればその商材の平均的な購買サイクルの7〜8割をカバーする期間で運用したいです。
ピーキングとは?
「有意差が出たので予定より早いですが止めましょう」A/Bテストの運用で最も多い落とし穴の一つがこの早期終了判断です。テスト途中で結果を覗き見し、有意差が出たタイミングで止めてしまう行為を「ピーキング(Peeking)」と呼びます。ピーキングはA/Bテスト運用で実は最も避けたい対応の1つとなります。
なぜピーキングはいけないのか?
ピーキングの危険性を示す事例があります。差がないコントロールグループ同士でAAテスト比較を行った事例があります。1,000回シミュレーションした事例で、新規参加者が1人増えるたびに有意判定を行うというものがあります。勝利水準を90%に設定した場合、1,000回中700回経過のどこかの時点で有意判定がなされました。同じバージョンなので本来は差がないため実際はいわゆる「偽陽性(=本来違いがないのに、違いがあると判定される)」となります。つまり、検途中でのぞき見して有意差が出た時点で止める運用を続けるとテスト結果の多くが勝利判定できる危険があります。一般的に統計的な有意性は「あらかじめ計画した期間の最後に1回だけ判定する」前提で設計されています。このため途中で何度も確認すると、ランダムなノイズが一時的に閾値を超える瞬間を偶然とらえる確率が累積的に上がっていきます。
科学的に許される早期終了の方法
ピーキングを避けたい一方で、事前に計画された早期終了は統計的にもOKとされます。続いて、テストの回転率を高める適切な時短アプローチをいくつか紹介します。
シーケンシャルテスト
シーケンシャルテスト(Sequential Testing)は、テスト開始前に「何回、どのタイミングで結果を確認するか」を決めておき、各段階に応じた有意水準を事前に設定する手法です。例えば、4週間のテストに対して次のように設計します。1週目終了時点で99%有意なら勝ち判定、2週目終了時点で98%有意なら勝ち判定、3週目終了時点で95%有意なら勝ち判定、4週目終了時点で90%有意なら勝ち判定(ここで最終判定)。このように、早い段階では非常に厳しい基準を課し、最後に近づくにつれて通常の基準に緩和していきます。
CUPEDよる時短アプローチ
より高度な手法としてCUPED(Controlled-experiment Using Pre-Experiment Data)です。CUPEDではテスト期間中のデータだけでCVRを計測する代わりにテスト開始前の各ユーザーの行動データを活用して「そのユーザーがどの程度コンバージョンしやすい性質を持っているか」を事前に考慮し差し引きます。同じリフトであっても分散(ノイズ)が下がるため、より少ないサンプルで統計的有意性に到達できるようになります。一説によると同じ結果を検出するのに必要な期間が半減するとの試算もあります。一方で導入にはそもそも大きなユーザー規模、ユーザーレベルの過去データ、高負荷な統計的計算が求められるため、非常に難易度の高いアプローチです。
テストの「止めどき」を見極める
テスト期間の設計で見落とされがちなのが、「いつ止めるか」の判断基準です。有意差が出た場合の早期終了だけでなく、有意差が出なかった場合の対応も同じくらい重要となります。
よくある「ほぼ有意」な状況
4週間テストを走らせて有意差が出なかった場、「もう1週間延長すれば優位さが出るかもしれない」とつい考えてしまいます。実際筆者も何度も経験があります。しかし、これは統計的には正しい判断にはなりにくいです。前述のとおり、テスト期間を延ばすほどサンプルの希薄化リスクが高まり、本質的に検出力は低下します。つまり延長すればするほど差を出せる環境ではなくなっていくというジレンマがあります。100以上のテストをマネジメントした経験上、期間延長によって有意差に到達する確率はかなり低いです。新しいテストを開始した方がより生産的であるケースが多いです。
おわりに
本記事ではA/Bテストの実施期間の正しい設計方法と、ピーキング問題および早期終了の落とし穴について解説をしました。
具体的なポイントとしては以下の4点です。
- A/Bテストの実施期間は「最低1週間、最長4週間」を基本ルールとして設計する
- サンプルサイズ計算ツールやAIを活用して、必要期間を事前に算出する
- テスト途中で結果を見て止めるピーキングは偽陽性の温床となるため避ける
- 科学的に許容される早期終了方法(シーケンシャルテストなど)を活用することで、テストの回転率を高める
本記事の内容をもとに、より適切なA/Bテストの期間設計につながれば幸いです。
株式会社GO TO MARKETに相談する
本記事で解説したA/Bテストの期間設計やピーキング対策について、自社での進め方にお悩みの場合は、株式会社GO TO MARKETの専門チームにご相談ください。テスト設計から運用の仕組み化まで、成果につながるCROプロジェクトをご支援します。
この記事を書いた人
KurotaKoki
マーケティングライター。主にデジタルマーケティング、コンバージョンマーケティング、A/Bテスト関連のコンテンツを担当しています。