收藏文章來自於 2021/6/17 富途牛牛
來源:深響
作者:陳文琦
從勇者為王到精益創業,一代又一代的企業在這個瞬息萬變的商業世界中追尋着增長的脈動與規律。大到國外的Google、Netflix、亞馬遜,國內的字節跳動、BAT,小到十個人的創業公司、一個人的產品思考,所有人都渴望撥開重重迷霧、錨定真正的增長引擎。
在眾多的增長方法中,A/B測試是最能體現、代表數據驅動理念的產品。為了進一步釐清這一增長方法的來龍去脈、可行性與適用範圍、真正價值與常見誤區,「深響」在充分的國內外案頭研究基礎上,訪談到多位一線操盤手,沉澱出當下市場對於A/B測試、數據驅動的主流理解與實際落地應用的情況。
故事要從18世紀説起。
工業革命、啟蒙運動,人類的底層邏輯被刷新,科學的研究方法與成果掀起層層浪潮,一些困擾多年的難題被解開。在歐洲,以航海為生命的維京後代們繼續着他們的遠征,但不幸的是,長期遠洋航行的水手船員在惡劣的海上環境中常被壞血病困擾。
一邊是經濟社會的蓬勃發展,對於更多資源的飢渴需求,一邊則是出海的勇士們被壞血病折戟,嚴重的時候超過半數船員再也無法回到起航時的港口。幸運的是,英國海軍醫生詹姆斯·林德發現了一種神奇的巧合——食譜中有柑橘類的水果的船員患壞血病的機率更低,船員的救命藥難道就是再普通不過的青檸(lime)嗎?
質疑醫生的人很多。他選擇用一種在今天看來已經非常普通且廣泛運用在互聯網的方法來證明自己的猜想——A/B測試。
他把患病的12名船員們分成六組,確保病人們的基本食物一樣,所處環境也相同,唯一的變量是,給每組開出了不同的療法:一組船員的飲食中加入青檸、一組加入橘子、一組加蘋果、一組加醋、一組加酏劑、一組加海水。結果顯而易見,攝入橘子和青檸的兩組很快就痊癒了。
這是兩百多年前的壞血病實驗,其採納的A/B測試已經成為醫學領域最為常見的實驗方法。而如今,A/B測試也已在醫學之外的領域開花結果,成為了包括硅谷在內,全球互聯網與商業的方法圭臬——在多種因素都對實驗結果有影響時,保證其他條件相同,來證明某一變量對結果的確切影響。A/B測試以小成本快速試錯,用客觀數據結果糾偏人們的主觀臆斷,讓產品與生意最大限度地科學增長。
或許有人會問,這不就是簡單的對照組實驗嗎?但千萬別小看A/B測試,它不只是粗暴地分組比較,而是基於實驗對象的精細測評,每一個維度的篩選、每一個差異刺激的設計,都需要嚴謹的依據和判斷。在這個信息爆炸、場景碎片化的多樣化時代,變量無處不在,如何做好一個A/B測試,測之有因,測其所得,並不是件簡單的事。
與此同時,商業社會空前繁盛,競爭激烈到每一個罅隙的增長都必須爭取,生意對於失敗的容錯率非常低。而A/B測試便是那個科學分析、最大限度規避風險、敏捷增長的利器。
從1990年代後期開始,科技巨頭就開始藉助A/B測試來確定最優方案,並逐漸形成自己的測試平台和體系。今天,包括Google、Facebook、亞馬遜在內的大公司每年都進行數千到數萬次實驗,新一代在數據驅動思維裏成長起來的初創企業也見識到了A/B測試帶來的增長魔力。
Google先驅
互聯網行業的A/B測試本質上是一種「先驗」的實驗體系,針對某一需要改進的功能、頁面或是產品,提供兩種或以上的方案,合理分配流量,將不同方案發布給不同用户。在運行一段時間後,結合各項指標和科學的統計方法,對比實驗數據做出決策,將最優方案更新給全量用户。
通常的流程是,確定目標、建立實驗假設、設定指標評估影響、設計及開發實驗方案、確定測試時長和分流方案等、採集和分析數據、最後進行評估得出結論。通過科學的實驗設置,測試不僅可以對比出哪種方案更好,還能預測性地通過一些指標(比如用户的訪問時間、留存度、下單率等),量化最優方案好多少。
Google是互聯網界A/B測試的先驅。
早在2000年,Google工程師就進行了他們的第一次A/B測試,用於確定搜索結果頁面上展示多少條對用户最友好。這次嘗試稱不上成功。世紀之交,緩慢的網頁加載速度未能允許實驗達到預期。
但是Google成為了A/B測試的忠實擁護者,僅僅在2011年一年時間裏,這家搜索巨頭就進行了7000多次的測試。
當Google在Gmail郵箱裏推出廣告的時候,團隊想知道:有沒有一種理想的藍色能夠更吸引用户點擊鏈接?為此,他們對41種藍色——從藍中帶綠到綠中帶藍——進行了A/B測試。結果是,一種略帶紫調的藍色比其他藍色更能促進點擊率。這誰能猜到呢?而這個微小到用户也許根本注意不到的細節改變,卻為公司帶來了每年2億美元的額外廣告收入。
現在,Google每個月都會上線幾百個大大小小的A/B測試。這些實驗,每年直接給公司帶來了超過10億美元的增收。
這種提供決策依據的方法充分彰顯了互聯網「數據驅動業務增長」的理念。
很多時候,A/B測試被用來決定非常細微的功能變化。例如,是否在新標籤頁中打開搜索結果——雖然這一功能可以在設置中自定義或者通過快捷鍵實現,但是通過A/B測試,Google發現將切換按鈕在搜索框下突出顯示時,用户體驗更好。
而現在許多用户已經習慣的「暗黑模式」其實也經歷了幾番測試。
雖然乍一看優化的只是細枝末節,但是基於Google龐大的用户量,每個不起眼的改動能產生巨大的影響。
A/B測試貫穿了Google的產品目錄和公司整體運行,有時候,測試會在更大的範圍和更長的時間跨度裏進行。比如對於即時通信的解決方案,Google看上去非常「猶豫不決」,推出過Google Talk、Google Chat、Google+ Messenger、Huddle、Hangouts等。
Google希望通過測試內部的多個解決方案,找到優勝者,先一步贏得市場,而不是坐以待斃,等外部的競爭者找到開啟增長的密鑰再加以複製。
因此,對於Google來説,A/B測試是不可或缺的。這是公司用來感知用户的最佳途徑;做產品決策的科學思路;也是最大化廣告效果,增加收入的策略。
值得注意的是,從自己摸索A/B測試方法,到形成行之有效的測試體系,Google還將A/B測試的能力開放給外部客户。
比如Google的Google Optimize,提供了易用的A/B測試工具,降低了開發者和廣告主做測試的門檻,並可以關聯Google Analytics進行數據分析。
一個「被賦能」的案例是,音樂流媒體Spotify在海外擴張時,想為不同區域的聽眾差異化着陸頁,但這在研發上要耗費巨大成本。在德國市場,它使用Optimize為對聽書功能(Audiobook)感興趣的用户定製了一個着陸頁。結果是,新頁面相比原版本,付費用户率提升了24%。最終,Spotify在全球範圍內應用了這一設計。
開放測試能力,這一方面是企業價值觀的體現,Google致力於拓展良性的生態環境,讓夥伴受益從而優化整個商業環境;另一方面也説明A/B測試本身經過幾十年的發展,已經逐漸成熟為一門獨立的學問了。
風靡硅谷
硅谷沒有祕密,A/B測試也不是Google的專屬。在「精益創業」思想浪潮的席捲下,硅谷的諸多巨頭都用上了A/B測試這一增長利器,並且將其傳道。
流媒體巨頭Netflix就是A/B測試的信奉者之一,並且樂此不疲地在自己的科技博客裏分享其A/B測試實踐中的方法和經驗。
「如果消費者在90秒內沒有找到可觀看的內容,他們就會離開。」Netflix在博客裏強調。為了在這短短的90秒內抓住用户,Netflix絞盡腦汁。其在UI佈局設計、個性化主頁、播放功能等等環節都會進行A/B測試,因為一個簡單的標題或者圖片改動就能讓觀看量得到20%-30%的增長。據「深響」瞭解,國內的一些視頻網站也採取了類似的做法。
Netflix早期進行的經典測試之一是關於影片或劇集的展示圖對點擊率的影響。
《人小志氣高》(The Short Game)是一部講述小學生在高爾夫球場上競技的影片。Netflix對不同用户組推送了不同的展示海報,並分析了幾個關鍵指標,包括點擊率、總播放時長、短時播放的比例、觀看的內容比例等等,最終發現下圖中間(Cell 2)的海報勝出了,實驗用户組平均的點擊率比默認組高14%。
這是一個信號——展示海報對用户行為可以產生影響。證實這個假設之後,Netflix繼續進行更復雜、更多維度的測試去優化用户界面。
A/B測試是一個統計學與數學的實驗,解構每一個元素,如何儘量撇除其他因素的影響,從一次次測驗中歸納出關於用户行為的規律。
Netflix的技術人員在博客裏寫到,他們通過實驗發現,具有強表現力的面孔比平靜的更吸引用户眼球;更具辨識度或者兩極化的人物形象表現通常更好;反派人物能得到較高點擊率;封面包含三個及以上人的時候點擊率又會下降......而這些實驗結果也並非絕對的,不同地區的觀眾對圖像的反應會產生差異,這要求顆粒度更細的實驗和運營。
強表現力的海報(右下)效果更好
來源:Netflix科技博客
互聯網巨頭們在A/B測試的普及進程中起到了標杆性的作用。而這種科學精神在「大佬」們的推動下已經滲透了整個互聯網。
在「效率第一」的硅谷,產品決策的流程化在加速,A/B測試是重要一環。用户們對於App的新功能感到興奮,但並不知道,在最終呈現之前,有多少版本在實驗中落敗。
Snapchat的崛起讓社交網絡大哥Facebook感到恐慌。圍繞Snapchat獨特的「閲後即焚」和「快拍」功能,Facebook在旗下的不同社交平台上展開了一系列測試。一次次失敗之後,允許用户發佈24小時限時內容的「快拍」(Stories)的功能現身在Instagram上,為這個已略顯疲態的圖片社交產品注入新鮮感。
為了更高效率地在移動端進行A/B測試,Facebook開發了Airlock測試框架,助力內部開發人員。
其實,A/B測試不僅有益於自身產品的優化,也可賦能生態內的客户,實現雙贏,何樂而不為?我們看到,除了上文提到的Google,亞馬遜和Facebook也把一些A/B測試工具開放給商家和廣告主。
比如亞馬遜,這家屢次登頂全球市值巔峯的公司就有多種適配的A/B測試工具,讓商家去檢驗怎樣的商品名稱和展示頁可以有效提升品牌度和銷售量。
而Facebook作為廣告營銷的重要平台,也完善了適用於各個場景的A/B測試工具,讓廣告主和品牌來評估各項方案,實現投放效益最大化。
不止是巨頭
A/B測試不只是互聯網巨頭的殺手鐗,它也是遊戲、媒體、金融等行業的常客。在硅谷,無論公司大小都已意識到A/B測試對於決策的重要性。
2013年,著名的互動軟件娛樂公司藝電(Electronic Arts)上線《模擬城市5》之後兩週就賣出了110萬份。其中游戲50%的銷售都來自於網上下載,傲人的成績歸功於一個近乎完美的A/B測試。
藝電為遊戲銷售頁面設計了兩個方案。一個版本是,促銷的信息顯示在預訂的頁面banner 上,讓購買者一目瞭然;另一個方案是把促銷信息刪了。實驗結果是沒有促銷信息的版本相較前者的轉化率提升了43.4%。最終他們採用了這一方案,實現了上述銷量。
這個A/B測試的結果甚至是有點「反常識」的,依據人的經驗,折扣信息往往可以刺激消費者的購買慾,但是通過實驗,顯然這並不適用於《模擬城市5》的目標羣體。
媒體行業也常用A/B測試的方式對標題進行實驗,來吸引網絡時代越來越不耐心的讀者們 。
《紐約時報》採取A/B測試,在其網站上為同一文章展示不同標題,在一些案例中,一個好標題可以提升成倍的閲讀量。比如,《紐約時報》編輯寫到,「巴爾的摩的反省,弗雷迪·格雷週年祭」(Soul-Searching in Baltimore, a Year After Freddie Gray’s Death)和「弗雷迪·格雷死亡之後的巴爾的摩:‘心境已變’」(Baltimore After Freddie Gray: The ‘Mind-Set Has Changed’)相比,後一標題的閲讀量得到1677%的提升。
有意思的是,A/B測試還收穫了政客們的青睞。
2008年,奧巴馬團隊競選團隊為募捐網站設計了4種按鈕和6個不同的圖像。對24種不同組合,團隊進行了數據跟蹤,最終下圖右上角的界面獲勝,註冊率相比原始界面提高了40.6%。這40.6%的新增用户直接帶來了額外的近6000萬美元的捐款。
這次A/B測試的成功,促使競選團隊的數據分析總監丹·西羅克 (Dan Siroker)在2009年創立了Optimizely,一個A/B測試工具平台,幫助沒有技術背景的用户測試不同版本的網站,優化體驗。
我們試圖尋找美國商業大亨們抵觸A/B測試的案例,但抱歉的是,這種科學思路其實是西方社會普遍推崇的思維方式,「你不需要跟他們解釋太多,因為A/B測試根上的理念就是他們小時候天天學的邏輯、實驗、critical thinking(辯證思維)。」一位在硅谷工作的華人工程師告訴「深響」。
幾百年來,A/B測試的核心原理始終未變。作為「數據驅動」、「科學精神」的完美體現,更作為一種前置驗證的手段,A/B測試幫助企業驗證了策略收益,避免錯誤策略所帶來的負面影響,其所帶來的收益將遠大於企業所付出的成本。
在這樣的共識與汗牛充棟的成功案例下,A/B測試得到硅谷巨頭們的擁躉,成為各行各業大大小小企業、產品的增長利器、工具標配。當然,暖風吹過西海岸,這把利器也正在大洋彼岸的中國發光發熱,並且逐步展現出本地化的特色和新意。
沒有留言:
張貼留言