本文源于今日頭條算法工程師曹歡歡的分享,筆者結(jié)合自身理解和思考加以總結(jié)梳理,力求整理出每個(gè)產(chǎn)品經(jīng)理都可以在實(shí)操中運(yùn)用的科學(xué)設(shè)計(jì)產(chǎn)品方法論。
今日頭條用了短短5年時(shí)間,成為移動(dòng)端新聞媒體的獨(dú)角獸,2016年末,完成10億美金D輪融資,估值近110億美元,成功擠入互聯(lián)網(wǎng)第二梯隊(duì)。如一句老話所說(shuō),世上沒(méi)有平白無(wú)故的成功,當(dāng)了解了今日頭條如何打磨產(chǎn)品功能和交互設(shè)計(jì)后,筆者發(fā)現(xiàn)其成功是必然的,也是有跡可循的,這一切都源于自上而下的數(shù)據(jù)化思維。
本文源于今日頭條算法工程師曹歡歡的分享,筆者結(jié)合自身理解和思考加以總結(jié)梳理,力求整理出每個(gè)產(chǎn)品經(jīng)理都可以在實(shí)操中運(yùn)用的科學(xué)設(shè)計(jì)產(chǎn)品方法論。
本文共分六個(gè)模塊:
一、今日頭條前世今生–介紹今日頭條近期數(shù)據(jù),今日頭條的源起
二、數(shù)據(jù)思維做產(chǎn)品–CEO張一鳴如何解讀數(shù)據(jù)思維,詳述三個(gè)方法論
三、數(shù)據(jù)思維指導(dǎo)算法演化–頭條推薦算法概述
四、今日頭條的A/B測(cè)試系統(tǒng)–超級(jí)強(qiáng)大的科學(xué)實(shí)驗(yàn)系統(tǒng)
五、需求從何而來(lái)?數(shù)據(jù)收集到何種程度?–科學(xué)嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)態(tài)度處理需求,收集全量用戶行為
六、如何低成本完成有效A/B測(cè)試–A/B測(cè)試的原則,注意事項(xiàng)、實(shí)踐方法和案例分析
介紹方法論之前,我們來(lái)看看今日頭條究竟有何成功之處。今日頭條是一個(gè)個(gè)性化信息推薦平臺(tái),基于大數(shù)據(jù)和人工智能,做到信息推薦的千人千面,2017年6月數(shù)據(jù)顯示,今日頭條日活用戶超7700萬(wàn),月活用戶近1.8億,日均使用時(shí)長(zhǎng)超76分鐘,日均啟動(dòng)次數(shù)超13次,如此活躍的數(shù)據(jù),出現(xiàn)在一個(gè)新聞信息類應(yīng)用實(shí)屬罕見(jiàn),今日頭條2017年?duì)I收達(dá)到150億,其吸金能力也是讓人瞠目結(jié)舌。
接下來(lái),筆者帶著大家來(lái)一起探秘今日頭條的成功之道——數(shù)據(jù)思維打磨產(chǎn)品。
今日頭條從起名字開(kāi)始就運(yùn)用了數(shù)據(jù)思維,創(chuàng)始團(tuán)隊(duì)沒(méi)有頭腦風(fēng)暴,沒(méi)有投票,沒(méi)有老大拍板兒,而是采用科學(xué)實(shí)驗(yàn)的方式,通過(guò)數(shù)據(jù)觀測(cè)確定了頭條的名稱。實(shí)驗(yàn)方法如下所屬:
今日頭條CEO張一鳴所定義的數(shù)據(jù)思維包含三個(gè)維度:
按照特定維度對(duì)目標(biāo)排序,分析top對(duì)象在特定屬性上的共同點(diǎn)。
(1)A/B測(cè)試定義
A/B測(cè)試是一種把實(shí)驗(yàn)對(duì)象隨機(jī)分組,把一個(gè)或多個(gè)測(cè)試組的表現(xiàn)與對(duì)照相比較,進(jìn)行測(cè)試的方式。
(2)A/B測(cè)試目的
通過(guò)科學(xué)實(shí)驗(yàn)設(shè)計(jì),在保證采樣樣本無(wú)偏,有代表性的前提下,流量分割與小流量測(cè)試等方式,獲得具有代表性的實(shí)驗(yàn)結(jié)論,并確信該結(jié)論在推廣到全部流量可信。
注意事項(xiàng):測(cè)試組和對(duì)照組不要設(shè)計(jì)多個(gè)變量同時(shí)測(cè),一次實(shí)驗(yàn)只設(shè)置唯一變量,同時(shí)實(shí)驗(yàn)組內(nèi)分小組,盡量保證組間數(shù)據(jù)隨機(jī)分布,便于分析數(shù)據(jù)波動(dòng)影響。測(cè)試前需要定義核心觀測(cè)指標(biāo),通過(guò)指標(biāo)數(shù)值變化,確定實(shí)驗(yàn)結(jié)果的好壞。
交叉驗(yàn)證用得最多的場(chǎng)景是涉及到人工運(yùn)營(yíng)的場(chǎng)景,在評(píng)估時(shí)需要人工介入為文章分類,以保證推薦的準(zhǔn)確,那么評(píng)估和審核都需要依賴人,人員能力的差異和流動(dòng)性導(dǎo)致評(píng)估和審核標(biāo)準(zhǔn)會(huì)變來(lái)變?nèi)ィ@就需要機(jī)器可以監(jiān)控人的行為,每個(gè)評(píng)估的運(yùn)營(yíng)人員有自己一個(gè)任務(wù)隊(duì)列,把一個(gè)要評(píng)估的樣本至少放到兩個(gè)以上的評(píng)估隊(duì)列里面去,就意味著一個(gè)樣本最少有兩個(gè)人看過(guò),如果他們意見(jiàn)不一致,我們有一個(gè)資深的仲裁小組進(jìn)行仲裁。
推薦算法是今日頭條產(chǎn)品的靈魂。頭條推薦算法是一系列算法的策略的組合,每一個(gè)子系統(tǒng)的改進(jìn)都會(huì)對(duì)系統(tǒng)整體造成影響。
一個(gè)排序模型,搭配多個(gè)召回模型,通過(guò)召回模型做初篩,然后反饋給排序模型,節(jié)省99%的處理資源,推薦更快捷。
對(duì)推薦效果可能產(chǎn)生影響的因素:候選內(nèi)容集合的變化、召回模塊的改進(jìn)和增加、推薦特征的增加、推薦系統(tǒng)架構(gòu)的改進(jìn)、規(guī)則策略的改變。
今日頭條同時(shí)在線測(cè)試的實(shí)驗(yàn)有很多,每月多達(dá)有上百個(gè)之多,如何科學(xué)的分配實(shí)驗(yàn)流量,減少溝通,降低實(shí)驗(yàn)成本,做到實(shí)驗(yàn)結(jié)果可視化展示是必須思考的,于是出現(xiàn)了今日頭條的A/B測(cè)試系統(tǒng)。
共享實(shí)驗(yàn)。是指實(shí)驗(yàn)?zāi)P椭粶y(cè)試某類特定屬性用戶,可以與其他非相關(guān)屬性的實(shí)驗(yàn)共用實(shí)驗(yàn)對(duì)象,流量桶分配邏輯與獨(dú)占實(shí)驗(yàn)類似,但是當(dāng)其用戶可以分配到其他實(shí)驗(yàn)中,復(fù)用部分用戶。如下圖所示:
基于這套系統(tǒng),基于數(shù)據(jù)分析協(xié)助產(chǎn)品功能迭代(經(jīng)歷幾十個(gè)版本迭代),數(shù)百個(gè)有效改進(jìn)上線,人均有效點(diǎn)擊提升40%,人均停留時(shí)長(zhǎng)提升50%。
互聯(lián)網(wǎng)產(chǎn)品的需求一般來(lái)源于用戶反饋或焦點(diǎn)小組需求收集,是一種信息的歸納總結(jié),但是這部分?jǐn)?shù)據(jù)是有偏信息,不可以簡(jiǎn)單粗暴的將用戶反饋的需求作為直接需求,所謂會(huì)哭的小孩有奶吃,很多時(shí)候,用得很好的用戶不反饋,用得不好的才反饋。如果你改變了,是不是傷害了那些不反饋的用戶呢?
其實(shí)你是不知道的,所以這些需求我們并不一定要做,只是先做一個(gè)候選實(shí)驗(yàn)的需求池。如果一個(gè)需求兩三周持續(xù)在反饋,這個(gè)需求可能是一個(gè)強(qiáng)需求,那么做好了小渠道測(cè)試,用數(shù)據(jù)說(shuō)話。
(1)原生功能
(2)WAP頁(yè)面
閱讀細(xì)節(jié)行為收集,今日頭條已經(jīng)做到了近乎于眼動(dòng)測(cè)試的程度,通過(guò)數(shù)據(jù)可以分析用戶閱讀文章的滑屏速度,閱讀習(xí)慣,閱讀速度,什么地方快速滑過(guò),什么地方仔細(xì)閱讀,最終,以量化的形式反饋給內(nèi)容創(chuàng)作者,幫助其持續(xù)優(yōu)化內(nèi)容編輯。
產(chǎn)品核心競(jìng)爭(zhēng)力=拉新能力*留存能力*變現(xiàn)能力。每項(xiàng)能力比對(duì)手強(qiáng)20%,整體差距超過(guò)70%,數(shù)據(jù)思維可以幫助團(tuán)隊(duì)把每一項(xiàng)能力發(fā)揮到極致。
初創(chuàng)團(tuán)隊(duì)可能沒(méi)有太多資源開(kāi)發(fā)多個(gè)版本進(jìn)行多渠道測(cè)試,一些大公司也不會(huì)如同今日頭條專門(mén)設(shè)計(jì)一個(gè)A/B測(cè)試系統(tǒng),那么如何在沒(méi)有很多預(yù)算的情況下完成簡(jiǎn)易有效的A/B測(cè)試呢?首先,要理解A/B測(cè)試的原則,其次,一定要躲過(guò)一些坑,最后,就是根據(jù)實(shí)際情況確定測(cè)試方案(開(kāi)發(fā)參與實(shí)現(xiàn)方案討論)。
(1)多方案同時(shí)段并行測(cè)試;
(2)測(cè)試方案只有一個(gè)唯一變量;
(3)用戶行為數(shù)據(jù)收集;
(4)定義核心指標(biāo)。
(1)一定要是單變量。如果兩個(gè)版本,每個(gè)版本有2處不同,最終分析的時(shí)候很難確定是哪個(gè)優(yōu)化導(dǎo)致的指標(biāo)變化。
(2)統(tǒng)計(jì)置信度。受到樣本量影響(樣本太少,樣本代表性);置信水平(A方案49%,B方案51%,可能數(shù)據(jù)分流導(dǎo)致的偏差所致,分流有偏造成的影響)
(3)設(shè)置對(duì)比觀察數(shù)據(jù)組,即沒(méi)有任何調(diào)整的情況各項(xiàng)數(shù)據(jù)指標(biāo)如何,用于實(shí)驗(yàn)效果對(duì)比分析。
(1)從測(cè)試頁(yè)面類型分類
(2)從測(cè)試時(shí)間點(diǎn)分類
樣本量足夠的情況下,可以考慮實(shí)驗(yàn)組數(shù)據(jù)內(nèi)部再做分組,如同今日頭條系統(tǒng)實(shí)現(xiàn)的部分,觀察用戶行為波動(dòng)性,保證測(cè)試結(jié)果置信度更高。
我們以P2P平臺(tái)為例,假設(shè)P2P平臺(tái)月新增1萬(wàn)注冊(cè)用戶,9000用戶注冊(cè)未投資,以往通過(guò)短信告知用戶下發(fā)投資卷召回用戶,效果非常不明顯,現(xiàn)在將9000用戶隨機(jī)分成3組,每組3000用戶,分別是1組(對(duì)比觀測(cè)組),2組(紅包召回組),3組(話費(fèi)召回組),短信文案知識(shí)紅包和話費(fèi)區(qū)別。觀察三組用戶在短信發(fā)出后一天內(nèi)的行為變化,核心指標(biāo)定為登錄APP行為。
紅包和話費(fèi)充值初期數(shù)量不會(huì)很大,可以考慮設(shè)計(jì)成手動(dòng)下發(fā),如果用戶投資則固定時(shí)間充值,無(wú)需相應(yīng)開(kāi)發(fā)。
通過(guò)對(duì)比用戶登錄和投資行為,可以很明顯的看出何種召回方式效果更好,因?yàn)槭切?shù)據(jù)樣本檢測(cè),充值量初期不會(huì)太大,可以節(jié)省話費(fèi)充值對(duì)接開(kāi)發(fā),測(cè)試效果出來(lái),優(yōu)化完善,確認(rèn)召回方案后再進(jìn)行開(kāi)發(fā)才相對(duì)高效,因?yàn)楹芸赡苄抡倩夭呗圆⒉槐仍胁呗杂行А?/span>
希望本文對(duì)產(chǎn)品經(jīng)理們有所幫助,可以為您的產(chǎn)品設(shè)計(jì)提供科學(xué)的方法,也希望在留言區(qū)看到您的留言,我們一起交流小團(tuán)隊(duì)如何使用A/B測(cè)試,科學(xué)設(shè)計(jì)產(chǎn)品。
來(lái)源:pmcaff 互聯(lián)網(wǎng)產(chǎn)品研究中心