基于12000個(gè)智鉆創(chuàng)意構(gòu)建創(chuàng)意自動(dòng)分類器
2016年是人工智能的爆發(fā)年,而人工智能基于海量數(shù)據(jù)。對(duì)于電商來(lái)說(shuō),智鉆投放中產(chǎn)生大量投放數(shù)據(jù),其中創(chuàng)意數(shù)據(jù)對(duì)于鉆展效果分析來(lái)說(shuō)尤為重要。基于4個(gè)月幾百個(gè)商家,合計(jì)12000張創(chuàng)意可以為我們對(duì)日常創(chuàng)意效果的判斷提供歷史支持。因此,利用深度學(xué)習(xí)來(lái)訓(xùn)練出能夠自分創(chuàng)意的想法油然而生。
正文:
對(duì)于商家來(lái)說(shuō),日常智鉆投放中有大量創(chuàng)意需要替換更改,但是創(chuàng)意往往改完就算了,它的數(shù)據(jù)也隨之舍棄。但是冷靜一想,究竟對(duì)于我們?nèi)粘M斗艁?lái)說(shuō),怎樣效果的創(chuàng)意才是一張值得肯定的創(chuàng)意呢?怎樣的創(chuàng)意數(shù)據(jù)才能代表廣泛的商家心聲呢?因此,本次項(xiàng)目基于7月到11月所有投放過(guò)鉆展的商家創(chuàng)意數(shù)據(jù),涵蓋超過(guò)50個(gè)類目12000張創(chuàng)意,構(gòu)建具有廣泛代表性的創(chuàng)意分類模型,并從模型中找到對(duì)我們?nèi)粘M斗庞兄笇?dǎo)意義的信息。
一、智鉆創(chuàng)意數(shù)據(jù)的量綱和維度
所謂的量綱指的是每張創(chuàng)意數(shù)據(jù)所觀察的時(shí)間范圍,本次實(shí)驗(yàn)全部創(chuàng)意觀察的量綱統(tǒng)一為1個(gè)月。而初始候選觀察維度較多:
數(shù)據(jù)的搜集通過(guò)協(xié)助商家推廣的期間不斷積累下來(lái),3個(gè)月下來(lái)數(shù)據(jù)量在1W2左右。而我們實(shí)際當(dāng)中,大家都認(rèn)同真正好的創(chuàng)意相對(duì)來(lái)時(shí)較少,因此,我們通過(guò)長(zhǎng)時(shí)間咨詢智鉆顧問(wèn)人員,嚴(yán)格地把這些數(shù)據(jù)中真正比較好的創(chuàng)意挑選出來(lái),其它列為一般的創(chuàng)意數(shù)據(jù)。整個(gè)實(shí)驗(yàn)就是圍繞這些數(shù)據(jù)作為我們研究的樣本。
二、基于邏輯回歸的分類器
當(dāng)樣本初步整理好,嘗試使用一般的邏輯回歸來(lái)分類。一開(kāi)始我想綜合考慮所有智鉆顧問(wèn)對(duì)創(chuàng)意的分類的考慮,因此想模型設(shè)定為邏輯回歸。模型去除了對(duì)時(shí)間量綱有依賴的維度。例如,消耗,因?yàn)椴煌碳铱赡軙?huì)因?yàn)轶w量的大小而在本質(zhì)上有差別;類似的維度還有展現(xiàn)和點(diǎn)擊等。本次實(shí)驗(yàn)把這些維度全部去掉,保留沒(méi)有依賴時(shí)間為量綱的點(diǎn)擊率、點(diǎn)擊單價(jià)和收藏率等維度。
本次邏輯回歸的最多迭代100次,拿數(shù)據(jù)當(dāng)中的85%作為訓(xùn)練,15%作為驗(yàn)證集來(lái)訓(xùn)練模型。得到如下結(jié)果:
真正率指的是所有被顧問(wèn)認(rèn)定為較好創(chuàng)意的數(shù)據(jù),其中被模型預(yù)測(cè)為較好創(chuàng)意所占的百分比;真負(fù)率指的是所有被顧問(wèn)認(rèn)定為較差創(chuàng)意的數(shù)據(jù),其中被模型預(yù)測(cè)為較差創(chuàng)意所占的百分比;準(zhǔn)確率值得是所有數(shù)據(jù)當(dāng)中,模型預(yù)測(cè)與源數(shù)據(jù)相符所占總數(shù)的百分比。可以輕易看出,真負(fù)率比較高,但真正率較低。所以本實(shí)驗(yàn)對(duì)于那些較好創(chuàng)意的預(yù)測(cè)準(zhǔn)確性不夠高。
邏輯回歸中各維度的參數(shù)如下:
參數(shù)說(shuō)明:維度當(dāng)中的參數(shù)的正負(fù)說(shuō)明該維度對(duì)模型預(yù)測(cè)為較好創(chuàng)意的貢獻(xiàn)方向,例如:點(diǎn)擊單價(jià)的參數(shù)為負(fù)數(shù),說(shuō)明點(diǎn)擊單價(jià)越高,越不能對(duì)其預(yù)測(cè)較好創(chuàng)意,所以方向是負(fù)的;而點(diǎn)擊率參數(shù)為正數(shù),說(shuō)明點(diǎn)擊率越高,越能對(duì)其預(yù)測(cè)為較好創(chuàng)意,所以方向是正的。
從這個(gè)表中有如下結(jié)論:
1. 綜合所有數(shù)據(jù),顧問(wèn)對(duì)于一張創(chuàng)意是否為一張好的創(chuàng)意,最重要看的維度從高到底是點(diǎn)擊率、收藏率、加購(gòu)率和回報(bào)率。這三者可以起到?jīng)Q定性的作用;
2. 點(diǎn)擊單價(jià)、收藏成本和加購(gòu)成本的決定作用在第二階級(jí),其決定性因素不如第一點(diǎn)提到的因素。
三、去除依賴時(shí)間的數(shù)據(jù)維度的SVM分類器
由于邏輯回歸對(duì)于真正率來(lái)說(shuō)不夠高,因此想用SVM分類器(Suport Vector Mechine )。雖然其訓(xùn)練效率低,當(dāng)時(shí)它對(duì)于低維密實(shí)的向量有較好的敏感性,所以嘗試使用它來(lái)做為此訓(xùn)練。模型訓(xùn)練參數(shù)中伽馬等于2,閾值為1e-4,訓(xùn)練結(jié)果如下:

與邏輯回歸相比,真正率大幅升高,而且整體的準(zhǔn)確率也得到提高,所以該模型作為一個(gè)候選模型。
四、基于Dense網(wǎng)絡(luò)的分類器
當(dāng)使用SVM分類器時(shí),發(fā)現(xiàn)雖然整個(gè)模型的準(zhǔn)確率很高,但是真正率、真負(fù)率和準(zhǔn)確率三者還是有一定差異,這導(dǎo)致整個(gè)模型預(yù)測(cè)的結(jié)果不穩(wěn)定,很容易在以后的使用當(dāng)中,因?yàn)閿?shù)據(jù)結(jié)構(gòu)不同而導(dǎo)致預(yù)測(cè)準(zhǔn)確性受到質(zhì)疑。再者SVM的參數(shù)調(diào)整太過(guò)于麻煩,而且其預(yù)測(cè)速度太慢,因此想找更優(yōu)的方法。
最后,我確定了使用Dense網(wǎng)絡(luò),它與一般的全連接網(wǎng)絡(luò)區(qū)別在于它對(duì)于隔層網(wǎng)絡(luò)數(shù)據(jù)是有復(fù)用的,與傳統(tǒng)全連接網(wǎng)絡(luò)只與鄰接層有關(guān)大大不同。這一特點(diǎn)使得它有諸多優(yōu)點(diǎn):
(1)有效解決梯度消失問(wèn)題;
(2)強(qiáng)化特征傳播 ;
(3)支持特征重用;
(4)大幅度減少參數(shù)數(shù)量。
因此,對(duì)于少維度的輸入,其復(fù)用特征有利于梯度的反饋。模型的當(dāng)中的反饋函數(shù)使用”relu”,它比一般的“sigmod”更靈活,為了避免過(guò)擬合,每層網(wǎng)絡(luò)訓(xùn)練完一次后都會(huì)有50%的幾率抑制神經(jīng)元,訓(xùn)練次數(shù)設(shè)定為100次,學(xué)習(xí)訓(xùn)練優(yōu)化器使用自適應(yīng)動(dòng)態(tài)二階學(xué)習(xí)函數(shù): “RMSprop”.基于以上數(shù)據(jù)搭建Dense網(wǎng)絡(luò),而網(wǎng)絡(luò)輸入的是每個(gè)創(chuàng)意數(shù)據(jù),輸出是該創(chuàng)意是否為優(yōu)質(zhì)創(chuàng)意。
在訓(xùn)練網(wǎng)絡(luò)的過(guò)程中,發(fā)現(xiàn)去除時(shí)間維度的數(shù)據(jù)有可能影響整個(gè)網(wǎng)絡(luò)的訓(xùn)練。就是有相當(dāng)一部分創(chuàng)意,它的收藏率、加購(gòu)率和回報(bào)率等維度都為0,因?yàn)檫@種數(shù)據(jù)過(guò)多,導(dǎo)致網(wǎng)絡(luò)對(duì)不好的創(chuàng)意判斷出現(xiàn)了偏差,對(duì)非優(yōu)質(zhì)創(chuàng)意的預(yù)測(cè)能力有下降。因此在樣本的處理上,對(duì)這些數(shù)據(jù)有了刪減。
神經(jīng)網(wǎng)絡(luò)與前兩種相對(duì)比,發(fā)現(xiàn)真正率、真負(fù)率和準(zhǔn)確率三者非常接近,而且都比之前的高,并且通過(guò)多次訓(xùn)練都得到相似的結(jié)果。說(shuō)明對(duì)于本次實(shí)驗(yàn)來(lái)說(shuō),使用神經(jīng)網(wǎng)絡(luò)的效果穩(wěn)定性總是優(yōu)于前兩者,因此選擇其作為最終的預(yù)測(cè)模型。
五、初步實(shí)踐運(yùn)用
既然已經(jīng)有了模型,那我們以后只要輸入某張創(chuàng)意的信息,模型立刻就可以輸出它是較好創(chuàng)意還是一般的創(chuàng)意,而且該創(chuàng)意有多大的可能性是好創(chuàng)意,有多大可能性是一般創(chuàng)意。
例如,我們有一張創(chuàng)意,近30天數(shù)據(jù)如下: [2,7,1.8,0.08,0.01,0.02,86,80,0.6],這代表它是奶粉/輔食/營(yíng)養(yǎng)品/零食類目,第七層級(jí),點(diǎn)擊單價(jià)是1.8,點(diǎn)擊率8%,收藏率1%,加購(gòu)率2%,收藏成本86元,加購(gòu)成本80元,點(diǎn)擊回報(bào)率是0.6。
從運(yùn)行結(jié)果截圖可以看出,輸出結(jié)果為零,即預(yù)測(cè)為較一般的創(chuàng)意;而且它被預(yù)測(cè)為一般創(chuàng)意的概率達(dá)到95%,被預(yù)測(cè)為較好創(chuàng)意的概率只有5%,因此它只能被當(dāng)做較一般的創(chuàng)意。
例如,我們有一份十二月的創(chuàng)意數(shù)據(jù),然后我們逐個(gè)輸入來(lái)預(yù)測(cè),預(yù)測(cè)出來(lái)的結(jié)果我們就可以主動(dòng)告訴智鉆操作人員有哪些創(chuàng)意不太好,需要更改;哪些創(chuàng)意表現(xiàn)較好,繼續(xù)仿照風(fēng)格文案出創(chuàng)意,大大降低人工篩選分析的時(shí)間,把更多的時(shí)間投入到店鋪本身的工作中。
六、總結(jié):
當(dāng)我們擁有大量數(shù)據(jù)時(shí),我們應(yīng)該做的是讓它指導(dǎo)我們的工作;當(dāng)我們懂得如何讓歷史指導(dǎo)我們工作的時(shí)候,就應(yīng)該讓它成為一種模型化的標(biāo)準(zhǔn)來(lái)自動(dòng)執(zhí)行。所以,通過(guò)大量數(shù)據(jù)構(gòu)造創(chuàng)意分類器的模型,以后我們只需要定期訓(xùn)練模型,它就能自動(dòng)地按照以前智鉆顧問(wèn)的想法分類創(chuàng)意。
一來(lái)可以降低人工成本,解放更多的生產(chǎn)力,讓顧問(wèn)有更多的時(shí)間去做店鋪的事情,而不是重復(fù)分析;二來(lái)可以讓模型成為一個(gè)統(tǒng)一的分析標(biāo)準(zhǔn),避免因?yàn)槿藶榈脑驅(qū)Φ赇伔治鲇须p重標(biāo)準(zhǔn)。讓創(chuàng)意得到更公平更廣泛的判斷。
本次實(shí)驗(yàn)也找到一些亮點(diǎn),對(duì)于本次實(shí)驗(yàn)的數(shù)據(jù)來(lái)說(shuō),一張好的創(chuàng)意其實(shí)考慮較多的是點(diǎn)擊率、收藏率、加購(gòu)率和回報(bào)率等維度,這可以幫助我們以后的操作人員需要更加關(guān)注這些維度來(lái)分析創(chuàng)意。
通過(guò)本次項(xiàng)目,可以由創(chuàng)意數(shù)據(jù)作為一個(gè)出發(fā)點(diǎn),讓更多的電商數(shù)據(jù)訓(xùn)練為模型,使得推廣更加智能,讓電商真正沐浴在人工智能的陽(yáng)光下。
輸入店鋪信息,獲取專業(yè)全方面分析
* 您的信息將被嚴(yán)格保密,請(qǐng)放心填寫(xiě)