很多人會(huì)問(wèn)到亞馬遜有沒有什么規(guī)律可循,其實(shí)可以改變思路,了解學(xué)習(xí)下亞馬遜推薦的算法,就能很輕松的掌握亞馬遜的規(guī)律 。
現(xiàn)在看到的一些推薦算法,一般都是基于物品自身相似性、用戶瀏覽習(xí)慣、喜歡、購(gòu)買記錄等數(shù)據(jù)的綜合過(guò)濾推薦。
例如商品甲被用戶1,2,3,4,5,6等購(gòu)買過(guò),商品乙被用戶1,3,4,5,7購(gòu)買過(guò),然后把123456作為商品甲的特征屬性數(shù)據(jù),13457作為商品乙的特征數(shù)據(jù),然后計(jì)算商品甲和乙的相似度。
因?yàn)橥粋€(gè)人群買了甲,又買了乙,那么甲和乙一定有某種關(guān)聯(lián)。
采集用戶的購(gòu)買、瀏覽、收藏等商品數(shù)據(jù),把用戶購(gòu)買的商品列出來(lái),當(dāng)作用戶的屬性緯度。例如用戶A購(gòu)買了商品1、2、3、4、5,用戶B購(gòu)買了商品1、2、5、6,那么可以簡(jiǎn)單的將12345和1256分別作為A和B的屬性特征字符串,計(jì)算A和B的相似度,經(jīng)過(guò)簡(jiǎn)單的聚類將用戶聚成幾個(gè)類別(鄰居)。
假設(shè)A和B同屬于一個(gè)聚類,那么可以稱A和B有比較相似的偏好,繼而可以將A買過(guò)而B沒買過(guò)的其他商品推薦給B。在這一個(gè)流程里,可以發(fā)揮的地方有很多:
用戶的行為數(shù)據(jù)需要去噪音(買了多少商品以下的用戶不考慮,有代購(gòu)的不考慮,如何精準(zhǔn)的判斷代購(gòu),商品時(shí)效性的考慮,數(shù)據(jù)的時(shí)間跨度等等);
計(jì)算相似度的時(shí)候跟第一點(diǎn)中提到的一樣,并不是所有商品對(duì)用戶的描述度都是一樣的??赡軆r(jià)格低的重要程度就沒有昂貴的商品重要。
通過(guò)聚類計(jì)算鄰居的時(shí)候,聚類算法又是另一門學(xué)科了,或者選擇分類算法。然后聚類的門檻選擇都是需要很長(zhǎng)時(shí)間的測(cè)試、觀察、修改的,需要時(shí)間的積累。
瀏覽、購(gòu)買、收藏等歷史數(shù)據(jù)是不是可以協(xié)同過(guò)濾?,F(xiàn)在很多網(wǎng)站給出的推薦,都不是單一推薦算法的,一個(gè)算法的輸出可以作為另一個(gè)算法的輸入,可以是多個(gè)算法的輸出綜合篩選,這也是一個(gè)需要長(zhǎng)時(shí)間積累的地方。
比如衣服甲和衣服乙,對(duì)于它們?cè)?/span>風(fēng)格、價(jià)格段、分類、屬性、品牌定位等等的表現(xiàn),來(lái)計(jì)算它們之間的相似度,如果相似度高,那么在有用戶瀏覽甲的時(shí)候,就可以推薦乙,實(shí)際當(dāng)然沒這么簡(jiǎn)單。
衣服的這些屬性是不依賴于用戶的。正是不依賴與用戶的行為數(shù)據(jù),因此比較死板,完全沒有個(gè)性化的推薦。
這個(gè)算法的思路很多人都清楚,但是越是簡(jiǎn)單的算法,要達(dá)到好的效果就越是難,特別是推薦這種轉(zhuǎn)化率非常低的算法。
商品有幾十個(gè)屬性,對(duì)不同分類的商品,并不是所有的屬性都是有必要納入相似度計(jì)算的,已經(jīng)納入的屬性但是重要性也是有區(qū)別的,這樣一來(lái),光給不同類別商品篩選必要屬性以及設(shè)置這些屬性在相似度計(jì)算中的權(quán)重值,就是一項(xiàng)非常浩大的工程了。亞馬遜的推薦系統(tǒng)在全球行業(yè)中也是最早的,相信他們?cè)谶@個(gè)問(wèn)題上肯定有自己一套迅速有效的方法。
重點(diǎn)是同一次購(gòu)買記錄(當(dāng)然也不是必然的,看自己的選擇)。
首先收集數(shù)據(jù)就需要把一單購(gòu)買一種商品的過(guò)濾掉。然后一次對(duì)每一條記錄中進(jìn)行成對(duì)提取統(tǒng)計(jì),簡(jiǎn)單的就是兩兩統(tǒng)計(jì)次數(shù),這種提取出來(lái)的都是兩個(gè)商品被同時(shí)購(gòu)買的次數(shù),適用于一對(duì)一推薦。
還有一種是通過(guò)FPTree算法,不光是一對(duì)一推薦,可以一對(duì)二,二對(duì)一。
在這個(gè)流程里面,關(guān)聯(lián)規(guī)則挖掘算法非常重要,其中置信度和支持度也是需要不斷調(diào)整的地方。
所有推薦系統(tǒng)之間的數(shù)據(jù)共享、數(shù)據(jù)的定時(shí)自動(dòng)更新、自動(dòng)學(xué)習(xí)。
總的來(lái)說(shuō),推薦算法大部分都是很樸素的,但是需要運(yùn)用的好,沒有長(zhǎng)時(shí)間的積累是做不到的。
僅僅是聘請(qǐng)一些算法工程師,運(yùn)用一些算法框架,想取得好的推薦效果,基本是不可能的。只有算法與具體業(yè)務(wù)相結(jié)合才能產(chǎn)生化學(xué)反應(yīng)。
熱門文章