日日干天天干_欧美精品一区二区精品久久_上课和老师在教室做h文_上课胸露出来被男同桌摸

大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型
技術(shù)論壇
發(fā)表于 主頁 > 技術(shù)論壇

  大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型下面我們將探討如何用模型來表示簡單的、描述性的統(tǒng)計(jì)數(shù)據(jù)。如果我們可以描述所要找的事物,那么想要找到它就會變得很容易。這就是相似度模型的來歷——某事物與所要尋找的事物越相似,其得分就越高下面就是查詢模型,該模型正在直銷行業(yè)很受歡迎,并廣泛用于其它領(lǐng)域。樸素貝葉斯模型是表查找模型中一種非常有用的泛化模型,通常表查詢模型適用于 較低的維度,而樸素貝葉斯模型準(zhǔn)許更多的維度加入。還有線性回歸和邏輯回歸模型,都是最常見的預(yù)測建模技術(shù)。回歸模型,用于表示散點(diǎn)圖中兩個變量之間的關(guān) 系。多元回歸模型,這個準(zhǔn)許多個單值輸入。隨后介紹邏輯回歸分析,該技術(shù)擴(kuò)展了多元回歸以限制其目標(biāo)范圍,例如:限定概率估計(jì)。還有固定效應(yīng)和分層回歸模 型,該模型可將回歸應(yīng)用于個人客戶,在許多以客戶為中心的數(shù)據(jù)挖掘技術(shù)之間搭建了一座橋梁相似度模型中需要將觀察值和原型進(jìn)行比較,以得到相應(yīng)的相似度得分。觀察值與原型相似度越高,其得分也就越高。一種度量相似度的方法是測量距離。觀 察值與原型值之間的距離越近,觀察值的得分就越高。轉(zhuǎn)摘 如何控制鏡頭的成像質(zhì)量!當(dāng)每個客戶細(xì)分都有一個原型時,該模型可以根據(jù)得分把客戶分配到與其最相似的原型所在的客戶細(xì)分中相似度模型有原型和一個相似度函數(shù)構(gòu)成。新數(shù)據(jù)通過計(jì)算其相似度函數(shù),就可以計(jì)算出相似度得分通過出版社的讀者比一般大眾要富有,而且接受教育的程度要高為例。通常前者要比后者在富有程度、教育程度的比例大三倍。這樣我們就可以給讀者一個訊息——“工資很高,并且受過良好的教育”如果要把對讀者的描述表示成一個可以識別該雜志潛在的讀者的模型,就需要對理想的讀者做出精確的定義,并以此來量化潛在讀者與理想讀者之間的相似程度相似度和距離是同一概念的兩種不同描述方式,但是它們度量的方向不同。使用距離作為度量指標(biāo)時,如果兩個事物彼此非常靠近,那么兩者就很相似。所以當(dāng)兩者距離很小時,相似度就會很高例如:出版社的理想讀者的受教育程度是16年,美國攝影師拍攝自己母親的性行為照片并公開發(fā),年收入100000美元。那么受教育14年,年收入75000美元的潛在客戶與理想客戶之間的相似度 是多少呢?另外它們與受教育12年,并且年收入為150000美元的潛在客戶又有多少相似呢?這時候,我們要選擇一個度量的標(biāo)準(zhǔn),歐式距離。當(dāng)我們計(jì)算一 潛在客戶與理想客戶(x=16,y=100000)之間的距離時,就會發(fā)現(xiàn)收入在計(jì)算中占了主導(dǎo)地位,因?yàn)樗娜≈当冉逃晗薮蟮亩嗟枚唷_@就引入另一個 問題:度量尺度。解決方法:將兩值分別減去相應(yīng)的平均值然后除以相應(yīng)的標(biāo)準(zhǔn)差。這樣就把兩者轉(zhuǎn)化成分?jǐn)?shù),然后用分?jǐn)?shù)代替原來的值來計(jì)算歐式距離歐式距離僅計(jì)算距離方法之一。這里才采用歐式距離只是為了將原型目標(biāo)的一種統(tǒng)計(jì)描述與某種距離函數(shù)結(jié)合起來,搭建一種相似度模型。有了潛在用戶與理想客戶之間的距離,企業(yè)宣傳片制作就可以對潛在客戶排序,或者將距離作為另一種計(jì)算的輸入,得到預(yù)期收入或相應(yīng)概率構(gòu)建相似度模型,首先是要對原型進(jìn)行描述,或得到一個用于與其他對象進(jìn)行比較的理想對象。這些描述必須表示為度量,對于那些與理想值較近或較遠(yuǎn)的對象,這些變量的取值要明顯不同實(shí)現(xiàn)數(shù)據(jù)挖掘模型的一個簡單方法就是查詢表。表查詢模型思想就是:相似的人所作出的反應(yīng)也相似。對一個新觀測值的評分涉及兩個步驟。一、為觀測值指定一個特定的標(biāo)簽或主鍵。主鍵對應(yīng)于查詢表中的一個單元格。二、被分配到某一個單元格的所有記錄都會有一個得分,該分值在模型訓(xùn)練時就被賦予該單元格分配主鍵的方式有多種。決策樹模型適用了規(guī)則集將觀測值分配到特定的葉節(jié)點(diǎn),葉節(jié)點(diǎn)的ID就可以作為一個可用于查詢得分的主鍵。聚類技術(shù)為記錄指定標(biāo)簽,這里的聚類標(biāo)簽就可以作為查詢主鍵構(gòu)建查詢表,一、為查詢表選擇輸入變量。將訓(xùn)練集中的每條記錄精確地分配到該表中的一個單元格中。使用訓(xùn)練集中的統(tǒng)計(jì)數(shù)據(jù)來刻畫單元格的特征,這些 統(tǒng)計(jì)數(shù)據(jù)包括平均值、標(biāo)準(zhǔn)差以及落入該單元格的訓(xùn)練實(shí)例個數(shù)。在為模型評分的時候會用到這些統(tǒng)計(jì)數(shù)據(jù)。分?jǐn)?shù)可以是數(shù)值型目標(biāo)的平均值,也可以是屬于某一特 定類別的比例,或者是單元格中占主導(dǎo)地位的類別每個維度都應(yīng)該是一個對目標(biāo)有影響的變量。理想情況,輸入變量不應(yīng)該彼此相關(guān),實(shí)際上,很難避免之間不相關(guān)。相關(guān)變量的實(shí)際影響是,訓(xùn)練完成后有些單元格僅含有幾個訓(xùn)練實(shí)例,這會使得估計(jì)值的置信度偏低。實(shí)際情況可能好點(diǎn),因?yàn)橐u分的新數(shù)據(jù)在那些單元格中也是稀疏的例如:在RFM模型中,有一個維度是采購總數(shù),還有一個維度是整個生存期的花費(fèi)。在兩個變量高度相關(guān),因?yàn)橥ǔG闆r下,額外的購買會創(chuàng)造額外的收入。很少有記錄會落入到購買數(shù)量最大而收入?yún)s很少,或收入很高而采購量卻很少的單元格情況應(yīng)該避免使用高度相關(guān)的變量作為查詢表的維度,因?yàn)檫@些相關(guān)變量會導(dǎo)致大量的稀疏的單元格。包含訓(xùn)練樣本過少的單元格會產(chǎn)生置信度偏低的目標(biāo)估計(jì)值對維度數(shù)的主要限制是單元格中訓(xùn)練記錄的數(shù)量。在維度數(shù)與每個維度上分到的訓(xùn)練樣本數(shù)之間有一個權(quán)衡。使用較少的維度,可以在每一 個維度上進(jìn)行更加精細(xì)的劃分。在實(shí)際處理過程中,可能會出現(xiàn)該單元格中什么都沒有,有的時候這種情況是確實(shí)存在的。這種異常情況,表中應(yīng)該包含具有默認(rèn)得 分的單元格,這樣就可為那些與任意主鍵不匹配的記錄分配得分。典型的默認(rèn)異常單元格得分,就是平均值在實(shí)際的過程中,并不需要,每一個類別劃分一個維度。影視視頻制作維度的分割應(yīng)該依實(shí)而用。對于一個維度的合理劃分是按高、中、企業(yè)宣傳片制作低劃分,而對另一個維度的合理劃 分可能是按照百分比來劃分。有的時候,根據(jù)業(yè)務(wù)規(guī)則來定分割點(diǎn),遵循這些特定的分割點(diǎn)劃分記錄可能那個比等分劃分更有意義。有監(jiān)督的分割,可以用于確保分 割的有效性。這個后面在討論維度劃分好以后,在訓(xùn)練集上計(jì)算每個單元格的得分就簡單了。對于數(shù)值型目標(biāo)而言,得分=平均值。對于類別目標(biāo),每個類別會有一個得分=每個單元格類標(biāo)簽的比例。這樣對于每個類都有一個概率估計(jì),即待評分的數(shù)據(jù)記錄屬于該類的概率有些單元格沒有分配到足夠多的數(shù)據(jù),這會導(dǎo)致目標(biāo)估計(jì)值的置信度較低。對于這類單元格該怎么辦?一、減少每個維度上的劃分?jǐn)?shù)量。二、減少定義稀疏單元格的維度數(shù)例如:構(gòu)建某購物網(wǎng)站物品清單價格的競爭力模型。基于清單熟悉感,點(diǎn)擊吸引力的分析考慮四個維度:對于一些比較受歡迎的產(chǎn)品,類似生化危機(jī)或是變形金剛的懸念驚悚,使用這四個維度是有道理的。而對于不受歡迎的商品,沒有足夠多的清單來支持所有維度,所以要丟棄一些維度。對于一些產(chǎn) 品,放棄星期幾這一維度就OK。對于已協(xié)商產(chǎn)品,只是基于三個維度而不是基于四個維度之間的比較。對于一些產(chǎn)品,甚至只留下一個維度,對于這類產(chǎn)品,要做 的就是持續(xù)刪除維度并合并單元格,直到每個單元格含有足夠的多的數(shù)據(jù)RFM模型,稱為近期、頻率以及貨幣。RFM背后的邏輯很簡單。近期下單的客戶在不久的將來再次購買的概率可能性非常大。在過去有許多購買記錄的顧 客更有可能在不久的將來再次購買,并且在過去消費(fèi)較多的客戶更有可能在將來消費(fèi)更多。RFM是一種最大化現(xiàn)有客戶收益的技術(shù),而不是吸引新客戶的技術(shù)將客戶分配大RFM單元中,三個RFM變量需要轉(zhuǎn)化為三個量化指標(biāo)。近期:距離上次購買的天數(shù)或周數(shù),用于得到R的得分第二個變量頻率,通常是以前下單的總數(shù),記錄F的得分。最后一個是客戶生存期中的總的花費(fèi),該值用于創(chuàng)建M的得分。每個維度5等分。由于維度之間具 有相關(guān)性,如F維和M維,所以各個單元格的客戶數(shù)量并不相等。要做的就是將所有的數(shù)據(jù)都分配到合適的單元格中,而且每個單元格要有足夠多的記錄,從而目標(biāo) 估計(jì)值具有一個可以接受的置信度對于每個營銷活動,客戶都會在RFM單元格之間轉(zhuǎn)移。那些做出響應(yīng)的客戶對增加其消費(fèi)頻率和消費(fèi)總額,并且會減少距上一次購買的時間。這些新的取值通常都會遷移到單元格中。沒有響應(yīng)的客戶也可能因距上一次購買時間的增加而轉(zhuǎn)移到新的單元格。其實(shí)這就是定期的數(shù)據(jù)更新,模型更新。數(shù)據(jù)的遷移,會導(dǎo)致原來的期望的變化,在數(shù)據(jù)單元格遷移過程中,要不斷的了解客戶的需求,及時的更改數(shù)據(jù)增量響應(yīng)建模的目標(biāo)是識別那些容易被說服的潛在客戶——受營銷影響最大的人。RFM可以看成是對客戶營銷活動響應(yīng)能力的預(yù)測。在定義好的RFM單元 格之后,需要為每個單元格分配成員,要么是接收營銷信息的測試組成員,要么就是不接受該信息的對照組成員。基于測試組和對照組兩個分組之間的響應(yīng)率之差決 定了營銷活動對于發(fā)現(xiàn)潛在客戶的能力。對于測試組和對照組之間的響應(yīng)率差異最大的單元格,營銷獲得產(chǎn)生的影響也是最大的。但這些單元格的響應(yīng)率卻未必是最大的表查詢模型簡單有效,但是存在一個問題。隨著輸入數(shù)量的額增加,每個單元格中訓(xùn)練樣本的數(shù)量會迅速減少。如果維度為2,且每一維有10個不同的變 量,那么就需要100個單元格,而當(dāng)有3個維度時,就需要1000個單元格,4個維度就是10000.這樣成指數(shù)級的增長,哪怕的傳統(tǒng)數(shù)據(jù)挖掘中都會遇到 明顯瓶頸當(dāng)試圖預(yù)測某一個概率值時,樸素貝葉斯模型就提供這一辦法。基本思想:每個輸入變量本身就包含一些預(yù)測需要的信息。這些變量都具有預(yù)測能力。根據(jù)取消率的顯著差異性,可將每個變量 劃分在不同的范圍中。

公司宣傳片拍攝-版權(quán)信息
公司宣傳片拍攝-
虛擬演播室拍攝 三維動畫制作 MG動畫制作 影視視頻制作 企業(yè)宣傳片制作 公司宣傳片拍攝 天源文化傳播有限公司公司地址:天津市西青區(qū)王頂?shù)躺藤Q(mào)城58眾創(chuàng) 本站視頻作品采用知識共享署名非商業(yè)性使用津ICP備14005706號-1

友情鏈接: 企業(yè)廣告片拍攝 活動策劃 企業(yè)宣傳片制作 年會活動策劃 廣告片拍攝制作 動畫制作 多媒體企業(yè)展廳 影視視頻拍攝制作 廣告策劃公司 MV拍攝制作 企業(yè)宣傳片制作 天津活動策劃 設(shè)計(jì)制作公司 虛擬演播室 短視頻運(yùn)營 動畫制作公司 廣告片制作公司 活動拍攝 VR拍攝