■數(shù)據(jù)庫制作占整個(gè)分析工作量的80%
為了制作用于構(gòu)建顧客行動模式的數(shù)據(jù)庫,首先要明確其利用目的,在此基礎(chǔ)上再進(jìn)行設(shè)計(jì)工作;然后根據(jù)設(shè)計(jì)的內(nèi)容進(jìn)行數(shù)據(jù)清理及個(gè)人、家庭信息匯總等。通過這樣的一個(gè)過程,整理出一人一行的一覽表,制成構(gòu)建顧客行動模式可使用的數(shù)據(jù)庫。這一系列處理會相當(dāng)麻煩,因此需要花費(fèi)很多時(shí)間。大體而言,數(shù)據(jù)庫的制作要占到所有分析工作80%的工作量。
■數(shù)據(jù)庫設(shè)計(jì)占整個(gè)數(shù)據(jù)庫制作思考量的80%
數(shù)據(jù)庫的設(shè)計(jì)是從已有的數(shù)據(jù)中,找出構(gòu)建顧客行動模式所必需的信息。該數(shù)據(jù)庫中的數(shù)據(jù)是顧客行動模式的輸入數(shù)據(jù),因此會直接影響模式的精度,所以數(shù)據(jù)庫設(shè)計(jì)是所有分析工作中最重要的。要對數(shù)據(jù)進(jìn)行細(xì)查,就應(yīng)清楚地將能夠使用的數(shù)據(jù)和不能夠使用的數(shù)據(jù)分開。對于這項(xiàng)工作,不僅需要有縝密的思考能力,還要有在過去的經(jīng)驗(yàn)及事物的基礎(chǔ)上進(jìn)行類推的能力??梢哉f在數(shù)據(jù)庫的做成中數(shù)據(jù)庫的設(shè)計(jì)就需要占用其80%的思考量(見下圖)。
■需要的數(shù)據(jù)并不一定全部都有
數(shù)據(jù)庫設(shè)計(jì)時(shí),要找到構(gòu)建顧客行動模式所必需的數(shù)據(jù),但是想要的信息并不一定全都在自己公司的數(shù)據(jù)儲備中。如果要制作精細(xì)的顧客行動模式,從顧客屬性到對應(yīng)的顧客履歷,所有與顧客相關(guān)的數(shù)據(jù)都是需要的。但事實(shí)是,不要說收集所有的數(shù)據(jù),就連收集到的數(shù)據(jù)也不一定完整。而且,收集到的數(shù)據(jù)也并不都可以直接用于顧客行動模式的構(gòu)建。例如數(shù)據(jù)的分布范圍過廣,或者牽連的其他數(shù)據(jù)過多時(shí),就難以得到正確的分析結(jié)果,或者無法充分把握其結(jié)果。為了解決此類問題,需把收集到的數(shù)據(jù)進(jìn)行適當(dāng)加工,轉(zhuǎn)換成對構(gòu)建顧客行動模式有幫助的信息。例如,將郵政編碼改為行政區(qū)域和地域名稱,對購買履歷中的購買次數(shù)、累計(jì)金額、間隔等變量做一個(gè)說明等。對于變量的說明需要經(jīng)驗(yàn)和靈感,因此數(shù)據(jù)挖掘被公認(rèn)為是一種專業(yè)技能。
■數(shù)據(jù)庫和個(gè)人信息匯總處理
即使作出了變量說明,也還沒有完成構(gòu)建顧客行動模式的數(shù)據(jù)庫。還有必要進(jìn)行數(shù)據(jù)清理和個(gè)人信息匯總。數(shù)據(jù)清理是對信息內(nèi)容進(jìn)行大小寫、全半角的統(tǒng)一,數(shù)據(jù)類型的統(tǒng)一,對空格(Null)等缺損值插入文字列實(shí)施處理,并用數(shù)據(jù)清理工具調(diào)整為可處理狀態(tài)。如果一個(gè)項(xiàng)目的缺失信息太多,那么這個(gè)項(xiàng)目將從模式的構(gòu)建內(nèi)容中去除。
個(gè)人信息匯總是對數(shù)據(jù)庫中存在的顧客信息進(jìn)行統(tǒng)一化處理,把住所、姓名、電話號碼、出生年月等作為關(guān)鍵項(xiàng)目,將同一顧客的多條記錄匯總成一條記錄。屆時(shí),再利用合算總額等方法,整合關(guān)鍵項(xiàng)目以外的信息。對于家庭,也存在統(tǒng)一化的必要,可以用同樣的方法實(shí)行家庭信息匯總。
