【數(shù)據(jù)挖掘】大數(shù)據(jù)的啟蒙認知課
【數(shù)據(jù)挖掘】大數(shù)據(jù)的啟蒙認知課
講師介紹 涂子沛 前阿里巴巴副總裁 涂子沛,本科畢業(yè)于華中科技大學計算機系。后在武警部隊和政府部門工作十年,期間開發(fā)過全國第一個反偷渡遣返信息管理系統(tǒng),擔任過邊防巡邏艇的指揮官。后辭去公職赴美讀書,獲卡內(nèi)基梅隆大學公共管理碩士、信息科學碩士學位。在美期間,先后擔任軟件公司的數(shù)據(jù)倉庫程序員、數(shù)據(jù)部門經(jīng)理、數(shù)據(jù)中心主任、亞太事務總監(jiān)、首席研究員等職務。 曾為《南方都市報》、《時代周報》、艾瑞網(wǎng)等多個報刊網(wǎng)站撰寫專欄,著有《大數(shù)據(jù)》、《數(shù)據(jù)之巔》。 課程介紹 大數(shù)據(jù) 互聯(lián)網(wǎng) 數(shù)據(jù)挖掘 數(shù)據(jù)和石油一樣早就存在,但是人類開采使用石油后,才進入百年的石油時代;我們這個時代數(shù)據(jù)的采集、記錄手段變多變廉價了,挖掘技術(shù)更加強大,數(shù)據(jù)的作用日益凸顯,所以將要進入數(shù)據(jù)時代。 講座:阿里巴巴涂子沛:大數(shù)據(jù)的啟蒙認知課 1.1大數(shù)據(jù)的定義 1.2數(shù)據(jù)疊加可引發(fā)爆炸效果 1.3大數(shù)據(jù)幫助機器代替小二腐敗 1.4業(yè)務數(shù)據(jù)化和數(shù)據(jù)業(yè)務 (1)數(shù)據(jù)調(diào)研 業(yè)務調(diào)研 整個阿里集團涉及的業(yè)務涵蓋電商、數(shù)字娛樂、導航(高德)、 移動互聯(lián)網(wǎng)服務等領域。各個領域又涵蓋多個業(yè)務線,如電商領域就涵蓋了 C 類(淘寶、天貓、天貓國際)與 B 類(阿里巴巴中文站、國際站 、速賣通)業(yè)務。數(shù)據(jù)倉庫是要涵蓋所有業(yè)務領域,還是各個業(yè)務領域獨自建設,業(yè)務領域內(nèi)的業(yè)務線也同樣面臨著這個問題。所以要構(gòu)建大數(shù)據(jù)數(shù)據(jù)倉庫,就需要了解各個業(yè)務領域、業(yè)務線的業(yè)務有什么共同點和不同點 ,以及各個業(yè)務線可以細分為哪幾個業(yè)務模塊,每個業(yè)務模塊具體的業(yè)務流程又是怎樣的。業(yè)務調(diào)研是否充分,將會直接決定數(shù)據(jù)倉庫建設是否成功 。 需求調(diào)研 可以想象一下,在沒有考慮分析師、業(yè)務運營人員的數(shù)據(jù)需求的情況下,根據(jù)業(yè)務調(diào)研建設的數(shù)據(jù)倉庫無疑等于閉 門造車。了解了業(yè)務系統(tǒng)的業(yè)務后并不代表就可以進行實施了,此刻要做的就是收集數(shù)據(jù)使用者的需求,可以去找分析師、業(yè)務運營人員了解他們有什么數(shù)據(jù)訴求,此時更多的就是報表需求。需求調(diào)研的途徑有兩種: 一是根據(jù)與分析師、業(yè)務運營人員的溝通(郵件、 IM )獲知需求: 二是對報表系統(tǒng)中現(xiàn)有的報表進行研究分析 。通過需求調(diào)研分析后,就清楚數(shù)據(jù)要做成什么樣的。很多時候,都是由具體的數(shù)據(jù)需求驅(qū)動數(shù)據(jù)倉庫團隊去了解業(yè)務系統(tǒng)的業(yè)務數(shù)據(jù),這兩者并沒有嚴格的先后順序。舉例 : 分析師需要了解大淘寶(淘寶、天貓、天貓國際) 一級類目的成交金額。當獲知這個需求后,我們要分析根據(jù)什么(維度)匯總,以及匯總什么(度量),這里類目是維度,金額是度量:明細數(shù)據(jù)和匯總數(shù)據(jù)應該怎樣設計?這是一個公用的報表嗎?是需要沉淀到匯總表里面,還是在報表工具中進行匯總? (2)架構(gòu)設計 數(shù)據(jù)域劃分 數(shù)據(jù)域是指面向業(yè)務分析,將業(yè)務過程或者維度進行抽象的集合。業(yè)務過程可以概括為一個個不可拆分的行為事件,如下單、支付、退款。為保障整個體系 的生命力,數(shù)據(jù)域需要抽象提煉,并且長期維護和更新,但不輕易變動。在劃分數(shù)據(jù)域時,既能涵蓋當前所有的業(yè)務需求,又能在新業(yè)務進入時無影響地被包含進已有的數(shù)據(jù)域中或者擴展新的數(shù)據(jù)域。 構(gòu)建總線矩陣 在進行充分的業(yè)務調(diào)研和需求調(diào)研后,就要構(gòu)建總線矩陣了。需要做兩件事情 :明確每個數(shù)據(jù)域下有哪些業(yè)務過程;業(yè)務過程與哪些維度相關,并定義每個數(shù)據(jù)域下的業(yè)務過程和維度。 (3)規(guī)范定義 規(guī)范定義主要定義指標體系,包括原子指標、修飾詞、時間周期和派生指標。 (4)模型設計 模型設計主要包括維度及屬性的規(guī)范定義,維表、明細事實表和匯總事實表的模型設計。略。 (5)總結(jié) OneData 的實施過程是一個高度迭代和動態(tài)的過程, 一般采用螺旋式實施方法。在總體架構(gòu)設計完成之后,開始根據(jù)數(shù)據(jù)域進行迭代式模型設計和評審。在架構(gòu)設計、規(guī)范定義和模型設計等模型實施過程中,都會引人評審機制,以確保模型實施過程的正確性。
- 大。204 MB
- 百度網(wǎng)盤觀看下載
- 點數(shù):15 點數(shù)
- 咨詢QQ:1686059668