在傳統的消費年代,商家對消費者的購買(mǎi)行為分析止于購買(mǎi)即可。而當移動(dòng)互聯(lián)網(wǎng)出現之后,消費者購買(mǎi)后又多了一個(gè)動(dòng)作,即分享,從而導致消費習慣的改變。消費市場(chǎng)決定著(zhù)商家的產(chǎn)品和整體策略,因此,在社會(huì )化大數據爆炸的年代,各行業(yè)企業(yè)不得不關(guān)注這些大數據,并提高其利用率。
如何對這些數據進(jìn)行整理分析?以獲得市場(chǎng)的真實(shí)聲音,了解客戶(hù)的切實(shí)需求。企業(yè)不禁陷于困擾。“暢想IT講堂”近日組織了關(guān)于大數據的在線(xiàn)討論,用友UAP數據平臺產(chǎn)品部高級軟件工程師張欣從他的項目經(jīng)驗分享了,企業(yè)如何構建大數據,處理大數據、以及如何應用大數據,從而利用大數據帶來(lái)商業(yè)價(jià)值。
張欣的分享來(lái)源于他在用友UAP UDH大數據處理平臺研發(fā)過(guò)程中總結的技術(shù)以及項目經(jīng)驗。UAP UDH可以快速整合,存儲,集中管理不同類(lèi)型的海量數據,如非結構化數據、半結構化數據或結構化數據。以提供批量和實(shí)時(shí)數據處理、數據分析等服務(wù)。
用友UAP UDH大數據處理平臺工作流程
很多企業(yè)并不是十分了解大數據,也不清楚該如何構建大數據平臺。張欣表示,對于傳統企業(yè)而言,做大數據之前應該有個(gè)具體的計劃,分步驟進(jìn)行。大體可分為四步:
第一,建立數據化計劃,實(shí)現數據的錄入和存儲。企業(yè)最先需要考慮的是,需要保存哪種類(lèi)型的數據。各個(gè)公司因業(yè)務(wù)模式的不同,需要涉及的數據也不同,是更加關(guān)注產(chǎn)品還是企業(yè)運營(yíng)亦或是人力的數據資源,這些問(wèn)題需要在建立數據計劃之初就做好考量。但涉及客戶(hù)體驗的數據,比如家電的零售賣(mài)場(chǎng),客戶(hù)所使用的交通工具、是否有老人小孩的陪同、看了哪些產(chǎn)品、最后買(mǎi)了什么等,這種客戶(hù)素描形式的數據需要企業(yè)特別重視?;蛟S當前這些數據還沒(méi)有納入到業(yè)務(wù)體系的審核,但在傳統企業(yè)比拼客戶(hù)體驗和服務(wù)意識的未來(lái),這些數據經(jīng)過(guò)挖掘和分析后將產(chǎn)生巨大的價(jià)值。
第二,建立數據管理和應用平臺。一方面是在IT基礎設施上建立良好的數據處理結構,比如數據分布式存儲、Hadoop等。另一方面,企業(yè)要建立自己的數據管理和應用平臺,包含數據的采集、數據庫架構、分析模塊、API出口等。需要注意的是,數據管理和應用平臺的建立必須從公司業(yè)務(wù)出發(fā),建設適合自己的平臺。
而在數據中心建設方面,隨著(zhù)云計算和數據中心的出現,外部數據中心的成本已經(jīng)大幅下降,數據存儲的費用也不再是障礙,對于很多企業(yè)來(lái)說(shuō)建立自己的數據中心并無(wú)必要。
第三,量體裁衣建立數據團隊。對于大型企業(yè)而言,自建數據挖掘的團隊,無(wú)論是在成本控制還是業(yè)務(wù)響應機制上都相對有利。然而對于中小型企業(yè)來(lái)說(shuō),自建團隊有時(shí)候并無(wú)必要,對這類(lèi)型企業(yè)而言最重要的是將大數據思維融入到企業(yè)的日常運營(yíng)之中。
另外,張欣表示,企業(yè)應為團隊培養一些正確的數據理念,比如,數據的形式是多種多樣的;數據的作用是用來(lái)預測;利用分布式存儲計算搭建數據處理結構;考量數據的外部影響,或者搜索是否存在影響企業(yè)發(fā)展的外部數據。
第四,定制好外部數據戰略。有哪些外部數據會(huì )影響企業(yè)的業(yè)務(wù)發(fā)展?比如競爭品牌的售價(jià)、銷(xiāo)售策略等。這些都需要提前搜尋和沉淀。建立外部數據計劃,企業(yè)可以通過(guò)公共渠道或者數據交換的方法來(lái)進(jìn)行。
用友UAP UDH大數據處理平臺的構成
當企業(yè)的大數據基礎工作都準備就緒之后,就可以對這些數據進(jìn)行有針對性的管理了。依照數據收集、收集存儲、數據處理、數據呈現這樣一個(gè)順序來(lái)進(jìn)行。
首先,數據收集。要對來(lái)自網(wǎng)絡(luò )包括物聯(lián)網(wǎng)和機構信息系統的數據附上時(shí)空標志,去偽存真,盡可能收集異源甚至是異構的數據,必要時(shí)還可與歷史數據對照,多角度驗證數據的全面性和可信性。
其次,數據存儲。要達到低成本、低能耗、高可靠性目標,通常要用到冗余配置、分布化和云計算技術(shù),在存儲時(shí)要按照一定規則對數據進(jìn)行分類(lèi),通過(guò)過(guò)濾和去重,減少存儲量,同時(shí)加入便于日后檢索的標簽。
然后,數據處理。有些行業(yè)的數據涉及上百個(gè)參數,其復雜性不僅體現在數據樣本本身,更體現在多源異構、多實(shí)體和多空間之間的交互動(dòng)態(tài)性,難以用傳統的方法描述與度量,處理的復雜度很大,需要將高維圖像等多媒體數據降維后度量與處理,利用上下文關(guān)聯(lián)進(jìn)行語(yǔ)義分析,從大量動(dòng)態(tài)而且可能是模棱兩可的數據中綜合信息,并導出可理解的內容。
最后,結果的可視化呈現,使結果更直觀(guān)以便于洞察。目前,盡管計算機智能化有了很大進(jìn)步,但還只能針對小規模、有結構或類(lèi)結構的數據進(jìn)行分析,談不上深層次的數據挖掘,現有的數據挖掘算法在不同行業(yè)中難以通用。
用友UAP UDH功能——系統監控
有很多大數據平臺就是依照以上四個(gè)步驟的順序來(lái)進(jìn)行企業(yè)大數據處理工作的。比如用友UAP UDH,它可以快速整合、存儲、集中管理不同類(lèi)型的海量數據;提供批量和實(shí)時(shí)數據處理服務(wù);與數據集成等產(chǎn)品結合為構建企業(yè)級數據倉庫提供大數據平臺支撐;結合商業(yè)智能產(chǎn)品和挖掘可視化產(chǎn)品,提供數據分析服務(wù);提供平臺中各服務(wù)組件的管理和系統運行監控等。構建于UDH的可靠存儲以及數據的批量和實(shí)時(shí)處理能力,還可以為企業(yè)提供基于搜索引擎,語(yǔ)義分析的精準、全面、自動(dòng)化的監測和分析。
張欣介紹,用友UAP UDH已經(jīng)做出了一個(gè)應用——輿情信息管理系統。通過(guò)系統可以對企業(yè)的各種維度的輿情信息進(jìn)行監控,收集競爭對手的情報,行業(yè)的發(fā)展動(dòng)態(tài)等數據變成自己的報告。據了解,目前用友集團UAP中心目前已用該自主研發(fā)的輿情信息系統替代了之前的第三方平臺服務(wù)。張欣告訴記者,UAP UDH還將會(huì )把輿情信息管理作為一項服務(wù)對外提供。