日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

用戶畫像分析概述

本文為您介紹在Hologres中標(biāo)簽、畫像分析場(chǎng)景的最佳實(shí)踐。

行業(yè)背景與痛點(diǎn)

畫像分析是指基于沉淀用戶的自然屬性、行為屬性、偏好屬性等屬性挖掘用戶興趣點(diǎn)、分析群體特征的過程。用戶畫像是刻畫出用戶個(gè)體或者用戶群體全方位特征的重要手段,能為運(yùn)營(yíng)分析人員提供用戶的偏好、行為等信息進(jìn)而優(yōu)化運(yùn)營(yíng)策略,為產(chǎn)品提供準(zhǔn)確的用戶角色信息以便進(jìn)行針對(duì)性的產(chǎn)品設(shè)計(jì)。畫像系統(tǒng)通常集用戶特征加工、畫像分析功能于一身;經(jīng)過離線特征加工、維度標(biāo)簽映射、載入即席分析數(shù)據(jù)等過程,提供實(shí)時(shí)人群分析、圈選能力。

畫像分析方法論已經(jīng)廣泛應(yīng)用于各個(gè)行業(yè),是賦能經(jīng)營(yíng)策略優(yōu)化、精細(xì)化運(yùn)營(yíng)、精準(zhǔn)營(yíng)銷的重要手段。例如以下典型場(chǎng)景。

  • 廣告行業(yè):通過人群畫像洞察,實(shí)現(xiàn)精準(zhǔn)廣告定向投放。

  • 游戲行業(yè):分析高流失率客戶群,調(diào)整策略增加用戶粘性。

  • 教育行業(yè):分析課程質(zhì)量,達(dá)到增加續(xù)保率的目標(biāo)。

畫像分析的工程場(chǎng)景往往由于數(shù)據(jù)復(fù)雜度、數(shù)據(jù)量級(jí)和查詢模式等因素導(dǎo)致系統(tǒng)可穩(wěn)定性、運(yùn)維性、可擴(kuò)展性面臨重重困難。

  • 運(yùn)維人員需要維護(hù)多套數(shù)據(jù)鏈路用于實(shí)時(shí)離線處理,陷入繁重鏈路維護(hù)工作;傳統(tǒng)OLAP(On-Line Analysis Processing)引擎存儲(chǔ)計(jì)算耦合,計(jì)算存儲(chǔ)不成比例場(chǎng)景浪費(fèi)資源,系統(tǒng)擴(kuò)容遷移成本高。

  • 運(yùn)營(yíng)人員需要靈活的圈選能力,單用戶描述維度多可能多達(dá)數(shù)千維度,涵蓋屬性、行為等數(shù)據(jù)模式,MOLAP(Multidimensional OLAP)產(chǎn)品可以毫秒響應(yīng)但缺乏靈活性,ROLAP(Relational OLAP)產(chǎn)品靈活性好但響應(yīng)時(shí)間較長(zhǎng),無法兼顧性能和靈活性。

Hologres解決方案

針對(duì)上述兩方面問題,基于新一代實(shí)時(shí)數(shù)倉產(chǎn)品Hologres的系統(tǒng)能力,通過配置數(shù)據(jù)鏈路、選擇插件庫、根據(jù)系統(tǒng)規(guī)模選擇方案步驟快速構(gòu)建高性能、可擴(kuò)展的系統(tǒng)方案。

  • 數(shù)據(jù)鏈路

    依托Hologres通常只需要維護(hù)一套數(shù)據(jù)鏈路即可實(shí)現(xiàn)實(shí)時(shí)、離線的數(shù)據(jù)處理,避免常見的數(shù)據(jù)不同步、數(shù)據(jù)孤島等問題,如下圖所示數(shù)據(jù)鏈路Hologres 數(shù)據(jù)集成能力方面的主要優(yōu)勢(shì)如下。

    • 無縫集成DataWorks產(chǎn)品,通過接入配置即可解決復(fù)雜數(shù)據(jù)依賴問題,構(gòu)建穩(wěn)定離線數(shù)據(jù)處理加載流程。

    • 為實(shí)時(shí)寫入場(chǎng)景提供了基于LSM(Log-Structured Merge)結(jié)構(gòu)的行存儲(chǔ),與Flink進(jìn)行深度融合,能夠?yàn)閷?shí)時(shí)標(biāo)簽、實(shí)時(shí)特征處理等場(chǎng)景提供穩(wěn)定的性能支撐。

    • 具有聯(lián)邦查詢能力,通過外部表方式直接訪問MaxCompute、OSS、其他Hologres實(shí)例等外部數(shù)據(jù)存儲(chǔ)。

  • 畫像計(jì)算

    Hologres兼容PostgreSQL生態(tài),內(nèi)置函數(shù)豐富;同時(shí),經(jīng)過阿里內(nèi)部及云上客戶實(shí)踐,逐步沉淀了諸多高效的畫像計(jì)算插件,如下所示。

    • 精確去重運(yùn)算:Roaring Bitmap函數(shù)

      Hologres原生支持了Roaring Bitmap類型,通過高效率的Bitmap壓縮算法,支持集合的交叉并等運(yùn)算,支持Bitmap聚合,適合計(jì)算超高維度、基數(shù)的表,常用于去重(UV計(jì)算)、標(biāo)簽篩選、近實(shí)時(shí)用戶畫像等計(jì)算中。

    • 行為數(shù)據(jù)圈人:明細(xì)圈人函數(shù)

      在行為類數(shù)據(jù)的圈人場(chǎng)景中,我們經(jīng)常碰到這樣的情況:行為數(shù)據(jù)按照天或者小時(shí)記錄在行為表中,當(dāng)需要找到一段時(shí)間內(nèi)出現(xiàn)某些行為的用戶時(shí),因?yàn)閿?shù)據(jù)記錄成多行而沒辦法直接過濾,所以就需要使用行為表多次JOIN自己來實(shí)現(xiàn)過濾。例如如下場(chǎng)景,在記錄用戶行為明細(xì)表中找出 時(shí)間在[20210216~20210218之間 & [click購物車] & [view收藏頁]的用戶。行為明細(xì)表

      Hologres提供了bit_constructbit_orbit_match函數(shù),能夠規(guī)避JOIN的性能負(fù)擔(dān),簡(jiǎn)化SQL的復(fù)雜度。函數(shù)的主要思路是通過一遍數(shù)據(jù)過濾,將uid滿足條件的集合以位數(shù)組形式存放,通過bit_match函數(shù)在位數(shù)組進(jìn)行與運(yùn)算實(shí)現(xiàn)數(shù)據(jù)過濾,示例如下。

      WITH tbl as (
      SELECT uid, bit_or(bit_construct(
        a := (action='click' and page='購物車'),
        b := (action='view' and page='收藏頁'))) as uid_mask
        FROM ods_app_dwd
      WHERE ds < '20210218' AND ds > '20210216'
      GROUP BY uid )
      SELECT uid from tbl where bit_match('a&b', uid_mask);
      • bit_construct函數(shù):用于對(duì)表達(dá)求值并存儲(chǔ)在響應(yīng)位數(shù)組中,比如對(duì)SQL中的a、b兩個(gè)條件,計(jì)算結(jié)果分別是[1,0], [0,0], [0,1]...

      • bit_or函數(shù):用于將兩個(gè)位數(shù)組按位進(jìn)行或運(yùn)算,用來聚合uid上滿足的條件集合。

      • bit_match:用于判斷位數(shù)組是否符合某個(gè)表達(dá)式,比如計(jì)算a&b表達(dá)式[1,1] 結(jié)果為True,[1,0]為False。

    • 漏斗留存分析:漏斗分析函數(shù)

      漏斗分析是常見的轉(zhuǎn)化分析方法,它用于反映用戶各個(gè)階段行為的轉(zhuǎn)化率,廣泛應(yīng)用于用戶行為分析和App數(shù)據(jù)分析的流量分析、產(chǎn)品目標(biāo)轉(zhuǎn)化等數(shù)據(jù)運(yùn)營(yíng)與數(shù)據(jù)分析。

      窗口漏斗函數(shù)(WindowFunnel)可以搜索滑動(dòng)時(shí)間窗口中的事件列表,并計(jì)算條件匹配的事件列表的最大長(zhǎng)度。留存分析是最常見的典型用戶增長(zhǎng)分析場(chǎng)景,用戶經(jīng)常需要繪制數(shù)據(jù)可視化圖形,分析用戶的留存情況。通過漏斗函數(shù)、留存函數(shù)的使用,可以快速計(jì)算出用戶留存效果以及對(duì)應(yīng)的轉(zhuǎn)化率,減少復(fù)雜Join開銷,提高性能。

    • 向量檢索:Proxima向量計(jì)算

      Proxima是一款來自于阿里達(dá)摩院的實(shí)現(xiàn)向量近鄰搜索的高性能軟件庫,相比于Fassi等開源的同類產(chǎn)品,Proxima在穩(wěn)定性、性能等方面更為出色,能夠提供業(yè)內(nèi)高性能和效果顯著的基礎(chǔ)方法模塊,支持圖像、視頻、人臉等各種應(yīng)用場(chǎng)景。Hologres向量查詢功能與Proxima深度整合,提供高性能的向量查詢服務(wù)。支持快速的RNN(Radius Nearest Neighbor)搜索、KNN(K-Nearest Neighbor)搜索、dot_product向量化點(diǎn)積計(jì)算組件。

  • 工程方案

    在畫像系統(tǒng)發(fā)展的不同階段,往往對(duì)工程方案有不同的成本和性能訴求。根據(jù)實(shí)踐經(jīng)驗(yàn),綜合系統(tǒng)數(shù)據(jù)規(guī)模、實(shí)現(xiàn)成本、查詢性能等三因素,總結(jié)兩種典型的工程方案如下。

    • 標(biāo)簽寬表方案

      寬表標(biāo)簽方案適合標(biāo)簽較少(通常小于1000個(gè)),數(shù)據(jù)更新不頻繁的場(chǎng)景。主體思路是在離線階段把相對(duì)穩(wěn)定的屬性表離線聚合成寬表,將多張表的關(guān)聯(lián)操作轉(zhuǎn)化一張寬表的運(yùn)算,新的標(biāo)簽列的場(chǎng)景通過增加列的方式實(shí)現(xiàn),以表的方式提供非常靈活的標(biāo)簽計(jì)算,詳情請(qǐng)參見畫像分析 - 標(biāo)簽寬表

    • RoaringBitmap優(yōu)化方案

      基于RoaringBitmap的超大規(guī)模畫像分析場(chǎng)景,適合數(shù)據(jù)量大,標(biāo)簽規(guī)模多,需要去重處理的場(chǎng)景。通過結(jié)合RoaringBitmap結(jié)構(gòu)化存儲(chǔ),實(shí)現(xiàn)天然去重,避免Join開銷,降低運(yùn)算復(fù)雜度,快速出結(jié)果。詳情請(qǐng)參見畫像分析 - RoaringBitmap優(yōu)化方案

    • Bit-sliced Index優(yōu)化方案

      基于BSI(Bit-sliced Index)的超大規(guī)模畫像分析,適合用戶屬性標(biāo)簽(性別、省份)與用戶行為標(biāo)簽(PV、訂單金額等)關(guān)聯(lián)分析的場(chǎng)景,對(duì)高基數(shù)(去重值數(shù)量大)的行為標(biāo)簽計(jì)算有顯著優(yōu)化作用。通過BSI和Roaring Bitmap,將標(biāo)簽去重、UNION、JOIN等復(fù)雜計(jì)算全部轉(zhuǎn)化為BSI二進(jìn)制運(yùn)算與Roaring Bitmap交并差運(yùn)算,降低運(yùn)算復(fù)雜度,快速得出行為標(biāo)簽分析結(jié)果。詳情請(qǐng)參見畫像分析 - BSI優(yōu)化方案(Beta)

  • 小結(jié)

    Hologres通過豐富的畫像分析插件支持,和自身優(yōu)異的性能,被阿里集團(tuán)內(nèi)部多個(gè)核心業(yè)務(wù)廣泛應(yīng)用于標(biāo)簽計(jì)算、畫像分析的場(chǎng)景,例如阿里媽媽、搜索、高德以及眾多公共云用戶使用。服務(wù)擴(kuò)展能力和穩(wěn)定性歷經(jīng)生產(chǎn)考驗(yàn),這也證明Hologres是構(gòu)建低開發(fā)運(yùn)維成本,高穩(wěn)定性擴(kuò)展性畫像分析平臺(tái)的不二之選。