極客星球 | 機器學習賦能商業地產決策進階

語言: CN / TW / HK

編者按:3月3日,由MobTech袤博科技主辦的【CoderPark】第二季數智有為——以“資料科學賦能商業場景應用與決策”為主題在雲端舉行。MobTech袤博科技資深資料探勘工程師葉秋在直播中詳細分享了多維規則及前沿演算法分析處理,助力商業地產決策進階。以下為詳細內容:

本次分享的主題聚焦商業地產垂直行業的資料應用,在商業地產這一垂直領域當中,數字化的程序相對金融科技等行業較慢,甚至慢於傳統制造業,歸根結底最大的原因是相關資料的匱乏和分析方法論的缺失。

一直以來,商業地產的運營主要依靠大量的線下調研和運營人員的過往經驗,在數字化的今天,很多方法已經趕不上資料智慧時代的步伐,越來越多的商場因為運營不善而歇業倒閉。如何快速準確的把握市場走勢和消費情況,越發成為盤活商場的重大法寶。

▌商場客流的資料應用

商場客流作為商業地產資料應用的重要引數,在資料應用有至關重要的作用。商場需要關注周邊競對的客流趨勢,客流的多少極大地反映了此地商業氛圍是否濃厚,大家的消費慾望是否強烈。

1、演算法詳情:

A、引數的選擇及其侷限性

根據行業人員的相關經驗,一個商場主要受到以下幾個方面影響:首先是需求,包括周邊人口、交通的覆蓋等,其次是供給,包括商業規模,周邊的競對商圈情況等。據此篩選出一些引數來輔助判斷客流的日波動趨勢,還增加了一些時間屬性,如節假日、週末和工作日,從而豐富引數的可選性。例如:1公里內公交站個數、1公里內地鐵站個數、周邊3公里的居住人口等。而統計值和真實情況之間則會丟失大量資訊,如公交站在1公里內的分佈、步行的距離、人口的分佈等都會影響引數自身的可用性。如果將底層改成使用畫素和位置的場景來豐富資訊,那簡單的機器學習演算法則無法適用。因此,需要考慮將模型改為深度神經網路模型,這對工程化的使用和資料的樣本有一定的要求。

B、模型的選擇及其侷限性

在模型選擇上,為了便於工程化的部署,並滿足傳統行業對可解釋性的需求,本文在幾個基本的迴歸機器學習演算法中,選擇了適用cart分類迴歸樹作為決策樹的隨機森林模型,有以下幾點好處:

  • 通過呼叫sklearn中的importance函式,能夠比較直觀地看出各個引數對結果的影響大小(對後續特徵工程優化,以及前端銷售十分重要);
  • 隨機森林整體模型方差小,泛化性較強;
  • 隨機森林模型相比傳統決策樹,雖然可解釋性差一些,但是鑑於原始資料異常值和噪聲的情況較多,更看重其魯棒性,且不需要剪枝,不需要關注超參,方便訓練;
  • 隨機森林模型工程化簡單,不需要太多的工程化程式碼和硬體支援,模型檔案不大,壓縮後一般在幾兆到幾十兆之間,單個伺服器可以輕鬆載入

同時,隨機森林也有其侷限性,模型採用的是cart決策樹作為單個學習器,預測的結果永遠在樣本的最大值和最小值之間。此外,值劃分較多特徵容易對RF的決策產生更大的影響,從而影響擬合的模型效果,而在商業地產場景中,無法生成大量豐富的樣本來均衡這種樣本特徵分佈不均的情況。同時,隨機森林作為有監督模型,需加入Y值,而這在商業地產場景中是悖論,樣本Y越多,模型的價值越低。

2、模型效果和產品展示

模型的整體效果較好,MAPE(就是平均百分比誤差)為9%,當前誤差≥20%的佔比為9%。以MobTech袤博科技的智圖產品為例,當前某商場客流已展示其中,並用作分析,例如疫情對客流的影響,聖誕活動效果的評估等。以下是具體案例:某商場1月受疫情影響,整體客流下降一半,聖誕節活動期間帶動客流,聖誕日當日客流環比上週提升了15%。

某商場2021年月客流

某商場2021年12月客流

▌職住地分析的資料應用

除了客流以外,訪客的居住地和工作地對商場的運營也有很大的輔助作用,商場可以以此估算自己的主力客群,並根據客群的屬性制定自己的推廣和運營策略。該演算法主要由兩部分組成:地塊分類演算法、dbscan聚類。

1、 地塊分類演算法

相關概念解釋:

A 使用者分佈函式

使用者當日日活累計百分比隨著時間從0點0分0秒到23時59分59秒,從0增長至1。例如我們可以把以下序列準變為樣本分佈函式:

[1,3,4,6,9,10,15,18],在此案例中,每個躍度為1/n即1/8,可得樣本分佈圖像為:

B wasserstein距離

用來計算兩個分佈的差異,又叫推土機距離,這是因為該距離定義中由一個分佈轉變為另一個分佈所需要的代價和挖土填土的過程十分相似。

考慮兩個離散的分佈P和Q

為了讓兩個分佈相同,我們一個個變數觀察:

  • 為了讓P1和Q1相同,我們需要P1把手頭上的3分2到P2去,這樣P1和Q1都等於1,此時P2=4,其他數保持不變,這個過程是不是十分像挖掉P1的土填到P2上;
  • 為了讓P2和Q2相同,我們也要做類似的挖土填土工作,但注意,此時P2手頭上由P1填的2,因此現在P2是4,但是Q2依然是2,因而P2也要挖2分土給P3,保持和Q2一樣;
  • P3和Q3也是一樣,但此時P3為3,Q3為4,因為我們只能先挖土再填土,因此要Q3挖1分土給Q4,這樣P4和Q4也能夠一樣。

每一步的代價計算公式為 ,第0步我們規定為0,故有

所以最終的總代價,也即Wasserstein距離則為

該挖土填土的過程可以由下圖表示

可以類似的將P、Q轉化成樣本分佈:

P[1(3),2(2),3(1),4(4)],Q[1(1),2(2),3(4),4(3)]。與上面樣本分佈的例子不同的是,樣本並非均等分為1/n,而是括號中的權重,同理,可以畫出對應的影象:

藍色分佈和橙色分佈所圍成的“面積”即是所求的wasserstein距離

演算法應用:根據以上原理,我們可以得出兩個地塊中不同時間下活躍人群的分佈差異:

A地塊和B地塊原始活躍人群時間分佈分別為以下:

轉化為樣本分佈則為如下:

則這兩個地塊的不同時間下活躍人群的wasserstein距離為:5460

地塊分類演算法的整體效果和升級方向:當前基於地塊人群時間分佈函式的地塊分類演算法的準確度為70%~80%。採用衛星影像做實體分割是更準確、更有效的方法,可以參考達摩院的aiearth平臺,但是此方法對於工程化以及衛星影象資料來源有一定的要求。

上海部分割槽域的小區地塊分佈

2、DBSCAN聚類演算法

dbscan聚類就是比較基礎的一個聚類演算法,只是在原有的演算法基礎上進行了加權。在計算核心物件時,時間正確且位置正確的點會得到更高的得分,更容易被計算為核心物件。其餘和正常的dbscan聚類演算法一致,最後會聚類出來一個簇,簇的中心點即為可能的經緯度,最後從多個簇中選擇點位或停留天數最多的那個簇的中心點作為最後的結果。

如這裡的示例,有兩個簇,左邊這個簇明顯點位數更多

模型效果和產品展示

通過右圖,可以很明顯的看到居住地分佈的密度大小,對於商場運營人員可以提供不小的幫助。

總結:

隨著疫情逐漸消退和經濟增長驅動轉向國內消費,線下消費迎來了新一輪的增長風潮。商場商圈作為線下消費的重要組成部分引起了廣泛關注,商場的開發和運營成為了地產開發商關注的核心議題。在這其中,客流決定著商場的基本盤,而職住地的分佈情況又能說明客群的基礎情況。以上分享核心聚焦商業地產垂直行業的資料應用,幫助讀者瞭解更多資料智慧在商業地產行業的應用賦能價值。