近年來,伴隨著全球經(jīng)濟(jì)的快速發(fā)展,電子商務(wù)領(lǐng)域空前繁榮,物流業(yè)更是被稱為“第三利潤源泉”,2010年至2020年間我國快遞行業(yè)業(yè)務(wù)量總量逐年增長,預(yù)計(jì)2021年至2025年,快遞業(yè)務(wù)量年均增長15.4%,為滿足快遞業(yè)務(wù)的發(fā)展需求,合理的物流配送中心位置顯得尤為重要。
目前國內(nèi)外對(duì)物流配送中心的選址研究主要有:在應(yīng)急物流選址方面,魻zdamar等提出了自然災(zāi)難發(fā)生后的應(yīng)急物流和應(yīng)急物資配置問題,以物資送達(dá)時(shí)間最短和救治傷患延誤最小建立一種多目標(biāo)物流選址模型
在物流配送中心選址的方法方面,主要包括定性研究法和定量研究法。其中定性研究法通常采用專家判斷或者多指標(biāo)評(píng)價(jià)法來選擇最優(yōu)方案,如張春玲運(yùn)用模糊綜合評(píng)價(jià)法和層次分析法解決了多個(gè)備選點(diǎn)最優(yōu)的問題
基于上述研究問題,本文主要從K值確定及數(shù)據(jù)類型的聚類對(duì)K-means算法進(jìn)行優(yōu)化。本文將綜合運(yùn)用肘部法及輪廓系數(shù)確定K-means算法中的合理K值;針對(duì)無法處理類別型變量的問題,采用變量編碼的方法,將類別型變量轉(zhuǎn)化為數(shù)值型變量,然后再進(jìn)行聚類。最后基于實(shí)際數(shù)據(jù),對(duì)研究區(qū)域的最優(yōu)物流配送中心位置進(jìn)行進(jìn)一步的分析探討。
配送中心選址過程中需考慮多種影響因素,本文對(duì)2022年以來的文獻(xiàn)進(jìn)行梳理總結(jié),將影響因素分為經(jīng)濟(jì)因素、經(jīng)營環(huán)境因素、基礎(chǔ)設(shè)施因素、自然因素、運(yùn)輸物品特點(diǎn)因素和其他因素六大類。對(duì)影響因素統(tǒng)計(jì)分類后結(jié)果如圖1所示,根據(jù)ABC分類法,對(duì)物流配送中心選址的各項(xiàng)影響因素進(jìn)行分類,具體可分為關(guān)鍵因素、一般因素和次要因素三類。通過ABC分類法,對(duì)選址文獻(xiàn)進(jìn)行綜合考慮,本文選取以下劃分標(biāo)準(zhǔn)對(duì)物流配送中心選址影響因素進(jìn)行分類:累計(jì)頻率為0%~80%為關(guān)鍵影響因素,80%~90%為一般影響因素,90%~100%為次要因素。
由圖1可知,運(yùn)輸成本、運(yùn)營成本、固定成本、需求量、服務(wù)滿意度水平、運(yùn)輸方式、道路可達(dá)性和交通設(shè)施這8項(xiàng)因素為關(guān)鍵影響因素,經(jīng)營環(huán)境和地形條件為一般影響因素,其余為次要影響因素。本文將以關(guān)鍵影響因素為基礎(chǔ)探究選址問題。
結(jié)合數(shù)據(jù)的可獲得性及影響因素特點(diǎn),本文將建立物流配送中心選址影響因素指標(biāo)體系如表1所示:
K-means算法中,K值決定在該聚類算法中所要分配聚類的簇的多少,簇的多少影響著算法的聚類效果。而通常情況下,想確定最佳K值比較困難,目前常用的確定K值的方法有肘部法及輪廓系數(shù)法。肘部法聚類時(shí)使用的評(píng)價(jià)指標(biāo)為數(shù)據(jù)集中所有樣本點(diǎn)到其中心簇的距離之和的平方(SSE),肘部法選擇的并不是誤差平方和最小的K值,而是誤差平方和突然變小時(shí)對(duì)應(yīng)的K值,因此對(duì)于降低速率較為均勻的數(shù)據(jù)無法確定合適K值。在此種情況下,輪廓系數(shù)法能夠很好地解決該問題。輪廓系數(shù)值是常用的聚類效果評(píng)價(jià)指標(biāo),該指標(biāo)結(jié)合內(nèi)聚度和分離度兩個(gè)因素,具體計(jì)算過程如下:
(1)假設(shè)已經(jīng)通過聚類算法將數(shù)據(jù)進(jìn)行了聚類,并最終得到k個(gè)簇,對(duì)于簇中的每個(gè)樣本點(diǎn)i,分別計(jì)算其輪廓系數(shù),其中需要對(duì)每個(gè)樣本點(diǎn)i計(jì)算下面兩個(gè)指標(biāo):
①a(i)為樣本點(diǎn)i到與其同屬同一個(gè)簇的其他樣本點(diǎn)的距離平均值,該值越小,說明該樣本屬于該類的可能性越大。
②b(i)為樣本點(diǎn)i到其他簇中所有樣本的平均距離的最小值。
(2)該樣本點(diǎn)的輪廓系數(shù)為:
對(duì)于所有樣本點(diǎn)的輪廓系數(shù)的平均值為該聚類結(jié)果的總輪廓系數(shù)。
本文數(shù)值型數(shù)據(jù)均采取歸一化處理,在影響選址的指標(biāo)體系中除數(shù)值型數(shù)據(jù)外,還有類似運(yùn)輸方式等類別型數(shù)據(jù),對(duì)于該種類型數(shù)據(jù)的處理本文采取獨(dú)熱編碼(One-Hot Encoding)將每個(gè)類別值表示為一個(gè)二進(jìn)制向量,轉(zhuǎn)換為可以處理的連續(xù)型數(shù)據(jù)。該種方法保留了類別信息,不引入任意的數(shù)值關(guān)系,同時(shí)可以避免數(shù)值的大小對(duì)模型產(chǎn)生不正確的影響。適用于大多數(shù)機(jī)器學(xué)習(xí)算法,尤其是那些基于距離度量的算法,如本文的K-means算法。
獨(dú)熱編碼的過程如下:首先,確定類別型特征中的所有不同類別值。然后,對(duì)于每個(gè)類別值,創(chuàng)建一個(gè)維度與類別數(shù)量相等的二進(jìn)制向量。最后,將每個(gè)二進(jìn)制向量的對(duì)應(yīng)維度上的值設(shè)置為1,其他維度上的值設(shè)置為0。如表1中運(yùn)輸類型指標(biāo),有鐵路/公路/航空三種運(yùn)輸方式,通過獨(dú)熱編碼的方式可轉(zhuǎn)化為:鐵路:[1,0,0];公路:[0,1,0];航空:[0,0,1]。原來的類別型特征被轉(zhuǎn)換為了三個(gè)維度的連續(xù)型數(shù)據(jù),繼而能夠在后續(xù)聚類算法中應(yīng)用。
Mac Queen首次提出了K均值聚類算法,它是一種非監(jiān)督學(xué)習(xí)的硬聚類算法,通過迭代的方式尋找最優(yōu)的聚類結(jié)果。假設(shè)已獲取的物流配送中心營業(yè)點(diǎn)樣本點(diǎn)有I=(1,2,…,i)個(gè),需要考慮的影響因素具有N=(1,2,…,n)個(gè),對(duì)于第i個(gè)樣本點(diǎn)其特征向量可以表示為
依據(jù)上述公式,逐個(gè)計(jì)算每個(gè)特征的差值的平方,并對(duì)它們進(jìn)行求和并進(jìn)行平方根運(yùn)算,然后計(jì)算每對(duì)樣本之間的歐氏距離,得到每個(gè)元素表示相應(yīng)樣本之間的歐氏距離。根據(jù)歐氏距離結(jié)果將數(shù)據(jù)點(diǎn)分配到最近的聚類中心,然后計(jì)算聚類后的各簇內(nèi)樣本點(diǎn)到聚類中心的歐氏距離和,設(shè)定總誤差平方和SSE為:
對(duì)于所有樣本點(diǎn)的總誤差的平方和為該聚類結(jié)果的總誤差平方,SSE越小聚類效果越好。除考慮樣本點(diǎn)到該簇聚類中心點(diǎn)距離外,在聚類過程中還需考慮樣本點(diǎn)至其他簇中樣本點(diǎn)的距離,即輪廓系數(shù),具體計(jì)算公式如式(1)所示。計(jì)算后選取最佳K值,確定最優(yōu)聚類方案,運(yùn)用Matlab編程后輸出聚類結(jié)果。
上海市作為中國經(jīng)濟(jì)發(fā)展迅速的城市之一,擁有眾多的物流配送中心,選取物流服務(wù)業(yè)中的順豐速運(yùn)為代表研究其在上海市的物流配送中心選址問題?;诎俣乳_放平臺(tái)與Python平臺(tái)獲取上海市大虹橋商區(qū)順豐速運(yùn)末端營業(yè)點(diǎn)目前布局,如圖2所示。這些物流配送中心分布在城市的不同區(qū)域,有的地理位置優(yōu)越,有的則位于偏遠(yuǎn)的郊區(qū)。為了更好地管理和優(yōu)化這些物流配送中心,需要對(duì)它們進(jìn)行聚類分析,并選取合適的聚類中心作為物流配送中心。
根據(jù)本文研究所需從不同渠道獲得不同類型的數(shù)據(jù),本文所需數(shù)據(jù)如道路等級(jí)等來源于百度開放平臺(tái);人口、勞動(dòng)力成本等數(shù)據(jù)來自上海市統(tǒng)計(jì)局頒布的上海統(tǒng)計(jì)年鑒及順豐官網(wǎng)2021年度報(bào)告,基于各末端營業(yè)點(diǎn)中的人口數(shù)量占總?cè)丝诘谋壤?jì)算各營業(yè)點(diǎn)人口成本。
本文使用肘部法和輪廓系數(shù)法度量聚類結(jié)果如圖3所示,運(yùn)用肘部法對(duì)該樣本數(shù)據(jù)進(jìn)行聚類時(shí),隨著K值的增大,SSE值會(huì)逐漸降低,但K值下降速率平緩,無明顯突然下降趨勢(shì),該種方法下無法確定最佳K值;而輪廓系數(shù)法K值為3時(shí)輪廓系數(shù)最大,較為合適。
選取K為3,對(duì)大虹橋商區(qū)順豐現(xiàn)有物流配送中心營業(yè)點(diǎn)進(jìn)行聚類,聚類結(jié)果如圖4所示。
上述聚類結(jié)果以運(yùn)輸成本、固定成本以及類別型影響因素為依據(jù),為更好地衡量該方案聚類效果,對(duì)比傳統(tǒng)K-means聚類算法的物流總成本,物流總成本包含運(yùn)輸成本、運(yùn)營成本和固定成本。傳統(tǒng)K-means聚類方法無法對(duì)類別型影響因素做出計(jì)算,因此在數(shù)據(jù)輸入時(shí),傳統(tǒng)K-means算法僅能輸入數(shù)值型影響因素特征值,改進(jìn)K-means算法能夠同時(shí)輸入數(shù)值型影響因素與類別型影響因素特征值,結(jié)果如表2所示。
從中可以看出,傳統(tǒng)K-means算法聚類結(jié)果K值為4時(shí),對(duì)比改進(jìn)后考慮類別型因素K值為3時(shí)物流總成本為34.153 2萬元,降低8.76%,運(yùn)營成本降低14.85%,固定成本降低8.09%。由此可知,該方案能夠有效降低物流總成本。
本文在梳理出物流配送中心選址影響因素體系的基礎(chǔ)上,綜合運(yùn)用肘部法及輪廓系數(shù)確定K-means算法中的合理K值;針對(duì)無法處理類別型變量的問題,采用變量編碼的方法,將類別型變量轉(zhuǎn)化為數(shù)值型變量,然后再進(jìn)行聚類,確定物流中心的選址。最后基于實(shí)際的案例數(shù)據(jù),對(duì)最優(yōu)物流配送中心位置進(jìn)行聚類分析,確定最佳選址。結(jié)論如下:
(1)相比較于傳統(tǒng)K-means算法,本文提出的算法能夠采用熱編碼的方法有效處理類別型數(shù)據(jù),獲得更準(zhǔn)確的聚類效果。
(2)采用本文算法進(jìn)行聚類分析的結(jié)果顯示,相比較于傳統(tǒng)K-means算法,本文計(jì)算的聚類結(jié)果能夠有效降低物流總成本,整體方法可行。
(3)本文在考慮聚類選址時(shí)主要考慮了經(jīng)濟(jì)和交通影響因素,對(duì)于綜合考慮更多其他要素時(shí),可在本文模型的基礎(chǔ)上進(jìn)行豐富,其拓展性還可以進(jìn)行更深入的研究。