国产91免费_国产精品电影一区_日本s色大片在线观看_中文在线免费看视频

CNTXJ.NET | 通信界-中國通信門戶 | 通信圈 | 通信家 | 下載吧 | 說吧 | 人物 | 前瞻 | 智慧(區(qū)塊鏈 | AI
 國際新聞 | 國內(nèi)新聞 | 運營動態(tài) | 市場動態(tài) | 信息安全 | 通信電源 | 網(wǎng)絡融合 | 通信測試 | 通信終端 | 通信政策
 專網(wǎng)通信 | 交換技術 | 視頻通信 | 接入技術 | 無線通信 | 通信線纜 | 互聯(lián)網(wǎng)絡 | 數(shù)據(jù)通信 | 通信視界 | 通信前沿
 智能電網(wǎng) | 虛擬現(xiàn)實 | 人工智能 | 自動化 | 光通信 | IT | 6G | 烽火 | FTTH | IPTV | NGN | 知本院 | 通信會展
您現(xiàn)在的位置: 通信界 >> 互聯(lián)網(wǎng)絡 >> 技術正文
 
基于機器學習的用戶離網(wǎng)預測研究
[ 通信界 | 劉小華 | www.6611o.com | 2019/11/16 23:07:33 ]
 

0  前言

隨著移動互聯(lián)網(wǎng)時代的到來,在移動通信市場上,內(nèi)部而言,各家運營商之間的產(chǎn)品優(yōu)勢相對有限;外部而言,運營商面臨互聯(lián)網(wǎng)企業(yè)的沖擊,對單個用戶價值的開發(fā)使得競爭更加激烈。在存量用戶十分有限的情況下,對于運營商而言,維護高價值老客戶的投入比開發(fā)新用戶的投入更能有效節(jié)省企業(yè)成本開支。電信客戶離網(wǎng)分析相關研究已經(jīng)開展了很多年,從早期利用數(shù)據(jù)庫進行OLAP分析,到使用數(shù)據(jù)挖掘算法進行用戶離網(wǎng)預測。針對離網(wǎng)傾向的用戶實施客戶挽留,展開維系與關懷,以利于電信企業(yè)客戶的保持,對增強電信企業(yè)的綜合競爭力具有重要意義[5-6]。本文介紹了使用近年來機器學習中的流行算法來分析潛在離網(wǎng)用戶的方法,和早期研究使用的邏輯回歸、決策樹[2]、SVM等方法相比,XGBOOST適用于二分類問題,并具有很好泛化能力。

1  數(shù)據(jù)挖掘流程

采用機器學習的方法進行數(shù)據(jù)挖掘,一般流程如圖1所示。

 

其中程序開發(fā)涵蓋算法選擇、算法實現(xiàn)和模型輸出。由于目前很多算法已經(jīng)實現(xiàn)了功能模塊化,因此,這部分算法可以通過直接調用現(xiàn)成API[3]或者安裝功能模塊來實現(xiàn)。

2  用戶離網(wǎng)預測問題

在預測離網(wǎng)客戶的分析中,通常有幾個關鍵步驟:問題定義、算法選擇、數(shù)據(jù)準備、結果評估、反饋修正。

問題定義:在電信企業(yè)實際業(yè)務中,對客戶離網(wǎng)理解最深入的是該領域的專家,因此對客戶流失的重要因素的判定具有指導意義。相關理解應包括,定義什么是離網(wǎng),離網(wǎng)用戶類型有哪些(高價值用戶還是普通用戶),離網(wǎng)有哪些形式(是主動流失,例如由于客戶不滿意當前服務或競爭對手提供了更優(yōu)質服務而主動停止當前服務,進行轉網(wǎng)、退網(wǎng),還是被動流失,例如學生客戶畢業(yè)異地工作,或客戶職業(yè)升遷異地調動的原因),離網(wǎng)分析通常更關注高價值用戶的主動流失,他們是電信企業(yè)利潤的重要來源。

算法選擇:確定好問題以后,對離網(wǎng)用戶的分析是根據(jù)準備使用的算法來進行建模的,需要確定原始數(shù)據(jù)集的來源,以及使用潛在離網(wǎng)用戶的哪些相關屬性。同時,原始數(shù)據(jù)集通常也被拆分為2個部分,一部分是訓練集,用作構造算法模型,另一部分是測試集,用于評估分類算法通過學習生成的模型是否合理。兩者的拆分通常是按照1∶1的比例,也可以根據(jù)業(yè)務分析專家的判斷進行比例的調整。

數(shù)據(jù)輸入:據(jù)統(tǒng)計,電信企業(yè)平均每月有97.5%的在網(wǎng)客戶,以及2.5%的離網(wǎng)客戶,因此原始數(shù)據(jù)集存在嚴重的比例不平衡。另外,電信企業(yè)一個地(市)的用戶數(shù)據(jù)就達到幾十萬甚至上百萬,如果對所有數(shù)據(jù)進行訓練,時間上很難滿足要求。并且,原始數(shù)據(jù)集由于來源于電信企業(yè)的不同領域和部門,許多比較重要的屬性值存在缺失和錯誤,降低了對潛在用戶離網(wǎng)的預測精度。同時,要進行用戶離網(wǎng)預測,需要將能收集到的用戶相關屬性組織成一張表,稱為數(shù)據(jù)聚集,新生成的表稱為數(shù)據(jù)寬表,例如將用戶基本信息、持有終端信息和月消費信息整合為一張寬表。

效果評估:算法輸出的模型用于測試樣本集時,混淆矩陣約定:TP(True Positive)指真實為1,預測也為1;FN(False Negative)指真實為0,預測為1;FP(False Positive)指真實為1,預測為0;TN(True Negative)指真實為0,預測也為0,則模型效果可通過以下各項指標反映[4]。

準確率 P = TP/(TP+FP) (1)

召回率 R = TP/(TP+FN)       (2)

F1-score = 2×P×R/(P+R)                       (3)

3個指標用于綜合評估模型效果優(yōu)劣。

模型輸出:通過指標的綜合評定,確定使用或保留何種機器學習算法,保存訓練模型以供調用。

3  機器學習算法

機器學習從無序的數(shù)據(jù)中挖掘有用的信息,狹義的指計算機“學習算法”的一門學問。關鍵術語包括:特征(也稱為屬性)、標識(標簽)、任務(分類或聚類、回歸)、訓練樣本集、測試樣本集等。開發(fā)機器學習應用程序的基本步驟通常包括[1]:收集數(shù)據(jù)、標準化輸入數(shù)據(jù)、分析輸入數(shù)據(jù)、訓練模型、測試驗證、實際應用。機器學習的目的就是給定輸入x,得到預測值,并希望預測值與真實值y之間的誤差盡可能的小。下面介紹機器學習的4個經(jīng)典挖掘算法。

3.1  邏輯回歸

相對于線性回歸處理因變量是連續(xù)變量,邏輯回歸能更好地適用于因變量是分類變量的回歸問題,常見的就是二分類問題。邏輯回歸的因變量和自變量之間通常采用Sigmoid函數(shù)來描述:

  (4)

它是一個S形的曲線(見圖3)。

 

3.3  支持向量機(SVM)分類算法與核函數(shù)

SVM是機器學習中的有監(jiān)督線性分類算法,最初正式發(fā)表于1995年。SVM應用在文本分類尤其是針對二分類任務顯示出卓越的性能,因此得到了廣泛的研究和應用,后期在多分類任務也進行了專門推廣。SVM通過向高維度空間映射來解決多維線性不可分問題,使樣本線性可分。如圖5所示,可將一維不可分問題轉化為二維可分問題[7]。核函數(shù)選擇是SVM中性能差別的最大原因。核函數(shù)選擇不合適,意味著樣本被映射到了不合適的特征空間,很可能導致性能不佳。

3.4  XGBoost

XGBoost(eXtreme Gradient Boosting)采用了回歸樹和集成Boosting 2種技術。在數(shù)據(jù)建模中,當我們有數(shù)個連續(xù)值特征時,經(jīng)常采用Boosting分類器將成百上千個分類準確率較低的樹模型組合起來,形成一個準確率很高的預測模型。XGB可以理解為多個樹的并行預測,并將預測分值相加用于類別判斷。這個樹模型經(jīng)過不斷地迭代,在每次迭代就生成一棵新的樹,從而使預測值不斷逼近真實值(即進一步最小化目標函數(shù))。

XGBoost的并行樹如圖6所示,以樣本1為例,預測得分為:Tree1.樣本1.得分(2)+ Tree2.樣本1.得分(0.9)=2.9,相比于樣本2的-0.8,樣本3的-0.1,樣本4、5的-1.9,具有更大的預測概率。注意到,由于XGBoost出眾的效率與較高的預測準確度在機器學習領域引起了廣泛關注。

 

為了增加模型的有效性,可以通過單個算法的測試以及融合多個算法的測試,例如可以在實踐應用時,第1次采用邏輯回歸算法建模和預測,第2次采用決策樹算法,第3次采用XGBoost算法,第4次采用將邏輯回歸和XGBoost算法的結果合并的預測方法。采用XGBoost算法建模的實驗偽代碼如下。

第1步:

#導入xgboost模塊:

import xgboost as xgb

第2步:

#讀取訓練屬性,為建模準備輸入數(shù)據(jù):用戶離網(wǎng)預測是一個典型的有監(jiān)督分類問題。因此需要讀入訓練特征,以及目標標識:

feature_file_name = "train.feat"

target_file_name = "train.target"

feature_file = open(feature_file_name,'rt')

target_file = open(target_file_name,'rt')

#準備矩陣型訓練數(shù)據(jù):

#讀寫樣本特征,生成訓練矩陣training_matrix和目標列表target_list。

第3步:

#生成訓練模型,在測試集上驗證并調參。

param = {'booster':'gbtree','objective':'binary:logistic','eval_metric':'auc','max_depth':5,'min_child_weight':1,'subsample':0.9,'lambda':10,'gamma':0.0,'eta':0.3,'silent':1 }

num_round = 100

dtrain=xgb.DMatrix(training_matrix,label=target_list)

bst = xgb.train(param,dtrain,num_round)

bst.save_model('model.xgb')

第4步:

#使用及應用。將生成的xgb模型用于需要生成標簽的樣本集。

#加載樣本屬性數(shù)據(jù)

#加載訓練模型數(shù)據(jù)

bst = xgb.Booster({'nthread':4})

bst.load_model("model.xgb")

#預測

dtest = xgb.DMatrix(trainingMatrix)

y_pred = bst.predict(dtest)

result_list = (y_pred ≥ 0.5) × 1

#結果寫入文件

result_file = open(result_file_name,'wt')

for index in range(len(y_pred)):

result_file.write('%s/t%d/n'%(uid_list[index],result_list[index]))

result_file.close()

第5步:

#如果采用多算法融合,例如除XGBoost之外同時采用邏輯回歸的判決概率,可將XGBoost輸出判決概率和邏輯回歸輸出判決概率取均值,作為最終判決依據(jù)。

bst = xgb.Booster({'nthread':4})

bst.load_model("model.xgb")

pred_leaves = bst.predict(xgb.DMatrix(test_matrix),pred_leaf=True)

tree_node_enc = OneHotEncoder()

lr_model = LogisticRegression()

……

transformed_feature = tree_node_enc.transform(pred_leaves).toarray()

y_pred = lr_model.predict_proba(transformed_feature)[:,1]

result_list = (y_pred ≥ 0.5) × 1

5  總結

使用機器學習來預測用戶離網(wǎng),是大數(shù)據(jù)相關技術在電信企業(yè)的一個典型應用[8-11]。機器學習在現(xiàn)代的應用已經(jīng)相當廣泛,用戶可以不必再開發(fā)最原始的算法代碼,而是直接安裝、調用現(xiàn)成的模塊或者API。電信企業(yè)的數(shù)據(jù)資產(chǎn)是寶貴的礦藏,通過數(shù)據(jù)挖掘,無論是用于提升企業(yè)內(nèi)部運營效率,還是和外部合作進行行業(yè)應用支撐,都將是一筆非常可觀的財富。

參考文獻:

[1]    HARRINGTON P.機器學習實戰(zhàn)[M].李銳,李鵬,曲亞東,等,譯.北京:人民郵電出版社,2013

[2]    王凱. 數(shù)據(jù)挖掘在移動離網(wǎng)用戶分析模型中的研究與應用[D]. 鄭州:鄭州大學,2014.

[3]    陳康,向勇,喻超.大數(shù)據(jù)時代機器學習的新趨勢[J].電信科學,2012,28(12):88-95.

[4]    周志華,王玨. 機器學習及其應用[M]. 北京:清華大學出版社,2009.

[5]    HASSOUNA M,TARHINI A,ELYAS T,et al. Customer Churn in Mobile Markets A Comparison of Techniques[J]. International Business Research,2015,8(6):224-237.

[6]    SINGH I,SINGH S. Framework for Targeting High Value Customers and Potential Churn Customers in Telecom using Big Data Analytics[J]. International Journal of Education & Management Engineering,2017,7(1):36-45.

[7]    DONG R,SU F,YANG S,et al. Customer Churn Analysis for Telecom Operators Based on SVM[C]// International Conference On Signal And Information Processing,Networking And Computers. Springer,Singapore,2017:327-333.

[8]    張婧姣. 電信社會網(wǎng)絡離網(wǎng)用戶預測及分析[D]. 北京:北京郵電大學,2017.

[9]    陳曄. 基于組合預測的電信客戶流失預測分析[D].長沙:湖南大學,2011.

[10]  楊曉峰,嚴建峰,劉曉升,等.深度隨機森林在離網(wǎng)預測中的應用[J].計算機科學,2016,43(6):208-213.

[11]  趙慧,劉穎慧,崔羽飛,等.機器學習在運營商用戶流失預警中的運用[J].信息通信技術,2018,12(1):14-21.

 

1作者:劉小華 來源:郵電設計技術 編輯:顧北

 

聲明:①凡本網(wǎng)注明“來源:通信界”的內(nèi)容,版權均屬于通信界,未經(jīng)允許禁止轉載、摘編,違者必究。經(jīng)授權可轉載,須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息并注明“來源:通信界”。②凡本網(wǎng)注明“來源:XXX(非通信界)”的內(nèi)容,均轉載自其它媒體,轉載目的在于傳遞更多行業(yè)信息,僅代表作者本人觀點,與本網(wǎng)無關。本網(wǎng)對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。③如因內(nèi)容涉及版權和其它問題,請自發(fā)布之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時間刪除內(nèi)容。 
熱點動態(tài)
普通新聞 中信科智聯(lián)亮相2023中國移動全球合作伙伴大會
普通新聞 全球首個基于Data Channel的新通話商用網(wǎng)絡呼叫成功撥通
普通新聞 中國聯(lián)通:以優(yōu)質通信服務 助力“一帶一路”共建繁華
普通新聞 楊杰:未來五年,智算規(guī)模復合增長率將超過50%
普通新聞 長沙電信大樓火災調查報告發(fā)布:系未熄滅煙頭引燃,20余人被問責
普通新聞 鄔賀銓:生態(tài)短板掣肘5G潛能發(fā)揮,AI有望成“破局之劍”
普通新聞 工信部:加大對民營企業(yè)參與移動通信轉售等業(yè)務和服務創(chuàng)新的支持力
普通新聞 摩爾線程亮相2023中國移動全球合作伙伴大會,全功能GPU加速云電腦體
普通新聞 看齊微軟!谷歌表示將保護用戶免受人工智能版權訴訟
普通新聞 聯(lián)想王傳東:AI能力已成為推動產(chǎn)業(yè)升級和生產(chǎn)力躍遷的利刃
普通新聞 APUS李濤:中國的AI應用 只能生長在中國的大模型之上
普通新聞 外媒:在電池競賽中,中國如何將世界遠遠甩在后面
普通新聞 三星電子預計其盈利能力將再次下降
普通新聞 報告稱華為5G專利全球第1 蘋果排名第12
普通新聞 黨中央、國務院批準,工信部職責、機構、編制調整
普通新聞 榮耀Magic Vs2系列正式發(fā)布,刷新橫向大內(nèi)折手機輕薄紀錄
普通新聞 GSMA首席技術官:全球連接數(shù)超15億,5G推動全行業(yè)數(shù)字化轉型
普通新聞 北京聯(lián)通完成全球首個F5G-A“單纖百T”現(xiàn)網(wǎng)驗證,助力北京邁向萬兆
普通新聞 中科曙光亮相2023中國移動全球合作伙伴大會
普通新聞 最高補貼500萬元!哈爾濱市制定工業(yè)互聯(lián)網(wǎng)專項資金使用細則
通信視界
鄔賀銓:移動通信開啟5G-A新周期,云網(wǎng)融合/算
普通對話 中興通訊徐子陽:強基慧智,共建數(shù)智熱帶雨
普通對話 鄔賀銓:移動通信開啟5G-A新周期,云網(wǎng)融合
普通對話 華為輪值董事長胡厚崑:我們正努力將5G-A帶
普通對話 高通中國區(qū)董事長孟樸:5G與AI結合,助力提
普通對話 雷軍發(fā)布小米年度演講:堅持做高端,擁抱大
普通對話 聞庫:算網(wǎng)融合正值挑戰(zhàn)與機遇并存的關鍵階
普通對話 工信部副部長張云明:我國算力總規(guī)模已居世
普通對話 鄔賀銓:我國互聯(lián)網(wǎng)平臺企業(yè)發(fā)展的新一輪機
普通對話 張志成:繼續(xù)加強海外知識產(chǎn)權保護工作 為助
普通對話 吳春波:華為如何突破美國6次打壓的逆境?
通信前瞻
亨通光電實踐數(shù)字化工廠,“5G+光纖”助力新一
普通對話 亨通光電實踐數(shù)字化工廠,“5G+光纖”助力新
普通對話 中科院錢德沛:計算與網(wǎng)絡基礎設施的全面部
普通對話 工信部趙志國:我國算力總規(guī)模居全球第二 保
普通對話 鄔賀銓院士解讀ChatGPT等數(shù)字技術熱點
普通對話 我國北方海區(qū)運用北斗三號短報文通信服務開
普通對話 華為云Stack智能進化,三大舉措賦能政企深度
普通對話 孟晚舟:“三大聚力”迎接數(shù)字化、智能化、
普通對話 物聯(lián)網(wǎng)設備在智能工作場所技術中的作用
普通對話 軟銀研發(fā)出以無人機探測災害被埋者手機信號
普通對話 AI材料可自我學習并形成“肌肉記憶”
普通對話 北斗三號衛(wèi)星低能離子能譜儀載荷研制成功
普通對話 為什么Wi-Fi6將成為未來物聯(lián)網(wǎng)的關鍵?
普通對話 馬斯克出現(xiàn)在推特總部 收購應該沒有懸念了
普通對話 臺積電澄清:未強迫員工休假或有任何無薪假
普通對話 新一代載人運載火箭發(fā)動機研制獲重大突破
推薦閱讀
Copyright @ Cntxj.Net All Right Reserved 通信界 版權所有
未經(jīng)書面許可,禁止轉載、摘編、復制、鏡像