文/孫妍
來(lái)源 | 大公(ID:dagonggroup)
大公信用數(shù)據(jù)有限公司(簡(jiǎn)稱:大公數(shù)據(jù))自主研發(fā)的供應(yīng)鏈金融信用管理系統(tǒng)(簡(jiǎn)稱:金信系統(tǒng)),在垂直于行業(yè)的多業(yè)務(wù)場(chǎng)景下,在貸前、貸中、貸后利用商流、物流、資金流、信息流、人員流等五流信息的數(shù)據(jù)采集,利用分行業(yè)的數(shù)字評(píng)級(jí)方法建立評(píng)級(jí)指標(biāo)體系,利用人工智能(簡(jiǎn)稱:AI)創(chuàng)建供應(yīng)鏈金融的信用風(fēng)險(xiǎn)預(yù)警模型,對(duì)整個(gè)供應(yīng)鏈上的融資企業(yè)及個(gè)人進(jìn)行用戶畫像,有效預(yù)防和降低融資的違約風(fēng)險(xiǎn)。 供應(yīng)鏈金融信用管理系統(tǒng)是一個(gè)以絲路互金網(wǎng)平臺(tái)為載體,以供應(yīng)鏈信用評(píng)級(jí)為核心,以信息實(shí)時(shí)監(jiān)控、信用風(fēng)險(xiǎn)預(yù)警為特色,以供應(yīng)鏈業(yè)務(wù)場(chǎng)景為需求來(lái)源,將高信用級(jí)別的核心企業(yè)作為信用擔(dān)保方,將大中型商業(yè)銀行作為資金方,為供應(yīng)鏈上下游企業(yè)提供應(yīng)收賬款融資、訂單融資、預(yù)付賬款融資以及存貨質(zhì)押融資四類融資方式,高效解決供應(yīng)鏈上下游企業(yè)各種融資需求,具備提供多行業(yè)、多鏈條、多場(chǎng)景供應(yīng)鏈金融服務(wù)的信用管理系統(tǒng)。 供應(yīng)鏈金融服務(wù)的信用管理系統(tǒng)實(shí)現(xiàn)三方面的管理:實(shí)時(shí)監(jiān)控、風(fēng)險(xiǎn)預(yù)警和信用監(jiān)理。實(shí)時(shí)監(jiān)控為用戶提供監(jiān)控中心,可以實(shí)現(xiàn)對(duì)供應(yīng)鏈商流、物流、信息流、資金流以及人員流信息的監(jiān)控,可以一眼瀏覽供應(yīng)鏈中的信用鏈、債務(wù)鏈、股權(quán)鏈。風(fēng)險(xiǎn)預(yù)警是系統(tǒng)設(shè)計(jì)的一種主動(dòng)風(fēng)險(xiǎn)防預(yù)機(jī)制,通過(guò)對(duì)一些關(guān)鍵風(fēng)險(xiǎn)指標(biāo)進(jìn)行風(fēng)險(xiǎn)臨界值設(shè)置,當(dāng)實(shí)時(shí)數(shù)據(jù)波動(dòng)觸及臨界值,系統(tǒng)會(huì)發(fā)出報(bào)警信號(hào),第一時(shí)間讓用戶獲取風(fēng)險(xiǎn)揭示。信用監(jiān)理是為日常信用管理而設(shè)計(jì)的,由專門的信用監(jiān)理員對(duì)整個(gè)供應(yīng)鏈信用情況進(jìn)行日常管理工作,具體內(nèi)容包括現(xiàn)場(chǎng)巡視、數(shù)據(jù)核實(shí)、問(wèn)題排查和風(fēng)險(xiǎn)報(bào)告。 具體包括如下子產(chǎn)品:供應(yīng)鏈信用認(rèn)證;供應(yīng)鏈信用評(píng)級(jí);供應(yīng)鏈融資交易;供應(yīng)鏈數(shù)據(jù)采集;供應(yīng)鏈實(shí)時(shí)監(jiān)控;供應(yīng)鏈風(fēng)險(xiǎn)預(yù)警。該產(chǎn)品主要幫助供應(yīng)鏈條中的中小企業(yè)解決融資問(wèn)題,并實(shí)現(xiàn)全程供應(yīng)鏈信用管理。本文重點(diǎn)介紹一下金信系統(tǒng)中運(yùn)用人工智能創(chuàng)建預(yù)警模型對(duì)企業(yè)及個(gè)人用戶畫像。 用平臺(tái)類公司打造供應(yīng)鏈金融生態(tài)圈來(lái)舉例說(shuō)明, 例如XX商城運(yùn)營(yíng)以租金服務(wù)為主,涉及箱包、外貿(mào)、服裝批發(fā)等領(lǐng)域。商城希望共同合作開發(fā)新型融資方式,為商戶擴(kuò)寬融資渠道,滿足其融資需求。 大公數(shù)據(jù)供應(yīng)鏈金融部課題組與XX商城共同開展供應(yīng)鏈金融信用管理體系建設(shè),大公根據(jù)商城和商戶的情況為商城構(gòu)建定制版信用管理系統(tǒng),幫助商戶挖掘信用價(jià)值、高效滿足商戶融資需求、有效控制供應(yīng)鏈業(yè)務(wù)信用風(fēng)險(xiǎn)、提高供應(yīng)鏈金融信用管理水平。 第一步,構(gòu)建融資案例,采集實(shí)時(shí)數(shù)據(jù),積累歷史數(shù)據(jù)。 構(gòu)建信用預(yù)警模型的數(shù)據(jù)主要來(lái)源于商戶申請(qǐng)融資時(shí)提交的材料、商戶日常運(yùn)營(yíng)交易數(shù)據(jù)、第三方征信機(jī)構(gòu)的可靠數(shù)據(jù)三大來(lái)源。采集完成后,由數(shù)據(jù)人員對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。 第二步,制定風(fēng)控標(biāo)準(zhǔn),創(chuàng)建風(fēng)控模式。 通過(guò)前臺(tái)征審人員等具有實(shí)際業(yè)務(wù)經(jīng)驗(yàn)專家進(jìn)行業(yè)務(wù)方面的考量和科學(xué)統(tǒng)計(jì)方面的分析,研究并制定風(fēng)控標(biāo)準(zhǔn)和相關(guān)信用系數(shù)指標(biāo),進(jìn)而利用邏輯回歸、線性回歸等統(tǒng)計(jì)方法和類神經(jīng)網(wǎng)絡(luò)、基因算法等非統(tǒng)計(jì)方法創(chuàng)建智能風(fēng)控模型。 第三步,定制化供應(yīng)鏈金融信用管理系統(tǒng)建設(shè)。 模型建立完成后可對(duì)系統(tǒng)模型進(jìn)行效力驗(yàn)證,利用K-S值及基尼系數(shù)檢測(cè)商戶好壞分布差距,并檢驗(yàn)?zāi)P皖A(yù)測(cè)穩(wěn)定度。 模型效力達(dá)標(biāo)后,即可開始建設(shè)供應(yīng)鏈金融信用管理系統(tǒng)。 一方面是對(duì)申請(qǐng)商戶進(jìn)行評(píng)分,預(yù)測(cè)初始信用好壞。資金方(銀行)在對(duì)商戶進(jìn)行初始融資或授信時(shí)需要了解其基本信息、信用行為、貸款情況等綜合信用狀況及等級(jí),金信系統(tǒng)可以快速給出商戶當(dāng)前資信情況并推薦客觀合理的授信及放款額度。 另一方面則是對(duì)商戶融資過(guò)程行為進(jìn)行評(píng)分,預(yù)測(cè)違約率。放款后,資金方(銀行)、商城以及平臺(tái)需要實(shí)時(shí)追蹤并了解商戶的融資款使用情況和交易經(jīng)營(yíng)請(qǐng)款等,判斷其經(jīng)營(yíng)是否順暢,是否有可能發(fā)生逾期等違約行為,金信系統(tǒng)通過(guò)采集客戶的商流、物流、資金流、信息流、人員流等五流信息綜合分析,測(cè)算每個(gè)商戶的違約率,并給出授信方面相關(guān)建議。 原則上,盡可能多地獲取客戶信息采集源,從客戶各個(gè)方面,例如經(jīng)營(yíng)狀態(tài)、交易數(shù)據(jù)、融資情況、貸款違約記錄等多維度全面考察一個(gè)用戶的信用風(fēng)險(xiǎn)狀況。在采集數(shù)據(jù)的過(guò)程中,每個(gè)維度盡可能收集更多、更全面的指標(biāo)數(shù)據(jù)為后期數(shù)據(jù)分析提供充足準(zhǔn)備。 圍繞具體的風(fēng)控目標(biāo),通過(guò)對(duì)不同維度的數(shù)據(jù)進(jìn)行研究分析,最終確定哪些數(shù)據(jù)指標(biāo)與預(yù)測(cè)風(fēng)控目標(biāo)具有明顯的與實(shí)際業(yè)務(wù)經(jīng)驗(yàn)一致的關(guān)系;再通過(guò)圍繞具體的建模目標(biāo),使用統(tǒng)計(jì)分析、聚類、關(guān)聯(lián)、異常檢測(cè)、時(shí)間序列、路徑分析、漏斗分析等不同的維度進(jìn)行數(shù)據(jù)研究分析,最終確定用于建模的特征標(biāo)簽寬表,以及目標(biāo)標(biāo)簽的算法。 特征標(biāo)簽寬表是可能和我們的建模目標(biāo)有因果關(guān)系的指標(biāo)集合,為下一步建模提供樣本數(shù)據(jù)。 并非所有采集來(lái)的數(shù)據(jù)皆可納入模型開發(fā)樣本,在篩選合格樣本時(shí),首先需透過(guò)數(shù)據(jù)核驗(yàn)摒除有瑕疵的樣本,其次則需設(shè)定屬于“不予評(píng)分”或“政策拒絕”等項(xiàng)目的排除條件。 有八種數(shù)據(jù)處理方法,可以應(yīng)對(duì)龐大的大數(shù)據(jù)應(yīng)用規(guī)則。 1、 缺失值的常見處理方法 (1)丟棄 當(dāng)樣本量比較大時(shí),不完整記錄比較少的時(shí)候,就可以丟棄。 (2)補(bǔ)全 當(dāng)樣本量少且采集代價(jià)比較大時(shí),采用這種方式,常用方法,統(tǒng)計(jì)法(均值、加權(quán)均值、中位數(shù)、眾數(shù)等),模型法(使用模型預(yù)測(cè)缺失值),業(yè)務(wù)專家補(bǔ)齊等。 (3)真值轉(zhuǎn)換 將缺失值的存在看做一種數(shù)據(jù)分布規(guī)律,例如轉(zhuǎn)換前:客戶性別(男,女,未知),轉(zhuǎn)換后:性別_男(1,0),性別_女(1,0),性別_未知(1,0)。 (4)不處理 有些模型算法能夠自動(dòng)地處理缺失值。 2、 異常值的處理 (1)判別是否是偽異常 例如,某一次大的促銷活動(dòng)會(huì)帶來(lái)銷量的異常,但這顯然是偽異常,它是實(shí)實(shí)在在的業(yè)務(wù)數(shù)據(jù)。 (2)通過(guò)算法進(jìn)行異常檢測(cè) 常用Z_SCORE這種簡(jiǎn)單的算法來(lái)判別。 (3)包容異常值 有些模型算法能夠自動(dòng)地處理異常值。 3、 重復(fù)數(shù)據(jù)處理 (1)檢測(cè)業(yè)務(wù)規(guī)則是否存在問(wèn)題 (2)可能是用于解決樣本不均衡,使之故意重復(fù) 4、 分類數(shù)據(jù)轉(zhuǎn)換為標(biāo)志變量 為什么要轉(zhuǎn)換?因?yàn)闄C(jī)器只認(rèn)識(shí)數(shù)值變量,最好是0,1這樣的標(biāo)簽,不同算法對(duì)數(shù)據(jù)的表現(xiàn)形式有不同的要求。 5、 數(shù)據(jù)的降維 在寬表中給定的數(shù)據(jù)包含了方方面面的特征,這些特征可能是無(wú)用的,可能相互之間有強(qiáng)關(guān)系的,這些都要去除。 常用方法有: (1)統(tǒng)計(jì)方法:皮爾遜相關(guān)性。 (2)模型方法:比如隨機(jī)森林,通過(guò)信息熵,計(jì)算出變量的重要性,去掉不重要的。 6、 解決樣本不均衡問(wèn)題 樣本不均衡指樣本中正負(fù)樣本比值很多或很小。尤其是某個(gè)特征的樣本過(guò)少可能會(huì)造成模型不夠準(zhǔn)確,這樣的話就需要采用抽樣的方法進(jìn)行樣本的補(bǔ)充。 常用的方法有: (1)過(guò)抽樣 就是在樣本很少的時(shí)候,添加或者復(fù)制樣本,比如兩類樣本分別為100個(gè)A類和10個(gè)B類,那么為了保證A,B這兩類樣本平衡,可以復(fù)制B類使得樣本和A類一樣。 (2)欠抽樣 欠抽樣就是將A的樣本減少到和B類一樣。 (3)對(duì)正負(fù)樣本進(jìn)行懲罰權(quán)重 (4)組合集成抽樣 7、數(shù)據(jù)抽樣 當(dāng)用戶有海量數(shù)據(jù)時(shí),比如 1個(gè)億,則計(jì)算資源不足以因應(yīng),所以需要抽樣。 (1)簡(jiǎn)單隨機(jī)抽樣 是指從總體N個(gè)單位中任意抽取n個(gè)單位作為樣本,使每個(gè)可能的樣本被抽中的概率相等的一種抽樣方式。 (2)分層抽樣 是指從一個(gè)可以分成不同子總體(或稱為層)的總體中,按規(guī)定的比例從不同層中隨機(jī)抽取樣品(個(gè)體)的方法。 (3)等距抽樣 是指先將總體的全部單元按照一定順序排列,采用簡(jiǎn)單隨機(jī)抽樣抽取第一個(gè)樣本單元(或稱為隨機(jī)起點(diǎn)),再順序抽取其余的樣本單元。 (4)整體抽樣 是指將總體分成許多群,每個(gè)群由個(gè)體按一定方式結(jié)合而成,然后隨機(jī)地抽取若干群,并由這些群中的所有個(gè)體組成樣本。 8、數(shù)據(jù)標(biāo)準(zhǔn)化 數(shù)據(jù)標(biāo)準(zhǔn)化就是為了讓量綱一致。如果不同指標(biāo)量綱差很多比如收入是上萬(wàn)甚至上億,利率是零點(diǎn)幾,這樣如果做回歸的話 他們前面的系數(shù)大小會(huì)差很多,可能就不能通過(guò)系數(shù)判斷到底哪個(gè)指標(biāo)對(duì)被解釋變量更重要了。 讓數(shù)據(jù)落入相同的范圍,解決變量處于不同綱量的問(wèn)題,比如存款余額可能是百萬(wàn)級(jí)別的,年齡一般不超100這樣的數(shù)據(jù),模型算法沒(méi)有辦法統(tǒng)一處理,解決這類問(wèn)題常用的算法有: (1)實(shí)現(xiàn)歸一化的Max-Min (2)用于稀疏數(shù)據(jù)的MaxAbs (3)實(shí)現(xiàn)中心化和正態(tài)分布的Z-Score (4)針對(duì)離群點(diǎn)的RobustScalar 建立模型可運(yùn)用的方法非常多,如判別分析、線性回歸、邏輯回歸及分類樹等統(tǒng)計(jì)方法;或是類神經(jīng)網(wǎng)絡(luò)、基因算法及專家系統(tǒng)等非統(tǒng)計(jì)方法。 在實(shí)務(wù)運(yùn)用上,選擇線性回歸或或邏輯回歸來(lái)建構(gòu)評(píng)分模式,在模式實(shí)行上成本較低也較快速,是模型研發(fā)人員最常選用的方法。 以下為智能建模基本步驟: 1、根據(jù)預(yù)處理好的樣本數(shù)據(jù)利用算法進(jìn)行模型訓(xùn)練。 2、評(píng)估模型性能。 3、根據(jù)模型評(píng)估結(jié)果調(diào)整參數(shù)。 4、迭代進(jìn)行2到4步驟。 5、輸出模型系數(shù)。 6、根據(jù)模型變量,模型系數(shù),目標(biāo)變量建立模型。 模型建立完成后的驗(yàn)證可分為樣本外驗(yàn)證和時(shí)間外驗(yàn)證,前者使用保留樣本,后者則使用建模樣本期間之外的案件已進(jìn)行測(cè)試。 除了測(cè)試樣本外,模型效力評(píng)量指針也可分為區(qū)分度與穩(wěn)定度兩大類: 區(qū)分度指模型對(duì)好壞客戶的辨識(shí)能力,區(qū)分度越強(qiáng),表示模型準(zhǔn)確性越高。常見的區(qū)分度指標(biāo)有K-S值和基尼系數(shù)。 穩(wěn)定度是指可衡量測(cè)試樣本及模型開發(fā)樣本評(píng)分的分布差異,也是最常見的的模型。 以上介紹的各項(xiàng)指標(biāo)不僅用于建模時(shí)期驗(yàn)證模型效力,未來(lái)上線之后每月也需定期監(jiān)控模型區(qū)風(fēng)力及穩(wěn)定度表現(xiàn),如發(fā)現(xiàn)指標(biāo)背離理想值,則需進(jìn)一步了解各個(gè)變量是否出現(xiàn)異常,并作出進(jìn)一步調(diào)整。