(一)理论研究
由于我国征信体系不完善,行业相关监管不到位以及平台准入门槛低等因素的制约,我国的P2P行业正在经历野蛮的生长。
硬信息和软信息相辅相成,二者互为补充。硬信息在一定程度上能降低借款人的违约率,但是根据上文可知,依赖硬信息获取高信用分数的借款人也容易发生违约情况,因此,P2P平台需要从更丰富的用户数据中寻找其他影响借贷款违约的重要因素,即软信息。同时研究表明借款描述、借款用途、生活状况、工作情况以及年龄、性别、相貌、地域等软信息可以对借款人的违约情况进行预测,也会对借款成功率产生影响。可见软信息在很大程度上可以弥补硬信息的不足,对预测违约率和借款成功率有着举足轻重的影响。
硬信息方面的信息很好把控,有一个相对客观的准则,但是软信息方面较为复杂主观,难以度量,可以选择P2P借贷平台的订单数据进行分析,将借款成功还款的与借款逾期的硬信息与软信息进行比较,发现其起关键作用的变量,为平台降低借款逾期率做参考。
虽然信息变量包括很多,但并不是选取越来越多的变量就会降低P2P借贷平台的违约率,更多的变量不仅会增加平台运营成本还会增加模型的复杂度,因此选择合适的变量个数和变量指标能够事半功倍。
(二)研究假设
假设1:软信息与硬信息相辅相成,本文觉得软信息变量对借款违约率有一定影响,并且和硬信息变量如房产、车产、贷款请款、还款情况、信用记录等一样重要。
假设2:“万物皆有度”,本文认为并不是统计越来越多的变量就能将违约率降的越来越低,几个最有效的变量能够起到举足轻重的影响。更多的变量不仅会增加平台运营成本,还会提高借款人进入平台的门槛,而优质借款人一般都会在银行进行借款,P2P借贷平台将会流失意向借款人,
为了可以更好地识别可能发生违约的借款,减少平台和贷款人利益的损失,并且在一定程度上降低软信息方面的风险,本文融入违约预测模型,对软信息变量和硬信息变量进行重要性比较,发现软信息是否对违约率有影响。
通过Mean Decrease Accuracy来测量OBB误差率, OBB误差率平稳时的变量数是最佳变量数,并将变量进行重要性排序,我们选择排名靠前的,也就是在众多变量中重要程度较高的变量,发现其中最有影响的几个信息变量,能够更高效地降低逾期率。
(三)模型的选择
logistic回归分析是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。因变量是一个二分类的分类变量或某事件的发生率,,是一个适用于逻辑回归的数值变量。虽然logistic回归模型具有操作简单、易于理解、无需依赖严格的多元正态性和等协方差矩阵假设的优点,但它容易存在拟合不足、预测精度低的问题,而且对非线性问题没有固定解问题。不同的非线性问题需要不同的方法,该解决方案不适用于大型数据集的训练。因此像P2P借贷平台中的软信息和硬信息这种现实而且多变的数据并不适合使用logistic回归模型。
也有学者将logistic回归模型以及其他模型与随机森林模型进行比较:
田桂英(2018)将随机森林模型预测的借款人信用等级与人人贷平台构建的个人信用风险模型获得的借款人信用等级对贷款状况的影响进行比较,结果如下图,发现两者在较大程度上有着相似的风险识别能力,在“坏账”、“已还清”借款人识别方面,随机森林模型更精确些,可见随机森林模型比人人贷平台自建模型对借款人的信誉要求更严,因此该模型在防范网络借贷借款人的违约风险方面略胜一筹。