我们先来看一下PSI的计算公式:
PSI(Population Stability Index)= SUM((实际占比-预期占比) * ln(实际占比/预期占比))
从公式中可以看到,想要计算稳定性,就需要有一个基准数据(预期占比)作为参照,然后用实际数据和基准数据就可以计算PSI值。
计算PSI值一般分为以下三步:
- 分箱:分别将模型输出的预期分布和实际分布进行分箱操作。有等频分箱和等距分箱两种方式。
- 计算分布:分别计算落在各区间的人数占比,分别得到每个区间的预期占比和时机占比数值。
- 计算PSI值:根据公式 (实际占比-预期占比) * ln(实际占比/预期占比) 计算每个区间的PSI值,再求和,就可以得到最终的PSI值。