精确度:这衡量实际正确的正预测的比例。当假阳性结果代价高昂时,它很有用。
召回率:这衡量了正确预测的实际阳性案例的比例。当假阴性结果代价高昂时,它很有用。
F1 分数:这是精度和召回率的调和平均值,在两者之间提供平衡。
混淆矩阵:这是一个总结分类模型性能的表格。它有助于可视化每个类别的正确和错误预测的数量。
回归指标
均方误差 (MSE):这衡量了预测值和实际值之间的平均平方差。
均方根误差 (RMSE):这是 MSE 的平方根,提供更易于解释的度量。
平均绝对误差 (MAE):这衡量了预测值和实际值之间的平均绝对差。
R 平方:这衡量了独立变量解释的因变量方差的比例。
评估技术
除了指标之外,还可以使用各种技术来评估模型性能:
保留验证:数据集分为训练集和测试集。该模型在训练集上进行训练,并在测试集上进行评估。
K 折交叉验证:将数据集分为 k 折。在 k-1 折上训练模型,并在剩余的折上进行评估。此过程重复 k 次,并计算平均性能。
分层 K 折交叉验证:这类似于 k 折交叉验证,但确保每折具有大致相同比例的类标签。
超参数调整:这涉及尝试不同的超参数值以找到模型的最佳配置。
超越指标:可视化