它花了数周的时间收集、标记、重新标记、检查、调整大小和重新命名数千张图片。你仔细地试着训练各种模特,有成功的也有失败的,你在空中诅咒,但你最终选择了最好的追求者。这次又是什么?
尽管培训的评估阶段提供了对算法性能和预测质量的一些洞察,但我们发现它大多没有达到整体水平:需要引入另一个性能衡量标准。但是我们到底在测试什么呢?
- 误报:当模型发现某个类的某个实例并不实际出现在框架中时。即使这意味着触发不必要的警报(这是可以避免的),但这种情况并不意味着未检测到的危险场景未被检测到。
- 假阴性:当模型没有找到框架中存在的类的特定实例时。这是我们最担心的情况,因为这意味着涉及的潜在危险被忽视了。我们决定引入的第一个度量需要具体测量这种情况,因为它直接关系到模型的可靠性。
我们如何测量假阳性呢?嗯,我们想出了一个脚本,它以以下方式自动执行此测试:
- 我们组织了一个“测试集”,它由视频和图像组成,其中包含不同的场景:不同的天气、相机、灯光和情况,这些都是我们的工作人员以前手动标记的。我们知道集合中的帧总数和标签总数。
- 我们构建了一个程序,它拾取模型,运行它通过测试集,并对模型生成的检测进行计数。然后它输出网络检测,所以我们可以开始比较人工与人工智能比率。
理想情况下,这个比率应该是1,但现实地讲,如果网络不是无故障的,情况就不会是这样。在此测试算法的未来版本中,它将输出每一帧的检测结果,这样人类就可以手动对比输出,看看我们是否可以发现任何特别具有挑战性的场景,我们可以添加这些场景来丰富我们的数据集,使模型更可靠。
原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/07/11/%e5%af%b9%e6%a8%a1%e5%9e%8b%e8%bf%9b%e8%a1%8c%e4%ba%86%e8%ae%ad%e7%bb%83%e3%80%82%e8%bf%99%e6%ac%a1%e5%8f%88%e6%98%af%e4%bb%80%e4%b9%88%ef%bc%9f-2/