本文由朱利奥·贾科尼(Giulio Giaconi)和戴夫·邦顿(Dave Bunten)撰写。
这篇文章最初发表在Omdena的博客上。Omdena’s blog
要阅读更多关于计算机视觉应用程序和使用方法的文章,请查看此处。check here
一场全球性的悲剧
每天有超过10万人在道路交通事故中受伤,每天造成的损失超过60亿美元。目前,交通事故是全球第八大死亡原因,也是5-29岁儿童和年轻人的主要死亡原因。此外,据估计,从现在到2030年,将有5亿人在道路交通事故中遭受改变生命的伤害或死亡,经济代价超过25万亿美元。$6 billion every single day eighth leading cause of death globally leading cause of death for children and young adults aged 5–29 years 500 million people will suffer life-changing injuries or be killed in road crashes between now and 2030 economic cost being more than the US $25 trillion
由于无法承受的人命代价和对全球经济的巨大影响,联合国大会于2020年8月起草了《改善全球道路安全决议》。在决议中,它宣布2021-2030年为第二个道路安全行动十年,设定了到2030年将道路交通伤亡人数减半的目标,并包括确保全球更好的整体道路安全的目标。Improving Global Road Safety Resolution
各种组织和慈善机构帮助联合国实现道路安全目标,降低道路撞车造成的破坏性社会和经济成本。其中包括国际道路评估方案(IRAP),该方案通过研究和编码道路属性,帮助减少全球道路撞车事故,建立在这些属性基础上的五星级道路评级系统,道路改善指导投资计划,以及全球伙伴关系。你可以在这里找到更多关于iRAP道路评级的信息,以及这些评级如何与联合国制定的到2030年将道路伤亡人数减半的目标保持一致。International Road Assessment Programme (iRAP) here
Omdena+iRAP协作
2020年底,iRAP与Omdena协作平台联手进行了为期8周的AI挑战,以帮助减少全球危险道路的后果。Omdena是一个平台和领先的社会企业,全球改革者社区在这里为撞击现实世界的问题构建创新和道德的人工智能解决方案。Omdena AI challenge to help reduce the consequences of dangerous roads around the world
Omdena和iRAP志愿者领导的挑战涉及来自17个不同国家的31名合作者,其中35%是女性。机器学习从业者利用他们在该项目上的专业知识来解决道路碰撞的严重影响,并开发创新的解决方案来解决这些问题。
项目挑战
在项目期间,志愿者们解决了一些挑战,包括以下几个方面:
- 确定可用于训练团队开发的所有机器学习模型的最合适的现有碰撞数据;
- 从图像和视频数据中检测相关的道路特征,可能匹配iRAP的特征;
- 创建评估和预测道路安全的模型;
- 评估道路特征在预测每种星级中的重要性;
- 使用项目期间开发的所有模型制作仪表板,帮助预测五星级评级。
整个项目都使用了真实世界的数据科学策略和程序。志愿者首先必须完成最初的数据探索活动,以获得对可用数据的了解。然后,他们开始将整个问题分解为几个较小的任务,并继续开发适当的解决方案来解决每个问题。同时,还考虑了数据“管道”方面,并设置了连接各个活动的管道。最后,所有不同的工作流都被汇总到一个用户友好的仪表板中,以显示工作的最相关方面和输出。
用人工智能拯救生命
IRAP目前根据60多个属性的值来评估道路风险,这些属性是为世界上每条道路的每100米路段编码的。特征包括汽车、摩托车、自行车、行人和其他的交通流量;道路的结构属性,例如,车道和车道的数量、存在的交叉口类型和道路的曲率;安全特征的存在(或不存在),例如,路肩和围栏;其他道路特征,例如,速度限制、照明条件等。0 attributes that are coded for every 100-meter section of each road in the world
由于属性收集和编码主要是手动执行的,因此考虑到所涉及的大量道路和属性,此过程确实是一项巨大的工作。为此,本项目的主要目标是主要通过自动化使整个特征提取和道路风险评估的过程更快、更高效。
更具体地说,我们确定了以下有助于改进当前流程的技术:
- 基于计算机视觉技术的道路属性自动提取
- 基于历史车辆事故数据的道路风险预测,采用回归和分类技术;
- 评估哪些特定的道路属性在评估iRAP得分时最重要;
- 将现有API与地理空间库结合使用,以按比例提取道路属性。
下图描述了整个项目工作流。
计算机视觉应用
计算机视觉是机器学习的一个分支,它包含允许自动检测和识别图像和视频中的特征的算法。本课题利用计算机视觉技术从大尺度图像中检测出相关的道路特征。从各种来源提取特征是该项目的关键任务,因为提取的特征将为机器学习模型提供必要的训练数据。
更具体地说,志愿者致力于研究从地面图像(例如谷歌街景)和空中图像(例如卫星照片)自动提取道路特征的技术。虽然地面图像可以深入了解许多道路特征,但航空图像也可以识别更大尺度的特征,例如道路曲率和道路交叉口类型,仅根据地面图像很难估计这些特征。
标记全景图像
由于缺乏能够在全景图像中检测目标的大量预先训练的模型,全景图像中的特征检测被证明是特别具有挑战性的。志愿者们解决了这个问题,这要归功于使用TomTom提供的数据集和python labellmg包进行的Sprint标签练习。labellmg
道路图像上的目标检测
最现代的计算机视觉技术已经在各种数据集上实施,并对它们的准确性进行了评估,以确定性能最好的模型。已经研究过的用于地面图像的机器学习模型包括只看一次v3(YOLOv3)、梯度直方图(HOG)、MobileNet单次拍摄检测器(SSD)和RetinaNet。最终选择了YOLOv3模型,因为它为我们的需求提供了更大的灵活性以及足够好的性能。
航空影像中的特征检测
关于空中图像,志愿者研究了各种卷积神经网络,包括VGG16、ResNet50和Inceptionv3模型,以获得交通流量估计。这些模型在各种数据集上进行了训练,包括DOTA-v1.5数据集。还通过osmnx python软件包从OpenStreetMap数据中获取道路要素,并使用在Google地图卫星图像上训练的自动编码器开发了一个检测交叉口类型的模型。DOTA-v1.5 dataset osmnx
此外,当局亦已利用ResNet50型号侦测道路上的学校道路警告标志,以及侦测道路曲率。
回归技术
回归技术允许模型了解一个或多个自变量与因变量之间的关系。回归技术使我们能够了解因变量和每个自变量之间关系的强度,也可以估计哪个函数最接近这种关系。
道路要素对iRAP得分的重要性
本项目在不同的工作流程中考虑了回归模型。首先,使用回归模型来评估哪些道路特征在评估iRAP得分时最重要。换句话说,正在解决的问题是:在60多个可用的功能中,哪些功能可以用来足够好地近似道路的iRAP分数?为了回答这个问题,志愿者们研究了各种类型的回归变量,包括随机森林回归变量、极端梯度增强(XgBoost)回归变量和绝对增强(CatBoost)回归变量。
道路风险分值估计
回归技术也被用于根据历史道路事件数据自动计算风险分数。为此,综合道路安全数据集和道路交通数据集被用作训练数据集,这两个数据集都是由英国交通部发布的。前者提供了大量关于车祸和道路特征的信息,而后者提供了各种道路的交通信息。road safety dataset road traffic dataset
此外,通过OVERPASS API访问的OpenStreetMap数据用于计算事故与各种地标(包括学校、学院、大学、医院、酒吧、酒吧和餐馆)之间的距离,这是我们的模型中使用的附加功能之一。我们以事故严重程度为目标变量,训练了随机森林回归变量和梯度提升回归变量。Overpass API
管道
iRAP在这个项目中的优先事项之一是通过自动化扩展他们的数据驱动的操作。道路属性会随着时间的推移而改变,而这又会改变道路接收到的评级。开发了使用上述方法中的一些方法的管道,以帮助创建可持续扩展的工作流。这条管道展示了收集数据、转换数据、训练模型和预测iRAP道路属性得分的能力。
工作流是使用名为Prefect的python库构建的。Perfect允许创建标记为“流”的有向无环图(DAG)。流由“任务”和围绕这些任务的逻辑组成,以帮助它们朝着特定目标进行排序。可以通过修饰任何Python函数或利用其他人构建的现有任务库来创建完美的任务。Prefect
为该项目创建的流包括使用名为PaperMill的库自动运行Jupyter笔记本的任务。造纸厂允许自动和参数化执行笔记本。以这种方式使用笔记本可以实现从分析和实验到生产就绪工作流程的直接过渡。它还使数据科学家或工程师将来可以灵活地扩展代码或对代码进行故障排除。Papermill
关于工程的几点思考
大量的数据和非常有趣的机器学习实验
该项目最突出的一个方面是,志愿者可以使用高质量的开源数据以及属于iRAP合作伙伴公司的数据集进行真实世界数据的实验,志愿者可以访问这些数据。事实上,我们可以使用的数据量是巨大的,因此,处理起来相当困难,例如,因为有大量图片可用于训练我们的YOLOv3模型,或者因为英国车祸数据集中有数百万条记录。此外,自组织工作流专注于各种机器学习技术,允许志愿者试验许多问题和类型的方法。
志愿者的力量!
在iRAP和Omdena在项目开始时介绍了这个问题之后,合作者很快就开始提出潜在的主要开发想法,其他人也开始围绕这些想法展开讨论。我们的主要合作渠道(SLACK)开始讨论是放弃还是追求其中一些任务,后来,合作者根据兴趣和与手头问题的相关性选择了一些任务。
令人高兴的是,在项目期间,每个人都可以做任何他们想做的事情,只要它是相关的。志愿者可以选择他们感兴趣的任务,在任务之间切换,或者一次处理多个任务。
一些协作者选择领导各种任务,并帮助管理协作者和不同任务之间的工作量。每周定期的电话会议有助于确保进展在正轨上,每个人都站在相同的立场上。来自iRAP的成员还通过迭代反馈和回答问题来帮助指导团队。
伟大事业的伟大征程
我们希望这个项目上人工智能技术的全球合作和实施将有助于扩大iRAP的目标。Omdena的模式、全球志愿者的专业知识和iRAP的数据驱动方法的独特结合创造了可能为每个人创造更安全道路的成果。我们用如此多的数据和这么多不同的技术进行实验,我们获得了巨大的乐趣,但最重要的是,我们为有机会为如此重要的事业做出贡献而感到非常自豪。
参考文献
原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/07/12/%e4%ba%ba%e5%b7%a5%e6%99%ba%e8%83%bd%e5%90%91%e5%96%84%ef%bc%9a%e9%98%b2%e6%ad%a2%e9%81%93%e8%b7%af%e4%ba%a4%e9%80%9a%e4%ba%8b%e6%95%85%ef%bc%8c%e6%8b%af%e6%95%91%e7%94%9f%e5%91%bd/