计算机视觉
这篇文章本身并不是关于一项新技术。相反,它是关于Gans的一个新的、令人兴奋的应用。事实上,您看到了标题,它是?euro™t Clickbait。这种人工智能可以转移你的头发,看看它会是什么样子,然后再承诺改变。我们都知道,即使你想改变发型,也可能很难。嗯,至少对我自己来说,我多年来习惯了同样的发型,告诉我的理发师™œ和上次一样,每三四个月就剪一次�,即使我™我想换个发型。我就是不能承诺,怕它看起来怪怪的,不寻常的。(™)当然,这一切都在我们的头脑中,因为我们是唯一关心我们理发的人,但对于我们中的一些人来说,这个工具可能会真正改变游戏规则,帮助我们决定是否致力于这样的改变,并对我们的发型有很好的洞察力。尽管如此,这种在猜测之前就能看到未来的时刻还是很少见的。即使它不是完全准确的,它仍然是相当酷的欧元™有一个很好的近似的东西,像一个新的发型可能是什么样子,减轻了我们的一些压力,尝试新的东西,同时保留了令人兴奋的部分。当然,与更有用的应用相比,理发非常肤浅。尽管如此,这仍然是朝着看到未来欧元œ使用人工智能的欧元�迈进了一步,这是相当酷的。事实上,这项新技术在某种程度上能让我们预测未来,即使这只是我们理发的未来。(™)但在深入研究它的工作原理之前,我很想知道您对此有何看法。在任何其他领域:您希望看到哪些其他应用程序使用人工智能来展望未来的欧元œ?�?
它不仅可以改变你的发型,还可以改变多个图像示例中的颜色。基本上可以为算法提供三个方面:
结果令人印象深刻。如果你不相信我的判断(根据我的艺术水平我会完全理解),他们还对396名参与者进行了一项用户研究。他们的解决方案在95%的情况下是首选的!当然,如果这似乎太令人难以置信,你可以在下面的参考文献中找到关于这项研究的更多细节。
正如你可能怀疑的那样,我们在这里玩的是脸部游戏,所以它使用的过程与我以前报道的论文非常相似,将脸部改变为卡通或其他风格,都使用Gans。由于非常相似,我将让您观看我的其他视频,在这些视频中我深入解释了GAN是如何工作的,并且I?uro™将重点介绍这种方法的新特性以及为什么它工作得这么好。the past papers I covered
GAN架构可以学习将一幅图像的特定特征或样式转置到另一幅图像上。问题是,它们通常看起来不真实,因为两张照片中的照明差异、遮挡,甚至只是头部的位置不同。所有这些小细节使得这个问题非常具有挑战性,会在生成的图像中造成伪影。这是一个简单的例子来更好地直观地描述这个问题,如果你从一张在黑暗的房间里拍摄的照片中拿出某人的头发,并试图在白天把它放在外面,即使它完美地换位在你的头上,它看起来仍然会很奇怪。通常,这些使用GAN的其他技术尝试对图片进行编码-欧元™信息,并在此编码中显式地识别与头发属性相关联的区域以切换它们。当这两张照片是在相似的条件下拍摄时,效果很好,但由于我刚才提到的原因,它在大多数情况下看起来不会是真的。(™)然后,他们不得不使用另一个网络来修复因合并而导致的重新照明、洞和其他奇怪的人工制品。因此,这里的目标是将特定图片的发型和颜色转置到您自己的图片上,同时更改结果以跟随图片的光线和属性,使其同时具有说服力和真实感,从而减少错误的步骤和来源。
如果最后一段不清楚,我强烈建议您观看本文末尾的视频,因为还有更多的视觉示例可以帮助您理解。
为了实现这一点,朱培浩等人。向Gans添加了一个缺失但必不可少的对齐步骤。事实上,它不是简单地对图像进行编码和合并,而是在不同的分割掩码之后略微改变编码,以使来自两个图像的潜在代码更相似。正如我提到的,它们都可以编辑头发的结构和样式或外观。
当然,这里的结构是头发的几何形状,告诉我们它是卷曲的、波浪形的还是直的。™的头发是卷曲的、卷曲的还是笔直的。如果你看过我的其他视频,你已经知道™使用卷积对信息进行编码。这意味着它使用内核缩小每一层的信息,并使其越来越小,从而迭代地删除空间细节,同时为结果输出赋予越来越多的一般信息价值。像往常一样,这种结构信息是从GaN的早期层获得的,所以在编码变得太普遍并且编码得太好而不能表示空间特征之前。
外观是指深度编码的信息,包括头发的颜色、纹理和光照。您知道从不同的图像获取信息的位置,但是现在,他们如何合并这些信息并使其看起来比以前的方法更逼真呢?
这是使用来自图像的分割图来完成的。更准确地说,基于我们的目标图像和参考图像的对齐版本来生成想要的新图像。参考图像是我们自己的图像,目标图像是我们要应用的发型。这些分割图告诉我们图像包含什么以及它在哪里,头发、皮肤、眼睛、鼻子等等。
使用来自不同图像的该信息,他们可以在将图像发送到网络以使用改进的基于StyleGAN2的架构进行编码之前按照目标图像结构对准头部。我已经讲过很多次了。这种对齐使得编码信息更容易进行比较和重建。
然后,对于外观和光照问题,对于相同的分割区域,他们从目标图像和参考图像中找到这些外观编码的适当混合比例,使其看起来尽可能真实。如果没有左栏的对齐和右栏的方法,结果会是什么样子的?™是这样的:在左栏没有对齐,在右栏没有他们的方法。
当然,这个过程有点复杂,所有的细节都可以在参考文献中链接的论文中找到。请注意,就像大多数Gans实现一样,他们的体系结构需要经过培训。在这里,他们使用了一个基于StyleGAN2的网络,该网络是在FFHQ数据集上训练的。然后,由于他们做了许多修改,正如我们刚才讨论的那样,他们使用198对图像作为发型转换示例来第二次训练他们修改后的StleGAN2网络,以优化™模型对于外观混合比率和结构编码的决策。
此外,正如你可能预料的那样,仍然有一些不完美的地方,比如他们的方法无法对齐分割面具或重建人脸。尽管如此,结果还是非常令人印象深刻的,他们公开分享这些限制是很棒的。
正如他们在论文中所说,他们的方法的源代码将在论文最终发表后公开。官方GitHub回购的链接在下面的参考中,希望它能很快发布。
感谢您的阅读!
观看视频
来我们的不和谐社区和我们聊天吧:一起学习人工智能,分享你的项目,论文,最好的课程,寻找Kaggle队友,等等!Discord community: Learn AI Together
如果你喜欢我的工作,想要了解最新的AI,你绝对应该在我的其他社交媒体账号(LinkedIn,Twitter)上关注我,订阅我的每周AI时事通讯!LinkedIn Twitter newsletter
来支持我:
- 支持我的最好方式是成为这个网站的成员,或者如果你喜欢我在YouTube上的频道,就订阅它。
- 在财务上支持我在Patreon上的工作
- 请在Medium上跟我来这里
参考文献
- 朱培浩等,(2021年),理发店,https://arxiv.org/pdf/2106.01505.pdf
- 项目链接:https://zpdesu.github.io/Barbershop/
- 编码:https://github.com/ZPdesu/Barbershop
原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/06/18/%e7%90%86%e5%8f%91%e5%ba%97%ef%bc%9a%e5%b0%9d%e8%af%95%e5%9b%be%e7%89%87gans%e4%b8%ad%e4%b8%8d%e5%90%8c%e7%9a%84%e5%8f%91%e5%9e%8b%e5%92%8c%e5%8f%91%e8%89%b2/