1. 磐创AI-开放猫官方网站首页
  2. Medium

商场产品匹配

使用产品的图像和标题查找与特定产品相似的产品。

问题描述:

Shopee是一家领先的在线电子商务平台,使用户能够在线购买和销售产品。它专注于电子商务,主要在南亚国家开展业务。顾客喜欢它为他们的地区量身定做的简单、安全和快速的在线购物体验。该公司还提供强大的付款和后勤支持,并为数千家Shopee的上市产品提供“最低价保证”功能。在这场比赛中,他们开放了带有标题/描述的产品图像,并期望机器学习从业者建立模型,根据图像和描述识别类似的产品。

数据浏览:


POSTING_ID:每个张贴/产品的唯一ID

image:镜像的文件名

image_phash:图像的感知散列

标题:该图像的描述

LABEL_GROUP:产品所属的组码。

火车上有34250个帖子,一些帖子有类似的图像文件、密码和标题。共有11014个标签组。属于LABEL_GROUP的产品相似。举个例子,

这三种不同的产品属于一个标签组,它们是相似的,这从这三种产品的图像中可以明显看出。

LABEL_GROUP可以被认为是地面事实还是地面事实?不是的。

让我们考虑Image_phash。我们可以观察到,下面的数据点具有相同的图像密码,但它们属于不同的标签组。

当我检查图像时,它们是相似的产品。

我们可以清楚地观察到,上述3种产品是相似的,它们属于不同的标签组。那么,图像phash可以被认为是基本事实吗?不是的。

从关于Kaggle的讨论中可以明显看出,不同的产品可以有相同的图像phash。此外,还有一些帖子具有相同/相似的图像或描述,但属于不同的标签组或具有不同的图像密码。this

谈到帖子的标题,让我们使用单词云来看看列车数据中标题中最常用的单词是什么。

我们可以清楚地看到,这里有很多单词不是英语单词。通过Kaggle上的讨论,使用Google Translate探索和观察到,英语、印度尼西亚语、马来语和德语是最常用的语言,很明显,因为Shopee主要在南亚国家运营业务。我们还可以用最常用的词来观察数字。在预处理过程中,不应将数字从标题中删除,因为数字可能会显著描述和区分产品。this

标题中有多少个词?

标题中有多少个独特的词?

通过词数直方图和独特词数直方图可以看出,标题中没有高重复词。合乎逻辑的是,产品的标题通常既没有高度重复的词,也没有停用的词。我没有明显地观察到Word Cloud中的任何停用词。

来到影像世界,

据观察,列车上大约96%的图像是正方形图像,超过56%的图像是尺寸为640×640和1024×1024的图像。

ML问题公式:

这个问题没有事实根据,应该用无人监督的方法来解决。使用DESCRIPTION,我们可以使用TFIDF、word2vec/Glove等基本方法将它们矢量化,也可以使用ERT和不同版本的ERT(DistilBERT、SentenceBERT等)来获得嵌入。在得到嵌入后,我们可以将向量作为单位向量,并计算与其他向量/嵌入的DOT乘积(余弦相似度)。将矢量/嵌入设置为单位长度可确保DOT乘积(余弦相似度)介于+1和-1之间,因为它现在仅取决于矢量/嵌入之间的角度。如果余弦相似度为+1,则向量之间的分离角为0度(cos(0)=+1),这反过来意味着它们是相同的向量,如果余弦相似度为-1,则向量之间的分离角为180度(cos(180)=-1),这又意味着它们是最不相似的向量。

同样,图像嵌入也可以使用卷积神经网络进行,计算相似度的过程与上面相同。我们也可以使用欧几里德距离作为相似性度量,但是由于我已经将向量/嵌入作为单位向量,所以欧几里德距离与余弦距离成正比。我们需要对余弦相似度/DOT产品设置一个判决阈值,以获得产品的匹配项,在解决该问题时可以计算出最优阈值。

性能指标:

此问题的性能度量是F1-发布的平均分数。这意味着使用其匹配项计算每个产品的F1分数,并取所有产品的平均值。

弧面损失/弧边距产品:

参考文件:https://arxiv.org/pdf/1801.07698.pdfhttps://arxiv.org/pdf/1801.07698.pdf

最佳解决方案:

0.72的最佳私有得分是基于文本和图像的模型/嵌入的组合。EfficientNetB3(基于图像)用可变边缘的ArcFace进行训练。这里,在每个场景中都会增加边距,但会根据特征和权重之间的角度而变化。角度越小,边距越大,反之亦然。

在此基础上训练的EfficientNet B3(基于图像)在余弦相似度阈值为0.6的情况下获得了0.69的私有分数,并且我添加了使用具有较高余弦相似性阈值的基于文本的嵌入预测的产品匹配(IDF和ArcFace训练了C.S阈值为0.75和0.7的BERT),从而确保在EfficientNet B3的匹配中只添加精确的预测,并且这种组合产生了0.72的私有分数

下一步工作:

参考文献:

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/07/21/%e5%95%86%e5%9c%ba%e4%ba%a7%e5%93%81%e5%8c%b9%e9%85%8d/

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息