干货|九月Github热点项目汇总
作者:Walker
【磐创AI 导读】:本月的Github热门项目汇总为大家准备了八个最新的数据科学项目,主要涵盖计算机视觉和自然语言处理领域,欢迎大家转发、留言。想要学习更多机器学习、深度学习资源,大家欢迎点击上方蓝字关注我们的公众号:磐创AI。
No1:PLMpapers(https://github.com/thunlp/PLMpapers)
因为我们大多数人都没有空闲的GPU(更不用说其中的几个了),很难从头开始编写深层神经网络模型,所以最近预训练语言模型(PLM)变得越来越热门了。
预训练模型随着迁移学习的出现,能力变得无处不在。它可以在一个数据集上训练一个模型,然后调整该模型,以便在不同的数据集上执行不同的NLP函数。预先训练的模型使我们能够使用现有的模型并使用它。
这个Github存储库是60多个预训练模型的集合。其中包括Bert、XLnet、Ernie、Elmo、Ulmfit等。我们列出了PLM的一些代表性工作,并用图表展示了它们之间的关系,以下是它们之间的关系示意图:
No2:Text Mining on the 2019 Mexican Government Report (https://github.com/PhantomInsights/mexican-government-report)
这个存储库完美的诠释了如何从一个简单的想法产生强大的结果。墨西哥政府在9月1日发布了年度报告,该项目的创建者决定使用简单的nlp文本挖掘技术来挖掘相关信息。
该存储库记录了从pdf中提取文本、清理文本、通过nlp管道传递文本以及用图象显示结果的整个过程。但正如作者所强调的,该项目在执行时面临了很多的挑战。其中一个挑战是从存放报告的pdf文件中提取所有文本,他用一个叫PYPDF2的库来做这件事,整个过程在这个项目中都有很好的文档记录,还有一个逐步的解释和python代码。
此外,作者还用seaborn生成了可视化地图,显示了年度报告中每个州被提及的次数:
No3:AlBert(https://github.com/brightmart/albert_zh)
如果您到现在还没听说Bert,您真的需要赶上!由谷歌开发的Bert框架一夜之间改变了Nlp的面貌。但是最初的Bert预训练模型的体积很大。我们无法简单地将它们解包、插入模型并期望它们在本地计算机上运行(除非您有几个GPU)。
这也导致了AlBert的诞生,它是用于构建语言模型的Bert的一个精简版本。AlBert在很多NLP任务中都有很好的表现,AlBert基于Bert,但又有一些改进,相比Bert,参数减少了30%左右。下面是两个框架在几个流行基准上的比较:
No4:StringSifter(https://github.com/fireeye/stringsifter)
StringSifter是这份榜单上最吸引人的数据科学项目之一。作为一个社区,我们没有花足够的时间讨论网络威胁,以及如何利用数据科学来构建强大的解决方案。StringSifter便可以解决我们的这些担心。
由FireEye首创的StringSifer是一种机器学习工具,它根据字符串与恶意软件分析的相关性自动对字符串进行排序。根据开发人员的说法,恶意软件程序如果想执行创建注册表项、将文件复制到特定位置等操作,通常会包含字符串,StringSifter可以根据这些字符串来帮助我们建立健全的恶意软件检测程序。
No5:Tiler(https://github.com/nuno-faria/tiler)
Tiler处理图像数据的能力在业界受到了相当多的追捧。这些天上传和发布的图片数量是前所未有的。而且这种速度只会在未来几年内增加。
Tiler是使用所有其他较小的图像(平铺)创建图像的工具。它与其他镶嵌工具不同,因为它可以帮助我们使用各种较小的图像(准确地说是tiles)创建一个图像。图像可以由圆形,直线,波浪形,十字绣,乐高积木,Minecraft积木,回形针,字母等组成……其可能性是无穷的!
No6:DeepPrivacy(https://github.com/hukkelas/DeepPrivacy)
在当今的数字世界里,隐私是紧缺的。我们所做的每一个动作和屏幕上的每一次触摸都被记录、存储、分析,并用于提供定制的广告和服务(以及许多其他东西)。这种缺乏隐私的主要缺点之一是对图像的操纵。
我相信你现在一定听说过DeepFakes。对于外行来说,这是一种只用几张图片就能操纵人的表情和面部肌肉的能力。这仍然是一个问题,因为这一概念背后的算法,被称为生成对抗网络的Gans还在继续演变。
这就是本项目的核心DeepPrivacy——一种全自动的图像匿名技术。DeepPrivacy Gan从不看到任何隐私敏感信息,确保完全匿名的图像。它利用边界盒标注来识别隐私敏感区域,利用稀疏的姿态信息来指导网络在困难场景下的运行,根据人的原始姿势和图像背景生成图像。DeepPrivacy使用Mask R-CNN生成有关面部的信息,如下图所示:
No7:TubeMQ(https://github.com/Tencent/TubeMQ)
TubeMQ是腾讯大数据自2013年以来开发的分布式消息队列(MQ)系统。它专注于大数据场景中海量数据的高性能存储和传输。上边链接的用户指南逐步说明了如何有效的使用TubeMQ。
经过近七年的海量数据沉淀,与许多开源MQ项目相比,TubeMQ在生产实践(稳定性+性能)和低成本方面具有一定优势。最近,我们也在为TubeMQ项目开源了相关代码和设计,您可以在/ docs下找到更多信息和文档。此外,更多的信息和文档也将会很快公布。
No8:DeepCTR-Torch(https://github.com/shenweichen/DeepCTR-Torch)
是否曾经尝试过点击率(CTR)的问题呢?它既有趣又复杂,解开它肯定需要很多时间。
DeepCTR是基于深度学习的CTR模型的软件包,非常易于使用。它带有多个组件层,可用于构建自定义模型。您可以将任何所需的模型与model.fit()和model.predict()一起使用。
最初的DeepCTR项目在TensorFlow中。虽然现在TF很棒,但这并不符合所有人的口味。这就是DeepCTR-Torch存储库的诞生原因, 它在PyTorch中提供了完整的原始DeepCTR代码。您可以通过以下代码,立刻的安装它:
pip install -U deepctr-torch
原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2019/11/09/8ca319399a/