1. 磐创AI-开放猫官方网站首页
  2. 机器学习
  3. TensorFlowNews

干货|九月Github热点项目汇总

干货|九月Github热点项目汇总

作者:Walker

【磐创AI 导读】:本月的Github热门项目汇总为大家准备了八个最新的数据科学项目,主要涵盖计算机视觉和自然语言处理领域,欢迎大家转发、留言。想要学习更多机器学习、深度学习资源,大家欢迎点击上方蓝字关注我们的公众号:磐创AI。

No1:PLMpapers(https://github.com/thunlp/PLMpapers)

因为我们大多数人都没有空闲的GPU(更不用说其中的几个了),很难从头开始编写深层神经网络模型,所以最近预训练语言模型(PLM)变得越来越热门了。

预训练模型随着迁移学习的出现,能力变得无处不在。它可以在一个数据集上训练一个模型,然后调整该模型,以便在不同的数据集上执行不同的NLP函数。预先训练的模型使我们能够使用现有的模型并使用它。

这个Github存储库是60多个预训练模型的集合。其中包括Bert、XLnet、Ernie、Elmo、Ulmfit等。我们列出了PLM的一些代表性工作,并用图表展示了它们之间的关系,以下是它们之间的关系示意图:


干货|九月Github热点项目汇总

No2:Text Mining on the 2019 Mexican Government Report (https://github.com/PhantomInsights/mexican-government-report)

这个存储库完美的诠释了如何从一个简单的想法产生强大的结果。墨西哥政府在9月1日发布了年度报告,该项目的创建者决定使用简单的nlp文本挖掘技术来挖掘相关信息。

该存储库记录了从pdf中提取文本、清理文本、通过nlp管道传递文本以及用图象显示结果的整个过程。但正如作者所强调的,该项目在执行时面临了很多的挑战。其中一个挑战是从存放报告的pdf文件中提取所有文本,他用一个叫PYPDF2的库来做这件事,整个过程在这个项目中都有很好的文档记录,还有一个逐步的解释和python代码。

此外,作者还用seaborn生成了可视化地图,显示了年度报告中每个州被提及的次数:

干货|九月Github热点项目汇总

No3:AlBert(https://github.com/brightmart/albert_zh)

如果您到现在还没听说Bert,您真的需要赶上!由谷歌开发的Bert框架一夜之间改变了Nlp的面貌。但是最初的Bert预训练模型的体积很大。我们无法简单地将它们解包、插入模型并期望它们在本地计算机上运行(除非您有几个GPU)。

这也导致了AlBert的诞生,它是用于构建语言模型的Bert的一个精简版本。AlBert在很多NLP任务中都有很好的表现,AlBert基于Bert,但又有一些改进,相比Bert,参数减少了30%左右。下面是两个框架在几个流行基准上的比较:

干货|九月Github热点项目汇总

No4:StringSifter(https://github.com/fireeye/stringsifter)

StringSifter是这份榜单上最吸引人的数据科学项目之一。作为一个社区,我们没有花足够的时间讨论网络威胁,以及如何利用数据科学来构建强大的解决方案。StringSifter便可以解决我们的这些担心。

由FireEye首创的StringSifer是一种机器学习工具,它根据字符串与恶意软件分析的相关性自动对字符串进行排序。根据开发人员的说法,恶意软件程序如果想执行创建注册表项、将文件复制到特定位置等操作,通常会包含字符串,StringSifter可以根据这些字符串来帮助我们建立健全的恶意软件检测程序。

干货|九月Github热点项目汇总

No5:Tiler(https://github.com/nuno-faria/tiler)

Tiler处理图像数据的能力在业界受到了相当多的追捧。这些天上传和发布的图片数量是前所未有的。而且这种速度只会在未来几年内增加。

Tiler是使用所有其他较小的图像(平铺)创建图像的工具。它与其他镶嵌工具不同,因为它可以帮助我们使用各种较小的图像(准确地说是tiles)创建一个图像。图像可以由圆形,直线,波浪形,十字绣,乐高积木,Minecraft积木,回形针,字母等组成……其可能性是无穷的!

干货|九月Github热点项目汇总

No6:DeepPrivacy(https://github.com/hukkelas/DeepPrivacy)

在当今的数字世界里,隐私是紧缺的。我们所做的每一个动作和屏幕上的每一次触摸都被记录、存储、分析,并用于提供定制的广告和服务(以及许多其他东西)。这种缺乏隐私的主要缺点之一是对图像的操纵。

我相信你现在一定听说过DeepFakes。对于外行来说,这是一种只用几张图片就能操纵人的表情和面部肌肉的能力。这仍然是一个问题,因为这一概念背后的算法,被称为生成对抗网络的Gans还在继续演变。

这就是本项目的核心DeepPrivacy——一种全自动的图像匿名技术。DeepPrivacy Gan从不看到任何隐私敏感信息,确保完全匿名的图像。它利用边界盒标注来识别隐私敏感区域,利用稀疏的姿态信息来指导网络在困难场景下的运行,根据人的原始姿势和图像背景生成图像。DeepPrivacy使用Mask R-CNN生成有关面部的信息,如下图所示:

干货|九月Github热点项目汇总

No7:TubeMQ(https://github.com/Tencent/TubeMQ)

TubeMQ是腾讯大数据自2013年以来开发的分布式消息队列(MQ)系统。它专注于大数据场景中海量数据的高性能存储和传输。上边链接的用户指南逐步说明了如何有效的使用TubeMQ。

经过近七年的海量数据沉淀,与许多开源MQ项目相比,TubeMQ在生产实践(稳定性+性能)和低成本方面具有一定优势。最近,我们也在为TubeMQ项目开源了相关代码和设计,您可以在/ docs下找到更多信息和文档。此外,更多的信息和文档也将会很快公布。

干货|九月Github热点项目汇总

No8:DeepCTR-Torch(https://github.com/shenweichen/DeepCTR-Torch)

是否曾经尝试过点击率(CTR)的问题呢?它既有趣又复杂,解开它肯定需要很多时间。

DeepCTR是基于深度学习的CTR模型的软件包,非常易于使用。它带有多个组件层,可用于构建自定义模型。您可以将任何所需的模型与model.fit()和model.predict()一起使用。

最初的DeepCTR项目在TensorFlow中。虽然现在TF很棒,但这并不符合所有人的口味。这就是DeepCTR-Torch存储库的诞生原因, 它在PyTorch中提供了完整的原始DeepCTR代码。您可以通过以下代码,立刻的安装它:

pip install -U deepctr-torch
干货|九月Github热点项目汇总
你也许还想
● 一文综述生成更多图像训练数据的方法|视觉进阶
● 数值数据的特征预处理|ML基础
 使用Python在少于10行代码中计数汽车数量 |视觉实战
欢迎扫码关注:
干货|九月Github热点项目汇总


干货|九月Github热点项目汇总 点击下方 |  | 了解更多
磐创AI:http://www.panchuangai.com/ 智能客服:http://www.panchuangai.com/ TensorFlow:http://panchuang.net 推荐关注公众号:磐创AI

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2019/11/09/8ca319399a/

发表评论

登录后才能评论

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息