干货|九月Github热点项目汇总

作者：Walker

【磐创AI 导读】：本月的Github热门项目汇总为大家准备了八个最新的数据科学项目，主要涵盖计算机视觉和自然语言处理领域，欢迎大家转发、留言。想要学习更多机器学习、深度学习资源，大家欢迎点击上方蓝字关注我们的公众号：磐创AI。

No1：PLMpapers（https://github.com/thunlp/PLMpapers）

因为我们大多数人都没有空闲的GPU（更不用说其中的几个了），很难从头开始编写深层神经网络模型，所以最近预训练语言模型（PLM）变得越来越热门了。

预训练模型随着迁移学习的出现，能力变得无处不在。它可以在一个数据集上训练一个模型，然后调整该模型，以便在不同的数据集上执行不同的NLP函数。预先训练的模型使我们能够使用现有的模型并使用它。

这个Github存储库是60多个预训练模型的集合。其中包括Bert、XLnet、Ernie、Elmo、Ulmfit等。我们列出了PLM的一些代表性工作，并用图表展示了它们之间的关系，以下是它们之间的关系示意图：

No2：Text Mining on the 2019 Mexican Government Report （https://github.com/PhantomInsights/mexican-government-report）

这个存储库完美的诠释了如何从一个简单的想法产生强大的结果。墨西哥政府在9月1日发布了年度报告，该项目的创建者决定使用简单的nlp文本挖掘技术来挖掘相关信息。

该存储库记录了从pdf中提取文本、清理文本、通过nlp管道传递文本以及用图象显示结果的整个过程。但正如作者所强调的，该项目在执行时面临了很多的挑战。其中一个挑战是从存放报告的pdf文件中提取所有文本，他用一个叫PYPDF2的库来做这件事，整个过程在这个项目中都有很好的文档记录，还有一个逐步的解释和python代码。

此外，作者还用seaborn生成了可视化地图，显示了年度报告中每个州被提及的次数：

No3：AlBert（https://github.com/brightmart/albert_zh）

如果您到现在还没听说Bert，您真的需要赶上！由谷歌开发的Bert框架一夜之间改变了Nlp的面貌。但是最初的Bert预训练模型的体积很大。我们无法简单地将它们解包、插入模型并期望它们在本地计算机上运行（除非您有几个GPU）。

这也导致了AlBert的诞生，它是用于构建语言模型的Bert的一个精简版本。AlBert在很多NLP任务中都有很好的表现，AlBert基于Bert，但又有一些改进，相比Bert，参数减少了30%左右。下面是两个框架在几个流行基准上的比较：

No4：StringSifter（https://github.com/fireeye/stringsifter）

StringSifter是这份榜单上最吸引人的数据科学项目之一。作为一个社区，我们没有花足够的时间讨论网络威胁，以及如何利用数据科学来构建强大的解决方案。StringSifter便可以解决我们的这些担心。

由FireEye首创的StringSifer是一种机器学习工具，它根据字符串与恶意软件分析的相关性自动对字符串进行排序。根据开发人员的说法，恶意软件程序如果想执行创建注册表项、将文件复制到特定位置等操作，通常会包含字符串，StringSifter可以根据这些字符串来帮助我们建立健全的恶意软件检测程序。

No5：Tiler（https://github.com/nuno-faria/tiler）

Tiler处理图像数据的能力在业界受到了相当多的追捧。这些天上传和发布的图片数量是前所未有的。而且这种速度只会在未来几年内增加。

Tiler是使用所有其他较小的图像（平铺）创建图像的工具。它与其他镶嵌工具不同，因为它可以帮助我们使用各种较小的图像（准确地说是tiles）创建一个图像。图像可以由圆形，直线，波浪形，十字绣，乐高积木，Minecraft积木，回形针，字母等组成……其可能性是无穷的！

No6：DeepPrivacy（https://github.com/hukkelas/DeepPrivacy）

在当今的数字世界里，隐私是紧缺的。我们所做的每一个动作和屏幕上的每一次触摸都被记录、存储、分析，并用于提供定制的广告和服务（以及许多其他东西）。这种缺乏隐私的主要缺点之一是对图像的操纵。

我相信你现在一定听说过DeepFakes。对于外行来说，这是一种只用几张图片就能操纵人的表情和面部肌肉的能力。这仍然是一个问题，因为这一概念背后的算法，被称为生成对抗网络的Gans还在继续演变。

这就是本项目的核心DeepPrivacy——一种全自动的图像匿名技术。DeepPrivacy Gan从不看到任何隐私敏感信息，确保完全匿名的图像。它利用边界盒标注来识别隐私敏感区域，利用稀疏的姿态信息来指导网络在困难场景下的运行，根据人的原始姿势和图像背景生成图像。DeepPrivacy使用Mask R-CNN生成有关面部的信息，如下图所示：