最受投资人热捧的AI领域是哪些?10000+个AI创业公司的数据分析告诉你
精品文章,第一时间送达

转载自:大数据文摘,未经允许不得二次转载
我们都知道,最近几年AI创业几乎呈指数级增长。那么AI领域的投资规模到底有多少大?这些AI创业公司的规模如何?对他们来说最有前途的市场是哪些?
这些问题我们都可以从AngelList公开的数据中得到答案。
关于AngelList
AngelList网站建于2010年,是全球最大的天使投资平台,连接起众多科技创业公司、投资人和创业企业求职者,目前已经有超过400万公司、800万投资者和至少100万求职者在他们的网站上注册。据不完全统计,10年间,通过该平台投资的企业市值超过2900亿美元,涵盖企业包括Uber、Airbnb、Twitter、Dropbox等。
数据提取及特征确定
首先,我们使用explosion.ai.研发的SenseToVec工具来确定用于抓取数据的关键词语。SenseToVec是一种神经网络模型,用其读取2015年Reddit上的所有评论,再使用word2vec和spaCy来建立语义地图。通过搜索一个词或短语,得到和该词或短语最相似的单词(甚至可以使用它来查找同义词)。比如输入“机器学习”,匹配提取出了:数据科学、NLP、计算机视觉……
对这些关键词语过滤后,我们使用更精确的关键词语在Angel上进行查询。
接下来使用Selenium和Beautiful Soup制作网络爬虫,创建一个驱动程序访问URL(https://angel.co/companies),点击搜索栏并输入特定的查询词。然后滚动列表中的每个公司并存储其数据。

Angel爬虫
因为网站限制了每次搜索只能获得400个公司,所以我们使用过滤器并增加查询数量,以确保得到几乎所有相关公司的信息。
删除重复信息后,获得CSV文件,其中包含10139组独立数据,特征包括:
-
‘name’→公司名称
-
‘joined’→公司加入Angel的时间
-
‘type’→公司类型(创业公司,有限责任公司,孵化器…)
-
‘location’→公司所在城市
-
‘market’→公司活跃领域(电商,游戏…)
-
‘pitch’→公司标语
-
‘raised’→公司投资人的投资数额
-
‘tech’→主要使用的编程语言(Python,Javascript…)
数据分析
首先进行清洗和预处理,包括格式化日期、正规化文本,以及将金额相关的字符串转换为浮点数字。

