TextInfoExp:自然语言处理相关实验(基于sougou数据集)
自然语言处理相关实验(基于sougou数据集),包含文本特征提取(TF-IDF),文本分类,文本聚类,word2vec训练词向量及同义词词林中文词语相似度计算、文档自动摘要,信息抽取,情感分析与观点挖掘等。
项目地址:https://github.com/Roshanson/TextInfoExp
构建实验环境
1 安装python(2.7) https://www.python.org/
2 安装pip:
2.1 下载pip https://pypi.python.org/pypi/pip/9.0.1
2.2 解压缩后,安装指令 python setup.py install
2.3 pip升级 python -m pip install –upgrade pip
2.4 pip安装扩展包 pip install jieba (这里以jieba包为例),如果速度较慢,可改为国内的阿里源,
即 pip install jieba -i http://mirrors.aliyun.com/pypi/simple/ –trusted-host mirrors.aliyun.com
3 安装pycharm http://www.jetbrains.com/pycharm/
4 使用GitHub获取代码
4.1 安装git https://git-scm.com/
4.2 登陆自己的GitHub账号,找到自己的项目,(别人的需要先fork过来,也可以直接 git clone xxx,或者直接下载zip包放进pycharm)
4.3 打开pycharm,首先设置git的位置及github账号,点击Test都通过后继续,依次在菜单栏点击 VCS checkout from version control
GitHub,登陆自己的账号后选择相应的项目,得到代码。
4.4 (更新fork的项目到最新的版本)Syncing a fork https://help.github.com/articles/syncing-a-fork/
5 ipython交互式开发环境
5.1 安装ipython pip install ipython
5.2 安装jupyter(即notebook) pip install notebook
5.3 jupyter notebook 启动,打开浏览器即可(默认1224端口)
原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2017/11/09/textinfoexp/