作者|Adrian Raudaschl
编译|VK
来源|Towards Data Science
尽管目前正在蔓延的冠状病毒疫情已经很可怕,但观察世界各地的学术界和研究界是多么迅速地开始了解这种病毒及其潜在影响,还是很有意思的。
正因为如此,很多有趣的学术论文都很快就出来了。我鼓励你仔细阅读预印本,因为所作的声明是未经核实的,但我想看看这些文件所讨论的主题和结论中是否有任何明显的模式。
因此,我从Elsevier新型冠状病毒信息中心的列表中,手工抓取了这些预打印论文的结果和见解部分,并使用流行的Gensim库使用LDA进行了一些主题建模。如果你想亲自尝试的话,我在这篇文章的底部提供了GitHub链接。
在75份预印本上训练多个LDA模型后,32个主题看起来是最佳的(也许20个主题也可以),一致性值为0.54。然后,我选择了最突出的主题关键字集合,推断出中心观点,并为每一个找到了最具代表性的文章。
这篇文章绝不是一篇科学评论,而是一个我想分享的小实验。也许我们可以使用这样的工具更快地从多个来源识别模式。
9个重要的冠状病毒主题及其最具代表性的论文
1. CT扫描似乎有希望筛选COVID-19
关键词:肺炎,确诊,证据,死亡,北京,聚焦,大,预测,努力,传播
尽管该病毒已证明具有高度传染性,可在两肺自然感染,但临床证据表明,武汉病毒性肺炎病死率较低。CT对武汉市病毒性肺炎的筛查、诊断、隔离方案、治疗、处理及预后有重要意义。
最具代表性的论文:Clinical and Imaging Evidence of Wuhan-Viral Pneumonia: A Large-Scale Prospective Cohort Study
该主题的文档百分比:8%
2.应用人工智能筛选COVID-19患者
关键词:临床、诊断、显著、高度、特征、症状、目的、指标、嗜酸性粒细胞、入院
利用人工智能技术筛选患者的白细胞、嗜酸性粒细胞计数、嗜酸性粒细胞率、2019年新型冠状病毒RNA(2019n-CoV)和淀粉样蛋白A等属性,该团队开发了一种更快的方法,以实现COVID-19的诊断,提高了临床确诊率。
最具代表性的论文:Artificial Intelligence Application in COVID-19 Diagnosis and Prediction
该主题的文档百分比:7%
3.各国还没有准备好迎接2019年的nCoV
关键词:预防、健康、能力、有效、紧急、管理、加强、支持、准备、存在
各国在预防、发现和控制疫情方面的能力差异很大,这是由全球卫生系统管理卫生紧急情况的能力差异所支撑的。我们需要加强全球准备,遏制现有疫情,包括2019年nCoV的国际上的持续传播。
最具代表性的论文:Review of Health Security Capacities in Light of 2019-nCoV Outbreak — Opportunities for Strengthening IHR (2005) Implementation
该主题文档百分比:7%
4.医务人员失眠、心理问题和COVID-19
关键词:心理、因素、发现、疾病、社交、孤立、员工、识别、抑郁
一项研究发现,超过三分之一的医务人员在COVID-19爆发期间出现失眠症状。相关因素包括文化程度、隔离环境、对COVID-19爆发的社会心理担忧、医生职业等。针对不同的社会心理因素,对医务人员进行失眠的干预。
最具代表性论文:Survey of Insomnia and Related Social Psychological Factors Among Medical Staffs Involved with the 2019 Novel Coronavirus Disease Outbreak
该主题的文档百分比:7%
5.我们应该采取强有力的预防措施来控制这种流行病吗?
关键词:措施、预防、城市、坚强、严格、个体、期待、维护、揭露、制止
在冠状病毒疫情结束之前,我们一直鼓励采取强有力的预防措施。国内外其他地方已证实,应效仿中国,立即采取有力干预措施。早期强有力的预防措施可以有效阻止全球其他城市独立、自我维持的疫情爆发。
最具代表性的论文:Simulating the Infected Population and Spread Trend of 2019-nCov Under Different Policy by EIR Model
该主题的文档百分比:7%
6.COVID-19新的快速基因诊断试验
关键词:检测、pcr、样品、rt、lamp、诊断、反向、核酸、拭子、筛选
定量反转录聚合酶链反应(qRT-PCR)是目前COVID-19检测的标准;然而,反转录环介导的等温扩增(RT-LAMP)可以在风险点进行更快、更实惠的进行现场检测。本研究的目的是开发一种快速筛查诊断试验,可在30分钟内完成。
最具代表性的论文:Rapid Detection of Novel Coronavirus (COVID19) by Reverse Transcription-Loop-Mediated Isothermal Amplification
该主题的文档百分比:5%
7.快速鉴别COVID-19和其他感染
关键词:低,病人,酸,发热,肺,混浊,地面,过程,特征,图像
在发热门诊中,COVID-19和核酸阴性患者之间的区别临床特征鲜为人知。2019年nCoV感染的核酸检测率最高的是肌肉疼痛患者,其次是呼吸困难患者。发热、嗜酸性粒细胞计数降低和双肺磨玻璃样混浊的影像学特征可能是2019年nCoV感染的一个有价值的指标。
最具代表性论文:Analysis of 2019-nCoV Infection and Clinical Manifestations of Outpatients: An Epidemiological Study from the Fever Clinic in Wuhan, China
该主题的文档百分比:5%
8.谁最容易感染COVID-19?
关键词:患者、症状、系统、政府、人群、年龄、人群、显著改善、肾脏
调查证实,该人群的传染性没有明显的年龄限制,但老年人仍然是脆弱群体。糖尿病患者更易发展为重症患者,进入ICU的概率明显增加。
最具代表性的论文:Epidemiological and Clinical Features of 197 Patients Infected with 2019 Novel Coronavirus in Chongqing, China: A Single Center Descriptive Study
该主题的文档百分比:4%
9.COVID-19的重症患者治疗
关键词:严重,呼吸,治疗,急性,方法,综合征,相似,水平,起源,发生
COVID-19感染引起严重呼吸系统疾病,类似于严重急性呼吸综合征冠状病毒,与ICU的进入和高死亡率有关。我们从病因、流行病学、治疗方法等方面进行了研究,根据武汉协和医院制定的治疗方案,经卫生部批准,希望能开发出有效的治疗方法,降低该病的死亡率。
最具代表性的论文:Clinical Characteristics and Treatment of Patients Infected with COVID-19 in Shishou, China
该主题的文档百分比:4%
结论
这是在论文领域应用NLP技能的一次尝试。这个方法应该会出现问题,但这个想法很有趣。
GitHub仓库
GitHub地址:https://github.com/Raudaschl/coronvavirus_preprint_research_nlp
原文链接:https://towardsdatascience.com/summarising-the-latest-research-on-coronavirus-with-nlp-and-topic-modelling-28b867ad9860
原创文章,作者:磐石,如若转载,请注明出处:https://panchuang.net/2020/06/25/%e5%88%a9%e7%94%a8lda%e5%92%8c%e4%b8%bb%e9%a2%98%e6%a8%a1%e5%9e%8b%e5%8f%91%e7%8e%b09%e7%a7%8d%e5%86%a0%e7%8a%b6%e7%97%85%e6%af%92%e7%a0%94%e7%a9%b6%e8%b6%8b%e5%8a%bf/