新闻动态
当前位置是: 网站首页 -- 新闻动态 -- 正文

香樟青苗 | 薛原:爬虫

发布日期:2020-07-25   点击量:

 

2020年7月22日下午18:30-21:30,华中科技大学博士生薛原应邀在线上为学员们做了题为“爬虫”的主旨演讲。香樟经济学圈学者、第三期香樟青苗计划入选学员参加了本次讲座。

薛原,华中科技大学2018级工商管理专业(会计学方向)博士生。爬虫俱乐部成员,擅长Stata、Python编程技术。参与编写了chinagcode、chinaaddress、cnintraday、wordconvert、reg2docx、sum2docx、t2docx等十余个热门Stata命令。能够实现中文地址与经纬度之间的转换、中国上市公司分时交易数据的抓取、实证结果输出等多个功能。其中多个命令曾进入ssc最热门的前十大命令。从事公司治理以及法与金融方向的研究,已有成果发表在《金融研究》。

在讲座第一部分,薛老师首先介绍了网络爬虫的定义,并指出网络爬虫开发一般包括五个步骤即:1.锁定目标信息所在网页;2.获取url链接获取网页源代码(copy,curl);3.将源代码无乱码读入stata中(文本文件的读入转码);4.提取源代码中信息;5.多网页爬取。

在讲座第二部分,薛老师通过Stata爬虫的实际操作,为同学们展现了Stata爬虫的具体操作过程以及需要着重注意的几点事项。首先,薛老师以长江电力公司为例,从解构HTML元素并且分析入手,再到单网页信息抓取,详细讲解“对一家公司抓取公司公告”的相关代码;随后,薛老师开始讲解“抓取多个公司公告”。过程中,单网页infix读入处理、多网页fileread读入处理、文本分析时删除表格等一系列细节处理,薛博士都详细地进行了现场操作。

在第三部分,薛博士还讲解了新浪财经高管信息和深交所信息披露质量数据的爬取方法。在介绍新浪财经数据爬虫时,薛博士介绍了如何用正则表达式定位所需信息,并通过单个公司和多个公司进行了逐步演示。相对于单个公司高管信息抓取,多公司信息抓取需要借助于cnstock得到各上市公司名称及代码,利用循环命令下载各公司文件,再通过append命令合并成最终的完整数据。爬取深交所数据的关键在于灵活运用split命令,以逐步筛选出目标数据。在整体的架构讲解中,薛老师穿插着讲了几个重要函数的用法,例如“levelsof”函数的使用、“sxpose”等等。

最后,薛博士和学员还针对爬虫问题进行了讨论,薛博士专业、细致的讲解和回应得到了大家的一致好评。本次课程不仅推进了实例的教学,也为同学们未来在STATA的继续学习使用上打下了坚实的基础。

版权所有 © 中国社会科学院大学    邮编:102488

地址:北京市房山区长于大街11号