香樟青苗
当前位置是: 网站首页 -- 学术科研 -- 香樟青苗 -- 正文

香樟青苗丨薛原:Stata编程与网络爬虫Ⅰ

发布日期:2021-08-13   点击量:

   薛原,华中科技大学2018级工商管理专业(会计学方向)博士生,爬虫俱乐部成员,擅长Stata、Python编程技术。参与编写了chinagcode,t2docx,reg2docx,cnintraday,chinaaddress,wordconvert, sum2docx等十余个热门Stata命令。能够实现中文地址与经纬度之间的转换、中国上市公司分时交易数据的抓取、实证结果输出等多个功能。其中多个命令曾进入ssc最热门的前十大命令。从事公司治理以及法与金融方向的研究,已有成果发表在《金融研究》。

  2021年7月20日下午,华中科技大学管理学院博士生薛原担任香樟青苗计划主讲人,讲座主题为“Stata编程与网络爬虫Ⅰ”。本次讲座由赵嘉珩主持,第四期香樟青苗计划学员参加。

在正式开讲之前,薛原首先从“来自网络”、“自动实现抓取过程”两个特点入手向学员介绍了网络爬虫的定义。此外,薛原还向大家解释了使用Stata软件实现网络爬虫的原因,如,有Stata编程基础的同学学习使用Stata的爬虫过程与Python等其他软件相比,效率相对更高。使用Stata也有其他软件无法比拟的优势,比如,相同的程序适用于不同的计算机、抓取的数据保存为dta格式数据后更便于后期实证调用、可使用命令行工具curl及Python接口应对网站反爬等。

接下来讲座正式开始,薛原向学员仔细讲解了使用Stata做网络爬虫的步骤,包括锁定目标信息所在网页并提取链接、获取网页源代码、将源代码无乱码读入Stata、提取源代码中的信息等。

简要介绍完步骤后,薛原还列出了如文本文件读入、乱码处理、文本信息的处理、局部宏与循环等使用Stata做网络爬虫的必备技能,同时也向学员提供了相应常用命令、函数或选项。

随后,薛原以案例的形式仔细给学员演示如何用Stata进行编程、处理编程中可能遇到的问题。

案例涉及对某财经上市公司每条公告发布的日期、标题、对应链接和公告内容的爬取。主讲人薛原在讲解技术性问题时非常细致,覆盖了如提取链接时如何批量访问多个页面、获取网页源代码并提取、从乱码产生的根源入手处理乱码等操作。

此次讲座中薛原清晰详细地向学员讲解了操作技巧,向大家介绍了易发生报错的原因及背后的原理。学员们根据老师讲解的步骤边听课边操作,有疑惑的地方也互相提问解答、热烈讨论。

由于受暴雨极端天气的影响,本次讲座的部分内容将在“Stata编程与网络爬虫Ⅱ”课程中继续讲解,有关案例的其他内容请见相关简报!

感谢主讲人薛原不辞辛劳为青苗暑期课程志愿授课!(文案丨刘乔巧)


版权所有 © 中国社会科学院大学    邮编:102488

地址:北京市房山区长于大街11号