香樟青苗丨薛原：Stata编程与网络爬虫Ⅰ-中国社会科学院大学经济学院

香樟青苗丨薛原：Stata编程与网络爬虫Ⅰ

发布日期：2021-08-13　　　点击量：

薛原，华中科技大学2018级工商管理专业（会计学方向）博士生，爬虫俱乐部成员，擅长Stata、Python编程技术。参与编写了chinagcode,t2docx,reg2docx,cnintraday,chinaaddress,wordconvert, sum2docx等十余个热门Stata命令。能够实现中文地址与经纬度之间的转换、中国上市公司分时交易数据的抓取、实证结果输出等多个功能。其中多个命令曾进入ssc最热门的前十大命令。从事公司治理以及法与金融方向的研究，已有成果发表在《金融研究》。

2021年7月20日下午，华中科技大学管理学院博士生薛原担任香樟青苗计划主讲人，讲座主题为“Stata编程与网络爬虫Ⅰ”。本次讲座由赵嘉珩主持，第四期香樟青苗计划学员参加。

在正式开讲之前，薛原首先从“来自网络”、“自动实现抓取过程”两个特点入手向学员介绍了网络爬虫的定义。此外，薛原还向大家解释了使用Stata软件实现网络爬虫的原因，如，有Stata编程基础的同学学习使用Stata的爬虫过程与Python等其他软件相比，效率相对更高。使用Stata也有其他软件无法比拟的优势，比如，相同的程序适用于不同的计算机、抓取的数据保存为dta格式数据后更便于后期实证调用、可使用命令行工具curl及Python接口应对网站反爬等。

接下来讲座正式开始，薛原向学员仔细讲解了使用Stata做网络爬虫的步骤，包括锁定目标信息所在网页并提取链接、获取网页源代码、将源代码无乱码读入Stata、提取源代码中的信息等。

简要介绍完步骤后，薛原还列出了如文本文件读入、乱码处理、文本信息的处理、局部宏与循环等使用Stata做网络爬虫的必备技能，同时也向学员提供了相应常用命令、函数或选项。

随后，薛原以案例的形式仔细给学员演示如何用Stata进行编程、处理编程中可能遇到的问题。

案例涉及对某财经上市公司每条公告发布的日期、标题、对应链接和公告内容的爬取。主讲人薛原在讲解技术性问题时非常细致，覆盖了如提取链接时如何批量访问多个页面、获取网页源代码并提取、从乱码产生的根源入手处理乱码等操作。

此次讲座中薛原清晰详细地向学员讲解了操作技巧，向大家介绍了易发生报错的原因及背后的原理。学员们根据老师讲解的步骤边听课边操作，有疑惑的地方也互相提问解答、热烈讨论。

由于受暴雨极端天气的影响，本次讲座的部分内容将在“Stata编程与网络爬虫Ⅱ”课程中继续讲解，有关案例的其他内容请见相关简报！

感谢主讲人薛原不辞辛劳为青苗暑期课程志愿授课！(文案丨刘乔巧)

上一条：香樟青苗丨薛原：Stata编程与网络爬虫II

下一条：香樟青苗丨毛日昇：关于人民币汇率传递效应的再思考

香樟青苗丨薛原：Stata编程与网络爬虫Ⅰ

友情链接