非标意见指的是标准无保留意见外的其他意见,如带强调事项段的无保留意见、否定意见、无法表示意见等。

当我们遇到审计报告需要发表非标意见时,可能需要参考其他非标意见的审计报告。

而这些审计报告都在PDF文件中,如何提取就是一个难点。

一、下载所有非标意见审计报告。

要提取数据,首先第一步,得有原材料。

所以,利用python的scrapy框架编写一个爬虫,批量爬取上市公司的审计报告。

注:由于审计报告中很多是图片格式,所以,我们退而求其次,爬取公司年报。年报里包含有审计报告内容。

二、将PDF转换为HTML文件

提取数据的难题就是如何定位。

如下图所示,审计报告内容散布在大量文本信息中,对于纯文本内容是几乎无法准确找到相应位置的。

因此,首先将其转换为HTML格式,然后通过Python的lxml库提取相应元素。

三、提取数据

通过xpath定位,以及正则表达式,准确提取出相关非标意见。

编写好程序后,进行批量提取,并存入数据库。

把2017、2018年非标意见存入数据库,如下图所示:

有意思的事

在提取过程中发现很多公司披露的年报格式很不规范,甚至还有出现上图的错误。

肯定没有人进行复核过。


我如何搞到上市公司审计报告非标意见数据?

股盾网提醒您:股市有风险,投资需谨慎!

上一篇:
下一篇: