非标意见指的是标准无保留意见外的其他意见,如带强调事项段的无保留意见、否定意见、无法表示意见等。
当我们遇到审计报告需要发表非标意见时,可能需要参考其他非标意见的审计报告。
而这些审计报告都在PDF文件中,如何提取就是一个难点。
一、下载所有非标意见审计报告。
要提取数据,首先第一步,得有原材料。
所以,利用python的scrapy框架编写一个爬虫,批量爬取上市公司的审计报告。
注:由于审计报告中很多是图片格式,所以,我们退而求其次,爬取公司年报。年报里包含有审计报告内容。二、将PDF转换为HTML文件
提取数据的难题就是如何定位。
如下图所示,审计报告内容散布在大量文本信息中,对于纯文本内容是几乎无法准确找到相应位置的。
因此,首先将其转换为HTML格式,然后通过Python的lxml库提取相应元素。
三、提取数据
通过xpath定位,以及正则表达式,准确提取出相关非标意见。
编写好程序后,进行批量提取,并存入数据库。
把2017、2018年非标意见存入数据库,如下图所示:
有意思的事
在提取过程中发现很多公司披露的年报格式很不规范,甚至还有出现上图的错误。
肯定没有人进行复核过。