我如何搞到上市公司审计报告非标意见数据？ – 股盾网

证券资讯广场 2023年04月17日星期一上午 9:49

本文访问量： 105

非标意见指的是标准无保留意见外的其他意见，如带强调事项段的无保留意见、否定意见、无法表示意见等。

当我们遇到审计报告需要发表非标意见时，可能需要参考其他非标意见的审计报告。

而这些审计报告都在PDF文件中，如何提取就是一个难点。

一、下载所有非标意见审计报告。

要提取数据，首先第一步，得有原材料。

所以，利用python的scrapy框架编写一个爬虫，批量爬取上市公司的审计报告。

注:由于审计报告中很多是图片格式，所以，我们退而求其次，爬取公司年报。年报里包含有审计报告内容。

二、将PDF转换为HTML文件

提取数据的难题就是如何定位。

如下图所示，审计报告内容散布在大量文本信息中，对于纯文本内容是几乎无法准确找到相应位置的。

因此，首先将其转换为HTML格式，然后通过Python的lxml库提取相应元素。

三、提取数据

通过xpath定位，以及正则表达式，准确提取出相关非标意见。

编写好程序后，进行批量提取，并存入数据库。

把2017、2018年非标意见存入数据库，如下图所示：

有意思的事

在提取过程中发现很多公司披露的年报格式很不规范，甚至还有出现上图的错误。

肯定没有人进行复核过。

我如何搞到上市公司审计报告非标意见数据？

股盾网提醒您：股市有风险，投资需谨慎！

上一篇: 深寻｜2018年度A股非标意见大赏
下一篇: 2022年退市新规下，哪些股票不能买？（二）

热点文章

网达软件业绩预告变脸或引发索赔，公司股票或还被实施退市风险警示

股票亏损后又补仓，后面还能索赔吗？每一笔买入时间都要分开看

股票索赔中交易对账单怎么看？买入、卖出和持股记录为什么很关键

股票已经卖了，后来公司被处罚，还能索赔吗？先看卖出时间和亏损怎么形成

控股股东资金占用被披露，股民能索赔吗？关键看公司当时有没有说清

股票索赔有诉讼时效吗？股民维权要注意起诉期限和公告时间

2026年四川中沛律师事务所：在股票索赔领域的专业布局

2026成都股票索赔律师排名：专业协同的价值

价值投资者指南

点石成金训练营李浩然内部荐股直播群，诱导下载虚假平台股民悉数被骗

惠伦晶体（300460）索赔示范案例收核损报告，股民继续提起诉讼

盛达资源被证监会立案！律师提醒股民最新索赔条件

别信！点石成金训练营李浩然诱导下载虚假平台，股民转账即被骗

股票索赔中的重大性是什么意思？不是所有信息披露问题都能进入索赔

股票索赔中的揭露日、基准日是什么意思？股民判断索赔条件要看这两个时间点

股票索赔中的信赖推定是什么意思？股民没看过公告还能主张索赔吗

世纪华通（002602）股民索赔多次提交法院立案，提示抓住索赔尾巴让住房公积金惠及更多人群穆迪：美国寿险公司持有807