通过网盘分享的文件:现行国家标准20250919.xlsx(点击购买获取网盘数据)
再付一下上次的文章,这个是个大工程,业务时间在做这个事情……
代码是用PyCharm编的,软件是免费版的,时间是8小时以外的,大家有兴趣可以交流想法。分享一下代码,如有侵权,告知立即删除
1. 这是引用的库,反正都是AI做的,我就学了几个,也了解它是做什么的,这就够了。
import asyncio
import aiohttp
from lxml import etree
import pandas as pd
import random
import tkinter as tk
from tkinter import ttk, scrolledtext, messagebox, simpledialog
import threading
from datetime import datetime
from aiohttp import ClientError, ClientResponseError
import os
import ctypes
import hashlib
from pathlib import Path
2.核心代码
以下是开发思路
- 获取报告中的所有引用依据
- 内容包括法律、法规、部门规章、规范性文件和标准
- 储存为便于操作的文件,比如xls或json
- 获取公开的信息
- 国家法律法规数据库
- https://flk.npc.gov.cn/index
-
国家规章库
- https://www.gov.cn/zhengce/xxgk/gjgzk/index.htm
-
- 国家行政法规库
- https://xzfg.moj.gov.cn/sear
-
- 全国标准信息公共服务平台
- https://std.samr.gov.cn/
-
- 工标网
- http://www.csres.com/
-
- 数据定期获取并形成基准并保存
- 将报告中获取的引用依据在基准中进行查询,生成比对文件。
- 难点在哪里?
- 报告中标准引用的写法多种多样,没有统一的格式,需要多种匹配方法,才能保证准确性。
- 获取基准的网站架构不同,爬虫思路也不同,需要分别开发。
- 爬取数据要遵守robots协议的,否则有法律风险,这也是为什么还没有给留言的人公开软件的原因,这个问题需要去了解相关的规定,避免违规。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容