[0037] 比如mt4怎么玩的本创造为一种基于大数据文本量化算法测度政府或媒体境遇体贴指数的本领。一种基于大数据文本量化算法测度政府或媒体境遇体贴指数的本领,席卷以下方法:(1)确定钻研题目;(2)获取闭连材料:采用Python器材,获取闭连网页,并剔除闭连度不高的网页;(3)提取枢纽词;(4)修建境遇体贴指数。本创造所述的一种基于大数据文本量化算法测度政府或媒体境遇体贴指数的本领,基于文本大数据量化解析本事对海量众元异构数据的机闭化和非机闭化数据实行深度发掘,能代外群众或媒体参加对雾霾污染办理的水准。
(19)邦度常识产权局 (12)创造专利申请 (10)申请颁布号 CN 116127958 A (43)申请颁布日 2023.05.16 (21)申请号 9.1 (22)申请日 2022.12.09 (71)申请人 新疆维吾尔自治区计量测试钻研院 地点 830011 新疆维吾尔自治区乌鲁木齐 市高新区河北东途188号 (72)创造人 谷魁英李峰鲜青龙冯雪峰 王辉慕慧娟 (74)专利代庖机构 北京鼎佳达常识产权代庖事 务所(浅显合资) 11348 专利代庖师 刘铁生孟阿妮 (51)Int.Cl. G06F 40/279 (2020.01) G06F 40/216 (2020.01) G06Q 10/0631 (2023.01) 权柄央求书1页 仿单5页 附图4页 (54)创造名称 一种基于大数据文本量化算法测度政府或 媒体境遇体贴指数的本领 (57)摘要 本创造为一种基于大数据文本量化算法测 度政府或媒体境遇体贴指数的本领。一种基于大 数据文本量化算法测度政府或媒体境遇体贴指 数的本领,席卷以下方法:(1)确定钻研题目;(2) 获取闭连材料:采用Python器材,获取闭连网页, 并剔除闭连度不高的网页;(3)提取枢纽词;(4) 修建境遇体贴指数。本创造所述的一种基于大数 据文本量化算法测度政府或媒体境遇体贴指数 的本领,基于文本大数据量化解析本事对海量众 元异构数据的机闭化和非机闭化数据实行深度 发掘,能代外群众或媒体参加对雾霾污染办理的 A 水准。 8 5 9 7 2 1 6 1 1 N C CN 116127958 A 权柄央求书 1/1页 1.一种基于大数据文本量化算法测度政府或媒体境遇体贴指数的本领,其特点正在于, 席卷以下方法: (1)确定钻研题目; (2)获取闭连材料:采用Python器材,获取闭连网页,并剔除闭连度不高的网页; (3)提取枢纽词; (4)修建境遇体贴指数。 2.依照权柄央求1所述的本领,其特点正在于, 所述的本领测度的为政府境遇体贴指数时,所述的方法(2)为,采用Python软件中 Scrapy器材,对政府宗派网站中的枢纽词网页实行拘捕,再对获取的所有战略文本实行筛 选,剔除搅扰性文本材料,获取与钻研题目高度亲切闭连的战略。 3.依照权柄央求1所述的本领,其特点正在于, 所述的本领测度的为政府境遇体贴指数时,所述的方法(3),对闭连战略网页相闭枢纽 词频实行提取,再对抽取的枢纽词与实际对照验证,剔除不对规词频。 4.依照权柄央求1所述的本领,其特点正在于, 所述的本领测度的为政府境遇体贴指数时,所述的方法(4),将筛选后的枢纽词遵守出 现的频率的坎坷实行排序后,对枢纽词实行锁定,再对所获取的政府词频实行兼并、汇总, 基于TOPSIS法实行修建高频词的政府境遇体贴指数,行动政府境遇体贴指数。 5.依照权柄央求1所述的本领,其特点正在于, 所述的本领测度的为媒体境遇体贴指数时,所述的方法(2),Python编程叙话策画汇集 爬虫,以百度、微博的网页为对象,获取闭连网页。 6.依照权柄央求5所述的本领,其特点正在于, 所述的本领测度的为媒体境遇体贴指数时,所述的方法(2),基于文本好似度算法对合 规网页实行料理,剔除与本钻研闭连度不高的网页。 7.依照权柄央求1所述的本领,其特点正在于, 所述的本领测度的为媒体境遇体贴指数时,所述的方法(3),基于文本数据解析本事获 取相闭词频。 8.依照权柄央求1所述的本领,其特点正在于, 所述的本领测度的为媒体境遇体贴指数时,所述的方法(4),通过主成理会析法对拘捕 的枢纽词实行归纳指数评议,获取媒体境遇体贴指数。 2 2 CN 116127958 A 仿单 1/5页 一种基于大数据文本量化算法测度政府或媒体境遇体贴指数 的本领 本事规模 [0001] 本创造实在涉及一种基于大数据文本量化算法测度政府或媒体境遇体贴指数的 本领。 靠山本事 [0002] 邦外里学者对雾霾污染办理的钻研渐渐由最初的政府主导‑号令型境遇办理形式 渐渐向由市集、群众和媒体等参加的非正式境遇办理形式改革。不过,通过大方文献梳剃发 现,人人钻研都是基于守旧问卷考察、来访次数、来信总数等守旧官方数据行动群众参加或 媒体体贴的权衡目标,并且,至今尚未得出相闭媒体或群众诉求与境遇污染办理相干的统 一结论。 [0003] 到底上,因为音信本事的突飞大进,新媒体已成为中邦群众获取音信、传扬音信、 颁发音信以及外达评议等越来越紧张的渠道,基于文本大数据量化解析本事实行深度挖 掘,已渐渐利用于经济学、境遇学等规模,是改日钻研的宗旨之一。 [0004] 有鉴于此,本创造提出一种新的测度政府与媒体境遇体贴指数的本领,基于文本 大数据量化解析进一步扩充政府与媒体参加境遇办理的目标测度拔取。 创造实质 [0005] 本创造的目标正在于供给一种基于大数据文本量化算法测度政府或媒体境遇体贴 指数的本领,基于文本大数据量化解析本事对海量众元异构数据的机闭化和非机闭化数据 实行深度发掘,具有问卷考察、来访次数、来信总数等守旧数据无法比较的特点,更能代外 群众或媒体参加对雾霾污染办理的水准。 [0006] 为了杀青上述目标,所采用的本事计划为: [0007] 一种基于大数据文本量化算法测度政府或媒体境遇体贴指数的本领,席卷以下步 骤: [0008] (1)确定钻研题目; [0009] (2)获取闭连材料:采用Python器材,获取闭连网页,并剔除闭连度不高的网页; [0010] (3)提取枢纽词; [0011] (4)修建境遇体贴指数。 [0012] 进一步的,所述的本领测度的为政府境遇体贴指数时,所述的方法(2)为,采用 Python软件中Scrapy器材,对政府宗派网站中的枢纽词网页实行拘捕,再对获取的所有政 策文本实行筛选,剔除搅扰性文本材料,获取与钻研题目高度亲切闭连的战略。 [0013] 进一步的,所述的本领测度的为政府境遇体贴指数时,所述的方法(3),对闭连政 策网页相闭枢纽词频实行提取,再对抽取的枢纽词与实际对照验证,剔除不对规词频。 [0014] 进一步的,所述的本领测度的为政府境遇体贴指数时,所述的方法(4),将筛选后 的枢纽词遵守闪现的频率的坎坷实行排序后,对枢纽词实行锁定,再对所获取的政府词频 3 3 CN 116127958 A 仿单 2/5页 实行兼并、汇总,基于TOPSIS法实行修建高频词的政府境遇体贴指数,行动政府境遇体贴指 数。 [0015] 进一步的,所述的本领测度的为媒体境遇体贴指数时,所述的方法(2),Python编 程叙话策画汇集爬虫,以百度、微博的网页为对象,获取闭连网页。 [0016] 进一步的,所述的本领测度的为媒体境遇体贴指数时,所述的方法(2),基于文本 好似度算法对合规网页实行料理,剔除与本钻研闭连度不高的网页。 [0017] 进一步的,所述的本领测度的为媒体境遇体贴指数时,所述的方法(3),基于文本 数据解析本事获取相闭词频。 [0018] 进一步的,所述的本领测度的为媒体境遇体贴指数时,所述的方法(4),通过主成 理会析法对拘捕的枢纽词实行归纳指数评议,获取媒体境遇体贴指数。 [0019] 与现有本事比拟,本创造的有益效益正在于: [0020] 本创造基于文本大数据量化解析本事,对政府境遇体贴和媒体境遇体贴判袂实行 测度,对境遇规制测度目标的广度与深度实行了拓展,为商讨政府与媒体杀青雾霾办理与 原宥性绿色增进的钻研供给了新的视角和形式。固然邦外里学者一经有大方的文献从正式 境遇体贴和非正式境遇体贴的视角商讨了政府与媒体简单或协同感化于境遇办理的钻研。 但无数学者从立法、行政办法、人事办法、行政审批、绩效考察、环保来信总数等守旧目标研 究政府和群众参加对境遇办理的力度。固然这些替换目标正在必然水准上可以描写境遇办理 的效益,但更众呈现的是境遇办理的后果导向特点,未能凸显境遇办理战略所具备的事前 提防、事中监测和过后办理特点。再加上守旧政府和群众参加境遇办理的数据出处众是统 计年鉴及公报,不行切确反响境遇办理政策自己对境遇体贴的水准。 [0021] 近年来,得益于互联网及预备机本事的敏捷成长,文本大数据量化解析正在经济学 规模的利用边界越来越广,深切地影响了社会科学的钻研范式。本创造将从地级市层面展 开钻研,基于文本大数据量化解析进一步扩充政府与媒体参加境遇办理的目标测度拔取。 诈骗Python叙话软件和文本大数据量化解析器材修建政府境遇和媒体境遇体贴指数,操纵 动态空间计量解析本领,力求对境遇体贴、雾霾污染和中邦都邑原宥性绿色增进之间的逻 辑相干作出更扫数、更精准的探究。通过文本量化、词频解析、语句解析等加强政府与媒体 目标量化的科学性和厉谨性,通过众主体、众维度高频、动态的政府与媒体境遇体贴目标检 验境遇体贴、雾霾污染影响机理,为订定区别化的大气污染防治战略钻研供给新的思绪,也 增添了政府与媒体参加对境遇办理文献的边际功勋。 附图讲明 [0022] 图1为政府境遇体贴指数修建的流程图; [0023] 图2为2000—2019年月度政府境遇体贴的趋向及强大事宜般配; [0024] 图3为中邦都邑政府境遇体贴Moran’sI指数散点图; [0025] 图4为媒体境遇体贴指数修建的流程图; [0026] 图5为2010—2019年日度雾霾污染正在媒体中的变动趋向及强大事宜般配; [0027] 图6为中邦都邑媒体境遇体贴Moran’sI指数散点图。 4 4 CN 116127958 A 仿单 3/5页 实在奉行形式 [0028] 为了进一步发挥本创造一种基于大数据文本量化算法测度政府或媒体境遇体贴 指数的本领,抵达预期创造目标,以下团结较佳奉行例,对根据本创造提出的一种基于大数 据文本量化算法测度政府或媒体境遇体贴指数的本领,其实在奉行形式、机闭、特点及其功 效,注意讲明如后。不才述讲明中,分别的“一奉行例”或“奉行例”指的不必然是统一奉行 例。其它,一或众个奉行例中的特定特点、机闭或特质可由任何适宜情势组合。 [0029] 下面将团结实在的奉行例,对本创造一种基于大数据文本量化算法测度政府或媒 体境遇体贴指数的本领做进一步的注意先容: [0030] 相闭境遇办理的战略办法,现有文献通过立法、订定规章轨制、行政办法、人事措 施、行政审批、绩效考察等视角一经对其实行丰厚且大方的商讨。固然这些替换目标可以正在 必然水准上呈现政府境遇办理的政策,但人人目标都只可呈现境遇污染办理的后果导向特 征,未能呈现出境遇办理战略所具备的事条件防、事中监测和过后办理特点,且政府境遇治 理的数据出处人人是守旧的统计年鉴及公报,酿成结果的说服力和可托。近年来,从顶层设 计来看,主旨政府、各部委以及各级地方政府之间也闪现了笼络订定战略、战略发文等系列 的团结意向。并且,跟着数据时期的驾临,也深切地影响了社会科学的钻研范式,战略文本 大数据量化解析的钻研,使得基于文本大数据量化解析下的政府办理政策可以取胜守旧政 府境遇办理的缺欠。不少学者实验将文本解析本领利用到境遇保卫、群众卫生和财产战略 等规模。 [0031] 奉行例1:基于战略文本算法量化政府境遇办理力度: [0032] 将采用文本大数据量化本领测度中邦都邑政府境遇体贴度,基于Python软件以全 球执法法例网、中邦政府网以及中邦地级以上都邑的政府宗派网站中与“境遇保卫”“大气 污染办理”闭连的战略文本为数据源。检索日期界说为:2000年1月1日‑2019年12月31日。研 究边界及对象:中邦地级以上都邑大气污染防治、境遇污染办理等闭连战略文献的网页。 [0033] 团结图1的流程图,实在方法的为: [0034] ①确定钻研题目。本奉行例的钻研目标:从政府境遇闭谛视角,商讨政府境遇办理 水准对雾霾污染及原宥性绿色增进的影响。所以本文将设定与大气污染防治战略闭连的闭 键词,咱们以2010‑2018年环球执法法例网、中邦政府网以及中邦地级以上都邑政府宗派网 站为钻研对象,基于战略文本量化解析聚焦于政府境遇体贴目标的合理测度题目。 [0035] ②获取战略文本材料。采用Python软件中Scrapy器材对上述政府宗派网站对“环 境保卫”类的枢纽词网页实行拘捕,然后对获取的所有战略文本实行进一步筛选,剔除搅扰 性文本材料,获取与本钻研实质重心高度亲切闭连的战略,以期确保中邦都邑政府境遇闭 注的战略筛选具有较高的科学性。 [0036] ③抽取枢纽词,借用Python解析软件,基于WordScores词频解析器材中词袋模子 (BagofWordsModel)对闭连战略网页相闭“境遇保卫”类的枢纽词频实行提取。再对抽取的 枢纽词与实际对照验证,剔除不对规词频。 [0037] 比方,境遇污染类类词频:大气污染、雾霾、臭氧、二氧化硫、氮氧化物、PM2.5、 PM10、硫化物等;境遇办理类:境遇保卫、办理力度、办理办法、境遇办理、政府办理、境遇规 则、环保监视等。 [0038] ④设定钻研对象枢纽词,修建政府境遇体贴指数。将筛选后枢纽词遵守闪现的频 5 5 CN 116127958 A 仿单 4/5页 率的坎坷实行排序,将正在每个战略网页中闪现频次排名为Top30的枢纽词实行纳入枢纽词 频锁定中,再对所获取的2010‑2018年中邦287个都邑的政府词频实行兼并、汇总,基于 TOPSIS法实行修建高频词的政府境遇体贴指数,行动政府境遇体贴指数,记为GM。 [0039] 如图2所示,基于战略文本量化解析取得的2000‑2018年月度的政府境遇体贴指 数,正在2000年1月至2018年12月间政府境遇体贴指数具体上流露上升趋向,且闪现众重波峰 波谷瓜代态势。 [0040] 中邦都邑政府境遇体贴指数正在H‑H和L‑L集聚的都邑数目要鲜明大于H‑L和L‑H,证 实了中邦都邑政府境遇体贴指数存正在明显的空间集聚特点。团结图3,跟着时候的推移,局 部Moran’sI指数斜率流露“大‑‑小‑大”的颠簸式趋向,间接声明中邦都邑政府境遇体贴与 雾霾污染水准亲切闭连。总体而言,中邦都邑政府境遇体贴的空间自闭连性越来越强。 [0041] 群众参加境遇办理最早能够追溯到20世纪60年代的欧洲区域与邦度,实施证实, 正在欧洲区域和邦度的实施证实,有了群众参加大气污染防治后,这些区域和邦度的境遇治 理效益明显。正在新媒体时期下,一条吸引眼球的音信颁发,通过分别媒体情势的传扬、引申、 再传扬等,几小时内就会备受人们体贴。截止2019年6月,中邦互联汇集音信中央(CNNIC)公 布数据显示,中邦互联网正在线%(材料出处:百 度百科)。目前,大方学者一经采用守旧形式权衡群众参加境遇办理力度,但因为音信滞后、 钻研目标分别一等题目酿成结果众口纷歧。自后,大数据时期到来,Python一同高歌大进成 功窜上“最火编程叙话”的宝座。并且存储正在网页中的海量贸易、社会、人文等方面的众元异 构数据也为经济学钻研供给了潜正在的宝藏,不少学者起初通过百度舆情指数、谷歌舆情指 数等实行测度群众参加境遇办理的媒体体贴水准。 [0042] 奉行例2:基于大数据文本算法量化媒体境遇体贴水准 [0043] 所以,进一步扩展“境遇保卫”和“境遇污染”类的词频。团结图4的流程图,实在词 频探寻思绪: [0044] ①获取枢纽词网页音信。借助Python编程叙话策画汇集爬虫,以百度、微博的网页 为对象,获取中邦2010‑2018年287个地级以上都邑“境遇保卫”和“境遇污染”类的网页。操 行动:将“境遇污染、境遇办理”的百度和微博网页行动种子(URL)到场到待抓取的URL劳动 的队伍中。 [0045] ②筛选枢纽词汇集音信。基于文本好似度算法对合规网页实行料理,剔除与本研 究闭连度不高的网页。 [0046] ③提取枢纽词。基于文本数据解析本事获取相闭境遇污染、境遇办理类词频。操作 为:解析网页实质,锁定枢纽词网页,通过文本数据解析本事,基于Peerest的定位算法提取 枢纽词。 [0047] ④通过主成理会析法对拘捕的枢纽词实行归纳指数评议,最终获取中邦287个城 市2010‑2018年媒体境遇体贴的替换目标,记为MA。 [0048] 由图5可知,正在2010‑2019年间,诈骗python抓取百度、微博、头条等媒体平台正在中 邦都邑层面上以“雾霾污染”和“PM ”为枢纽词的词频,然后对其料理汇总。 2.5 [0049] 中邦都邑媒体境遇体贴指数正在H‑H和L‑L集聚的都邑数目要鲜明大于H‑L和L‑H,证 实了中邦都邑媒体境遇体贴指数存正在明显的空间集聚特点。团结图6,跟着时候的推移,局 部Moran’sI指数斜率流露渐渐增大趋向,间接声明中邦都邑媒体境遇体贴也是与雾霾污染 6 6 CN 116127958 A 仿单 5/5页 水准亲切闭连。正在限制Moran’sI指数散点图中,自2010‑2018年间,高‑低集聚类型、低‑高集 聚类型乃至是低‑低集聚类型均渐渐向高‑高集聚类型演变,证据了中邦政府境遇体贴指数 呈明显空间集聚特。 [0050] 以上所述,仅是本创造奉行例的较佳奉行例云尔,并非对本创造奉行例作任何形 式上的局限,根据本创造奉行例的本事本色对以上奉行例所作的任何简略窜改、等同变动 与点缀,均仍属于本创造奉行例本事计划的边界内。 7 7 CN 116127958 A 仿单附图 1/4页 图1 图2 8 8 CN 116127958 A 仿单附图 2/4页 图3 9 9 CN 116127958 A 仿单附图 3/4页 图4 图5 10 10 CN 116127958 A 仿单附图 4/4页 图6 11 11
2、成为VIP后,下载本文档将扣除1次下载权利。下载后,不赞成退款、换文档。如有疑义加。
3、成为VIP后,您将具有八大权利,权利席卷:VIP文档下载权利、阅读免扰乱、文档花样转换、高级专利检索、专属身份标记、高级客服、众端互通、版权立案。
4、VIP文档为团结方或网友上传,每下载1次, 网站将依照用户上传文档的质地评分、类型等,对文档功勋者予以高额补贴、流量扶助。假若你也念功勋VIP文档。上传文档
企业人力资源解决师之二级人力资源解决师题库及完全谜底(必刷).docx
企业人力资源解决师之二级人力资源解决师题库及完全谜底(有一套).docx
企业人力资源解决师之二级人力资源解决师题库及完全谜底【必刷】.docx
九年级数学上册4.5好似三角形判决定理的证实实习(新版)北师大版.doc
原创力文档创筑于2008年,本站为文档C2C营业形式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中央任职平台,本站全面文档下载所得的收益归上传人全面。原创力文档是汇集任职平台方,若您的权柄被侵凌,请发链接和闭连诉求至 电线) ,上传者
转载请注明出处。