mt4编程入门课程议员的投票往往是在特定政治环境中作出的策略选择作家简介:周源,政文观止Poliview特邀作家,日本神户大学法学探求科政事学专业探求生,要紧探求风趣为量化探求办法、邦际政事情绪学。
量化文本理会(Quantitative Text Analysis, QTA)是指正在社会科学探求中行使估计打算机本领来主动而且体例地管束多量文本数据的办法。跟着自然言语管束等本领的开展,越来越众的政事学者曾经留神到QTA办法正在社会科学中的操纵前景,而且行使这种办法做出了一系列探求成效。本文将起初声明QTA的基础观点,然后先容QTA的探求案例和理会用具,结尾对这一办法做出扼要评析。
言语是政事发作的序言。议员候选人会正在竞选中争持本身的见地和策略,膺选后会正在议会中议论闭于立法的题目,而公法或法案通事后权要们也会平凡收罗社会睹解。邦度正在举行议和时会通过言语来向对方发出信号,例如消息报道记载了邦际闭连中冲突与互助的多量细节,恐慌构制通过雇用广告、杂志以及公然声明来解释他们的目标和诉求。全豹这些都告诉咱们,假若念要贯通政事,就必需解析政事作为体所书写和言说的实质。
固然政事学家们很早就认识到文本数据的价格,然而因为文本的数目过于重大,对全豹文本举行人工阅读险些是一项不不妨的职责,因而学者们恒久以后对行使文本数据举行因果推论感应颇为徘徊。到了1990年代,跟着估计打算机本领的提高、电子数据的增长以及互联网的显露,自然言语管束本领获得了急速开展。进入21世纪后,人工神经收集等呆板进修模子的利用使得自然言语管束本领进入了更疾的开展阶段。正在自然言语管束本领的基本上,学者们斥地出了Wordscores(Laver et al. 2003)、Latent Dirichlet Allocation(Blei et al. 2003)、Wordfish(Slapin and Proksch 2008)、Word2vec(Mikolov et al. 2013)等一系列量化文本理会模子。
差别的探求往往会利用差别的文本理会模子,然则并不存正在一种或许一般合用于理会各样文本数据的最好模子。正在一种文本数据理会中呈现优秀的模子,并不必定会正在理会其他数据中呈现优秀。因而,学者们寻常会依照本身所探求的题目和探求策画来拔取最相宜的模子。文本理会既能够用于验证作品的实质、影响力,也能够用于推断作家的切实贪图,还能够将文本行为代办来测定难以直接衡量的社会气象。比方,能够通过体例理会某类话题的消息报道,来磨练媒体报道的公允性;将消息数据与群情观察数据相连系,来磨练消息媒体的影响力;通过理会邦营媒面子向外邦大众的消息报道,来推断一个邦度对外战术的优先课题;通过理会特守时辰段内社交媒体的数据,来衡量闭于特定话题的大众立场的改观。
文本理会的模子可分为监视进修模子(Naive Bayse、Wordscores、Random Forest等)、非监视进修模子(Wordfish、Correspondence Analysis、Topic Models等)、半监视进修模子(Newsmap、Latent Semantic Scaling等)。监视进修能够斗劲有用地对结果举行限度,然而须要花费多量的时辰和管事来企图进修数据,是一种本钱较高的形式。无监视进修固然本钱较低,然则无法对结果举行限度,因而很难基于人文社会科学的外面来举行。目前来说,半监视进修是一种性价斗劲高的模子,固然结果的准确度不足监视进修高,然则因为本钱较小,能够正在有限的时辰和花费下获得相对写意的结果。
上文曾经提到,量化文本理会能够用于各式各样的探求目标。以下将简陋先容几个QTA操纵于政事学与邦际闭连探求的案例。
政党的策略位子(policy position)是相干政党和选民的一个闭头纽带。闭于政党位子的古板探求办法要紧依赖对群情及专家睹解的观察或者对议会记名投票平分属各个政党阵营的议员作为的理会。然而,群情观察不只花费壮大,况且被观察者时时因为本身的态度而有心诬蔑对政党位子的认知。正在少少政党次序端庄的邦度,议员的投票往往是正在特定政事处境中作出的计谋拔取,而非反应党派的切实策略态度。对此,Laver等人(2003)提出了一种通过理会政党的竞选宣言来测定政党策略位子的Wordscore模子。Wordscore模子平淡分为三个程序。起初,设立修设一套由事先明确策略位子的文本构成的教练数据。其次,从教练数据中天生Wordscore。结尾,用Wordscore模子来对新的文本举行评分。Laver等人将英邦和爱尔兰1992年推举中各政党的竞选宣言行为教练数据,行使当时专家观察对各政党态度的评估设立修设了Wordscore模子,而且用此模子对1997年各政党的竞选宣言举行了评分。过程与1997年专家观察数据对照察觉,该模子的预测与专家的评议显露出较高的类似性。之后,他们将该模子用于理会非英语的德邦政党竞选宣言,以及利用议员正在邦会中的说话来推断政党的策略位子,该模子同样显示出强盛的预测本领。
邦际危殆中的对外传布是一个邦度主要的战术本领。Watanabe(2017)对俄罗斯塔斯社闭于乌克兰危殆的报道怎样通过西方要紧通信社(道透社、美联社、法新社)获得传布举行了实证探求。Watanabe从消息数据库中以‘russia*’ or ‘ukrain*’为闭头词,分手下载了2013-2014年之间的90,131篇塔斯社报道,21,795篇道透社报道,12,154篇美联社报道以及31,898篇法新社报道。他起初行使主动归类办法筛选出要紧实质是闭于乌克兰的报道,然后设立修设了一个潜正在语义理会(Latent Semantic Analysis)模子而且以“民主”为框架对各个通信社的报道举行了文本理会。结果察觉,道透社正在俄罗斯并吞克里米亚后三个月内的报道与塔斯社显露出高度联系的闭连。固然这并不行声明道透社与塔斯社存正在某种合谋,然则却揭示了环球消息蚁集和涣散体例软弱的一边。因为各样消息媒体看待外洋消息的获取高度依赖于邦际通信社,而西方通信社公布的消息平淡会行为巨擘起原被浩瀚消息派别转载,道透社所公布的包蕴俄罗斯对外政事传布的消息正在邦际上平凡传布所发作的政事影响值得惹起闭心。
候选人的推举计谋是斗劲政事学探求的一个主要课题。固然政事学家寻常都以为差别推举轨制下候选人会采纳差别的竞选计谋,而且对此给出了各式各样的疏解,然则却很少有学者将他们的疏解举行实证磨练。Catalinac(2016)以为,候选人正在推举轨制中面对的党内竞赛越大,就越目标于允许卓殊型物品(particularistic goods);反之,则目标于允许计划型物品(programmatic goods)。正在此,卓殊型物品是指便宜被集平分配给特定的选民而本钱被涣散于盈余生齿之中的物品,而计划型物品是指便宜被大无数生齿所享有的物品。Catalinac将1986-2009年之间日本众议院8次推举中7497名肃穆候选人的竞选宣言行为数据,而且行使LDA(Latent Dirichlet Allocation)核心模子天生了69个差别的核心。正在去掉3个声誉允许(credit-claiming)的核心之后,Catalinac将盈余的66个核心分手按卓殊型物品允许(pork)和计划型物品允许(policy)举行了分类。结果察觉,正在1994年推举轨制转变后的推举中,自民党候选人的计划型物品允许显露出了显明上升趋向。这不只验证了差别推举轨制下候选人会采纳差别的竞选计谋,况且也疏解了为什么相闭邦度安详的话题正在推举轨制转变之后显露出上升的趋向。
州一级的大家群情看待美邦政事经过存正在主要影响。它不只裁夺着州长和参议员推举的结果,况且也通过推举人团轨制限度着总统推举的结果。然而,因为本钱题目,时辰麇集的州一级的群情观察难以实践。Beauchamp(2017)试验用闭于政事话题的Twitter数据来补偿观察数据的缺失,而且据此推断各州选民的投票意向。Beauchamp行使Twitter API采集了2012年9月1日至大选日之间闭于政事的120众万条推文,过程一系列预管束后,设立修设了一套50个州×67天×10000个文本特色的数据集。正在统一时候,有24个州存正在时辰较为麇集的民意观察数据。于是,正在用这24个州的数据对他的模子举行教练之后,Beauchamp利用这些模子来预测其他州的选民投票目标。结果证据,他的模子或许斗劲确切地衡量、增加和预测差别州以及差别时辰的选民投票目标。别的,他正在理会中还察觉,政事目标偏左的地域更众援用外部链接协议论地域题目,而政事目标偏右的地域更众行使转推协议论邦度题目。这一察觉与现有的政事情绪学外面存正在类似的闭连。
行使文本理会办法对中邦社交收集举行探求的案例,可参睹Roberts(2018),此处暂不做周详先容。
目前市道上存正在多量的文本理会用具,然而功用十全而且出力较高的并不众睹。正在商用范畴,文本理会用具要紧有QDA Miner/Wordstat、Wordsmith、LIWC(辞书理会)等。基于编程言语的文本理会用具,要紧有Java言语的Mallet(话题模子)、Yoshikoder(辞书理会)、Lexicoder(辞书理会),R言语的tm、tidytext、quanteda包,以及Python言语中的Natural Language Toolkit、Gensim等。本文将要紧先容伦敦政事经济学院的Kenneth Benoit教员团队斥地的R言语组件quanteda。
与其他文本理会用具比拟,quanteda具有以下几个上风。起初,quanteda是一款免费的开源的组件。与腾贵的商用软件比拟,任何具有R言语基本的探求者都能够斗劲容易地利用quanteda。其次,quanteda的斥地团队众是从事政事学与邦际闭连探求的学者,其功用策画更适合社会科学探求。Quanteda的函数不只能够对文本举行各式统计理会和模子拟合,况且自带的画图函数能够容易地将结果举行可视化。再者,quanteda运算速率疾,内存占用少,寻常学者行使一面电脑便可举行较大界限的文本理会。与tm、tidytext等R言语组件比拟,quanteda正在分词、选用文本特色、设立修设文本特色矩阵等运算中的速率具有胜过性上风。别的,quanteda不只援手英文、德文等欧洲言语,还援手中文、日文、韩文等东亚言语,而且援手希伯来语、阿拉伯语等小语种文本理会。这看待欧美以外的政事学者来说无疑是一个尽头主要的利益。
闭于quanteda的实在利用办法,可参睹渡边耕平与Stefan Müller编写的正在线教程()。看待有R言语基本的进修者,能够参考quanteda官方网站的急速初学指南()。须要留神的是,因为每种言语都有各自的语法和特征,因而差别言语的文本理会往往须要举行差别的预管束,以确保理会结果确实凿性。
固然量化文本理会办法比拟古板的实质理会具有某些上风,然而其目标并不是庖代看待文本的人工阅读。人工阅读固然只可管束少量的文本,然则却能够深切贯通文本背后的寄义,以此来举行判决;估计打算机固然能够短时辰管束海量文本数据,然而却很难贯通文本的深远寄义。因而,主动文本理会与人工阅读如故是相辅相成闭连,利用量化文本理会办法该当基于看待探求题目的深切解析。
目前,量化文本理会办法正在欧美曾经成为政事学主流探求办法之一。然而,正在中日韩三邦却很少有学者利用这一办法。渡边耕平静Oul Han对这一气象的情由举行过少少有益的研讨(参睹渡边耕平一面网站:Obstruction to Asian-language text analysis)。他们以为:QTA办法没有正在亚洲学者中普及,并非由于亚洲学者没有联系的探求需求,而要紧是由于少少本领天性由,包含用具、数据、才能、文献等。正在文本理会用具方面,或许对亚洲言语举行理会的用具并不太众。日本学者樋口耕一斥地的文本理会用具KH Coder援手日语、汉语、俄语和韩语,然则日本以外的学者很少有人利用这一软件。Quanteda援手全豹Unicode邦际化组件(International Components for Unicode, ICU)中的言语,然则正在亚洲的利用者不是良众。而少少Python组件往往不行很好地管束Unicode,而且主要依赖特定体例。正在数据方面,固然官方政事文献正在日本和韩京城能够公然获取,但短长官方的政事文本(例如竞选宣言)并没有体例地公然。别的,采集消息媒体数据时常涉及版权题目,这增长了对消息报道举行文本理会的难度。正在才能方面,文本理会固然并不哀求专业的编程学问和庞大的统计办法,然则却哀求探求者把握基础的数据采集(比方API、网页爬虫)、数据理会(比方回归理会、收集理会、R言语基础操作)、探求策画(社会科学范畴的专业学问)的学问。正在亚洲,目前险些没有大学开设文本理会课程来体例教授文本理会所需的学问。正在文献方面,闭于文本理会的教科书民众注重编程才能或者庞大的算法,而不是前面提到的体例的量化文本理会学问(传说Benoit教员正正在编写一本社会科学中量化文本理会的教科书)。别的,差别言语的文本理会所需的教科书不妨会略有差别(quanteda网页教程正正在众言语化经过中)。固然欧美学术杂志斗劲接待利用新办法的作品,然则对亚洲言语举行文本理会的作品很难正在英文期刊获得公布。笔者正在此以为,不少中邦的政事学与邦际闭连专业期刊看待前沿办法持斗劲绽放立场,而文本理会办法相对来说较为“科学”,受认识状态限制相对较少,因而中邦粹者应有动机进修和利用这种办法。
当然,又有不少学者以为,大数据办法夸大联系性而非因果性,因而正在以因果推论为最终倾向的社会科学探求中价格有限。然而,Egami等(2018)解释,文本数据既能够行为办理(treatment),又能够行为结果(outcome),或许有用地衡量出情由和结果之间的因果效应。因而,正在中邦政事学探求急速开展的这日,文本理会办法更应值得中邦粹者闭心。
转载请注明出处。