首页 >> 社会学 >> 学术动态
利用大数据分析公众阶层意识
2016年06月01日 13:46 来源:中国社会科学报 作者:朱灿然 字号

内容摘要:近期,来自南京大学社会学系的陈云松和清华大学社会学系的严飞在《社会科学研究》(Social Science Research)杂志发表了《经济发展与20世纪书籍中的社会阶层公众关注》(Economic performance and public concerns about social class in twentieth-century books)一文。该文利用谷歌图书大数据中美国出版书籍全文,构建起1900—2000年的百年阶级关注度指数,利用格兰杰检验和协整分析等时间序列方法对阶级关注度与经济悲惨指数(也即通货膨胀率与失业率之和)、GDP和收入不平等(基尼系数)等宏观经济社会发展指标的关联。利用这个数据库,作者对大量常见的阶级词汇在1900—2000年美国出版书籍中的历年词频进行了检索,然后取出书籍中的阶级词频指数,以此来作为阶级关注度的测量。

关键词:阶级关注;书籍;阶层;分析;词频;研究;关联;南京大学;收入;失业率

作者简介:

  社会分层、社会不平等一直是社会科学研究者最关注的核心概念。其中,公众对阶层的关注度是阶层意识、阶级意识的一个重要维度。但囿于数据采集的难度,对这一问题进行跨度百年的宏观社会科学分析较少。近期,来自南京大学社会学系的陈云松和清华大学社会学系的严飞在《社会科学研究》(Social Science Research)杂志发表了《经济发展与20世纪书籍中的社会阶层公众关注》(Economic performance and public concerns about social class in twentieth-century books)一文。该文利用谷歌图书大数据中美国出版书籍全文,构建起1900—2000年的百年阶级关注度指数,利用格兰杰检验和协整分析等时间序列方法对阶级关注度与经济悲惨指数(也即通货膨胀率与失业率之和)、GDP和收入不平等(基尼系数)等宏观经济社会发展指标的关联。这是国际社会分层领域首次利用大数据完成的量化分析。

  在这项研究中,作者主要利用了谷歌图书资料库的百万英语书籍数据库。该数据库是目前世界上最大的电子语料库,共包含8116746本书籍。利用这个数据库,作者对大量常见的阶级词汇在1900—2000年美国出版书籍中的历年词频进行了检索,然后取出书籍中的阶级词频指数,以此来作为阶级关注度的测量。对书籍中数据的提取是否能够真正体现公众对阶级的关注度?作者认为,书面语言是人类知识、经验和态度长期累积形成的最重要、最广泛也是最全面的载体。因此,利用大数据获得的书籍词频指数,可以用来测量公众的阶级关注度。

  作者认为,通胀率、失业率这样的宏观经济指标和社会不平等这样“现实”的社会指标,与公众对社会阶级的关注这一“主观”指标之间可能存在重要的关联。也就是说,阶级关注度受到经济发展的影响。在此基础上,作者假设:早前的经济运行状况会影响到稍后的阶级关注度,也即“阶级”词汇在书中的出现频率。作者使用时间序列回归方法验证阶级关注度与经济悲惨指数、基尼系数之间的关联。研究发现,在20世纪的美国社会中,公众对社会阶级的关注程度,受到约4年前经济悲惨指数的影响,但却和早前的收入不平等也即基尼系数没有统计上的关联。这一发现在宏观层面验证了公众的主观意识和现实经济发展之间的关系,但同时又有别于传统观点所认为的收入不平等会强化阶层意识。作者认为,这有可能和收入不平等的阈值效应有关:尽管和北欧等国相比,美国的基尼系数较高,但仍然处于不平等对阶级意识产生影响的阈值水平之下。

  为了确保分析结论的稳健性,作者又进一步进行了两类扩展研究。一是在阶级关注度的测量中排除因冷战和学科发展所可能带来的词频干扰因素;二是使用来自其他语料库的阶级关注度进行同样的分析。这些扩展研究均得出了一致的结论。

  (南京大学社会学系 朱灿然/编译)

分享到: 0 转载请注明来源:中国社会科学网 (责编:胡博婧)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们