首页 >> 新闻传播学 >> 传播学
大数据文本挖掘技术在新闻传播学科的应用
2019年10月09日 10:46 来源:《当代传播》2018年第5期 作者:钟智锦 王童辰 字号

内容摘要:

关键词:

作者简介:

  内容提要

  文本挖掘技术在社会科学领域中的应用日渐广泛,本文对比了文本挖掘和传统的内容分析法,介绍了文本挖掘的几种常用技术,即词典法、无监督的机器学习和有监督的机器学习,通过案例阐述了这些方法在情感分析、主题建模、语义网络中的具体应用。本文总结了文本挖掘技术在新闻传播学科中的使用场景和特征,分析了它给传播学研究带来的机遇及其在发展应用中的瓶颈。

  关 键 词

  文本挖掘/文本分析/情感分析/主题模型/语义网络/机器学习

  作者简介

  钟智锦,中山大学传播与设计学院教授;王童辰,中山大学传播与设计学院博士生

  基金项目

  本文系国家社科基金项目“基于行为和关系大数据的网民识别与舆情研判”阶段性成果,编号:15BXW063。

 

    一、导论

  随着互联网和计算机的发展,人们在互联网、社交网络上产生了海量的网络文本。在计算机技术的辅助下,基于大数据的文本挖掘日益成为自然科学和社会科学中数据挖掘研究的重要领域,从2000年开始得到广泛应用。文本挖掘的数据主要包括新闻文本、研究论文、书籍、期刊、web页面、社交媒体文本等。①目前,国内外文本挖掘的主要研究成果均集中在社会科学与自然科学的交叉领域,国外研究更多涉及管理学、社会学、政治学等领域,而国内社会科学领域相关成果较少。②分析文本是传播学研究中的重要路径,近年来国内外传播学领域均有不少学者探索使用计算机文本挖掘技术解决大数据时代的传播问题。

  本文旨在回顾和讨论文本挖掘技术近年来在传播学领域的国内外研究,对比传统的内容分析方法和大数据文本挖掘方法,通过案例介绍文本挖掘技术在新闻传播学研究中的主要功能,并分析其对传播学研究带来的机遇和挑战。本文主要利用Social Sciences Citation Index(SSCI)数据库检索外文文献,利用“中国知网”进行中文文献的检索。在搜索过程中,主要应用的英文关键词包括:text mining、text analytics、text categorization、topic modeling、text retrieval、semantic mining、semantic analysis、semantic categorization等,中文关键词包括文本挖掘、自动文本处理/分析等。在输入关键词之后,通过SSCI的分类检索功能,选取与“传播学”相关的期刊文章;中文文献中选取了“新闻与传播”类别进行筛选。之后再对每个关键词所检索出的文献进行二次筛选,剔除虽符合主题和类别但属于质化研究的文章、通篇运用传统定量分析方法(调查、实验、内容分析)的文章、综述性文章(并未使用文本挖掘方法的文章)后,得到40多篇文献。文献出版年份均在2010年以后,其中2015-2017年的文献较多。

  需要说明的是,计算机文本挖掘技术在社会科学中的应用属于跨学科研究,有相当一部分研究成果并未发表在传播学领域期刊,而是分散在计算机科学、社会学、政治学、理论物理等交叉学科,因此并未被本文选取。本文选取的文献来自于新闻传播学科传统SSCI期刊、与话语及信息研究相关期刊、区域性传播学研究杂志和部分中文刊物。

  本文所选取文献的研究主题包括政治传播、科学传播、品牌传播、健康传播、大众传播技术、文本挖掘技术综述、社会网络分析等,其中应用于政治传播中的选举和对外关系研究、应用于科技传播和品牌传播的文献相对较多。文献的研究对象主要包括社交媒体发布内容、新闻数字文本(包括文字和影像)和期刊文章,其中以社交媒体发布内容为主。

  二、从内容分析到文本挖掘

  对信息的分析是新闻传播学科研究的主流,传统的研究范式多为以定量研究为主的内容分析和以定性研究为主的话语分析。传统的内容分析方法通过设定编码框、对文本进行人工编码,分析文本内容信息及其变化,从而对文本内容进行可再现的、有效的推断。③内容分析的基本步骤包括提出研究问题、抽样、确定分析层次、编码、检验信效度、统计检验等。内容分析发展至今逐步趋于成熟和完善,但其自身依旧存在一定的局限性,主要体现在抽样过程中可能会出现主观判断、手工编码效率低下、长期或集体作业可能带来信度问题。④在新闻传播学领域,以内容分析作为主要研究方法的论文较多,研究常常采用框架理论、议程设置理论、铺垫理论等经典传播学理论,分析报刊文本内容,从中找寻新闻媒体对相关议题的报道规律。

  进入大数据时代,用传统方式对海量文本进行处理,不仅耗费人力物力,而且其数量之庞大也使人工编码等过程困难重重。基于数据挖掘的文本挖掘方法,可以利用机器学习来实现对大量文本的快速处理。相比之下,文本挖掘的方法在信息分析的过程中,从过程、方法、工具等方面来说,都与内容分析法有较大差别。文本挖掘涉及数据挖掘、机器学习、统计、自然语言处理、可视化技术、数据库技术等多个学科领域的知识和技术,包括数据预处理(包括自然语言的识别和抽取、数据源的分类等)、核心挖掘操作、统计分析、可视化等步骤。⑤文本挖掘方法能够更有效地提取、描绘信息,对传播内容进行可视化,⑥⑦从而呈现文本的宏观图景。⑧

  传统的定量传播学研究中,在5W理论的视角下,内容分析法主要是运用在对“传播者”和“传播内容”的研究上,这与大数据时代下的文本挖掘技术在传播学领域的研究是相对应的,⑨但两者在实际操作和应用方面依旧存在着较大差异。笔者主要列举了对于传统传播学内容分析法和文本挖掘方法在样本大小、抽样方法、测量、分析单位、编码、效度检验等方面的不同(见表1)。

  通过以上对比发现,文本挖掘不仅对于大样本数据的处理更有优势,而且也拓展了传统内容分析的测量范围,对于分析海量网络文本数据有着明显的优势。但是,计算机自动处理的维度仍然有限。而传统的内容分析虽然样本量不大,却胜在可以通过人脑进行复杂的编码,从而对文本进行更加丰富深刻的解读。在整个研究过程中,内容分析的编码工作耗时耗力,统计分析工作则相对简单。而文本挖掘的数据采集工作往往比较轻松,但由于网络数据多而杂,需要花费大量精力用于数据的清理。一旦算法确立,在数据分析部分则较为轻松。

作者简介

姓名:钟智锦 王童辰 工作单位:

转载请注明来源:钱柜娱乐777官方唯一网址 (责编:张赛)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们