机器新闻写作
出自 MBA智库百科(https://wiki.mbalib.com/)
机器新闻写作(Robot Journalism或Automated Writing)
目录 |
机器新闻写作就是一个相对于拟人化的概念,精确的说,它主要就是通过一定的计算机程序,对搜集和输入的数据信息进行自动化的分析、处理和加工,从而生成一篇较为完整的新闻报道。所谓机器新闻写作是一种自然语言生成引擎,利用算法程序,通过采集大量的各种题材及高质量的数据,建立各种分类的庞大数据库,借助人工智能(AI)实现从数据到认识、见解和建议的提升和跨越,最后由机器自动生产新闻。[1]
机器新闻写作,是自动搜集与处理数据、并生成完整的新闻报道的计算机程序的统称。机器新闻写作是第—时间通过对可以结构化的信息或数据,以定量的方式进行分析,进而呈现社会事实的新闻生产方式。[2]
机器新闻写作的特征[1]
(一)“全自动化”——机器人写作的特色
新闻稿件生成的全自动化是机器人新闻写作的最大特征。在新闻稿件的实际写作中,人工参与已不再是新闻生产的关键性环节,新闻产品已经真正实现了由人工生产向机器化生产转变。例如,某传媒公司的新闻写作步骤如下:首先,对数据库和现有的资料信息进行大量的搜集,特别是体育行业和金融行业发展中波动性较大的数据,通过一定的计算机程序对所采集到的数据信息进行分析、提出和处理;其次,在信息数据的分析结果上提出新闻点,并根据新闻报道类型对相应的文章模板进行套用,从而生成较为完整的新闻稿件;最后,通过人工形式对生成的新闻稿件进行审查和润色加工,最后进行新闻稿件的发布。从当前的发展现状来看,算法不仅可以及时地捕捉数据信息,同时还可以对作家和记者的写作风格进行模拟,实现特定文风的定制。机器人通过记者所提供数据信息和新闻点来组成较为完整通顺的句子,使其可以成为一篇叙事的文章。
(二)“取其精华”——机器人写作的智慧
借助于大数据、物联网、互联网的独特优势发挥自己独有的优势。机器人新闻写作是基于日渐壮大的数据库而逐渐产生的,是对数据新闻的应用和延伸,其中包含信息的推送、传感新闻以及数据信息的搜索频度等进行统计和分析;随着物联网和互联网的发展,使得数据库也在不断的发展壮大,为数据新闻的撰写和发展提供了良好的基础条件,同时,特定的算法和计算机编程软件为机器人新闻写作提供了有力的技术支撑。在确定计算机编程之后,将传统形式的新闻生产中的信息采集、撰写、编辑、评论等过程有机的融合在一起,将复杂的工作流程进行简单化处理,逐渐构建数据信息的抓取直接到新闻稿件生成的新闻生产体系,精简了新闻生产的整个流程,极大地提高了新闻生产的效率。
(三)“超时效性”——机器人写作的优势
时效性是新闻报道的重要特点,速度是新闻采写的关键因素,机器热写作把这两个方面发挥到了极致。机器人新闻写作可以全天24小时随时待命,一旦有突发事件发生,就可以第一时间采集相关数据信息,并通过特定的计算机编程迅速的生成新闻稿件,并作出及时有效的分析和判断,最后将重要的新闻信息发布给广大用户。例如,某传媒公司,通过计算机程序生成一篇体育新闻稿件需要30秒,通过计算机程序生成新闻标题却只需要2秒的时间,像自动化洞察力公司中的wordsmifh平台,它可以在每秒之内生成近2000篇新闻稿件。2015年,腾讯通过机器人新闻写作可以在政府发布CPI资料之后,只用了几分钟的时间就完成了相关新闻稿件的发布。因此,机器人新闻写作在新闻行业中的应用,不仅提高了新闻生产的效率,同时使得新闻报道逐渐透明化、公开化。
机器新闻写作的特点[2]
1、内容的时效性更强
技术的发展使得各媒体之间获得信源、采访、编辑、发布新闻之间的时差越来越小,但机器新闻写作的出现,则又一次增大了时间差,机器新闻写作是按照工业化的流程来进行新闻的写作和生产。工业化生产的最大优势就是速度的提升。因此在数据来源可获得的前提下,机器人可以在非常短的时间内完成一篇稿件的写作。
2、内容的长尾效应凸显
机器新闻写作可以形成内容的长尾效应。新闻人的精力和时间是有限的,在写作新闻时,会按照新闻价值进行新闻生产,而那些少数用户关注的新闻则鲜有报道,而机器新闻写作可以在体育报道、财经报道、天气报道中,生产更为丰富多元的内容、满足更多用户的需要,更好地提升信息的匹配度
3、内容的模式化生产
机器写作的新闻是按照一定的模板来写的,是流水线式的新闻,更多的应用于写作特定类型、特定领域、并且采写经验非常熟练的新闻报道。不过随着语义技术的不断发展,写作机器人也在不断升级迭代,已经可以通过对大数据的抓取,获得更多的信息源,加上更为先进的算法,针对不同的人群写出不同的稿件并精准推送。
4、新闻敏感度的缺失
新闻敏感度高的记者可以在平凡的事件中发现有价值的新闻、在很小的事件中挖掘到隐藏在深处的信息。同样的一件事,新闻敏感度强的记者和普通的记者所看到的是不一样的,从中获得的新闻价值也不一样,写出来的新闻自然也不同。而机器人虽然可以抓取和获得大量的信息,但是对于信息的处理依然处于相对基础的阶段,并不能在大量的信息中,找到关键的点,不能对新闻线索进行进一步的挖掘和观察进而挖掘新闻的价值,而对新闻事件的取舍也缺乏决断能力。而对新闻价值的判断力和观察力是新闻敏感度的重要体现。
5、新闻亲和力的欠缺
机器新闻写作在体育报道、财经报道、天气报道和灾难报道中的使用是最多的。在灾难报道中,在事件发生之初,用户的第一需要是获取伤亡情况等事实性信息,机器新闻写作的强时效性的优势会凸显。而在后续报道中,用户关注的是在灾难中的人和事,而这些有现场温度和人性温度的内容,是机器新闻写作所做不到的。新闻的温度来源于媒体人对用户的感情积累、对社会的责任感,来自于在情感上与用户之间的相互交融,这样的新闻才有温度,而这样的新闻是需要记者深入到现场,进入到人中间去,才能获得的。
机器新闻写作的工作机理[3]
一、抓取数据
机器新闻写作的数据抓取等同于记者的前期采访,通过大数据技术从与媒体机构合作的数据库中抓取与报道主题相关的、有效的海量数据。机器新闻写作目前主要被运用在财经新闻、体育新闻、气象新闻和突发性灾难报道领域中,这类新闻报道的显著特征就是其内容主要以数据为支撑,依托对目标数据的处理结果机器新闻写作才能生产出完整的新闻报道。所以,利用机器新闻写作来生产新闻内容的首要环节就是数据的抓取,因此也有人将机器新闻写作称之为“数据的搬运工”。大数据技术的快速发展使机器新闻写作在对数据的抓取阶段呈现出信息来源广和能够精准抓取的优势。
(一)信息来源广
机器新闻写作的素材来非常广泛,不仅能够从合作公司或机构的数据库中抓取,还能够搜集到在网络平台中公开和共享的信息。当前,机器新闻写作主要被应用在撰写财经新闻和体育新闻,因此它的数据主要来源于与媒体达成合作关系的数据库,这些数据类型通常是各种体育赛事的实时比分、公司财务数据报表、股市数据、天气情况、地震预报等,它们都是机器新闻写作在前期数据抓取中的重要信息来源。除了这些来自专业组织所公布的数据外,机器新闻写作对于信息数据的搜集范围也逐渐的触向私人领域。
(二)智能精准化抓取
数据是人工智能的基础,数据数量是否足够、数据质量是否准确决定着机器新闻写作最终呈现出的新闻内容是否真实、是否具有新闻价值。机器新闻写作需要建设庞大的特定领域数据库,从数据库中抓取符合新闻主题的精准、高质量的数据为机器新闻写作提供原材料。只有在此阶段抓取到高质量的数据内容,才能在后续的内容编写阶段创作出较高新闻价值的稿件。机器新闻写作能够在复杂、庞大、无序的个体数据中分析整理出具有逻辑性、更为本质的规律,进而整合多个规律共同作用,提供解决问题的对策。目前,机器新闻写作在财经领域与体育领域的发展较为迅速,很大一部分原因就是这些领域的数据更为的“干净”,比较单一且准确性高。
二、整理分析数据
通过搜素引擎将数据导入机器新闻写作程序后,接下来就需要对其进行筛选、整理、分析。人工智能具备的两种最重要的能力就是“快速处理”和“自主学习”,对于数据的处理依赖于大数据和云计算技术,这两项技术也正是机器新闻写作的运作核心,此环节是计算机基于算法的数据分析和自我学习过程。机器新闻写作的这种能够自我深度学习的功能,就是通过模仿人脑的工作机理来对数据进行处理,并生成可供人类参考的规律或趋势。
这一阶段实际上是对数据的新闻价值的判断考量,将数据统计结果与预设好的新闻点进行对比,将符合新闻主题要求的数据予以保留运用。机器新闻写作在对数据的处理分析阶段,能够从上一阶段抓取到的材料和数据进行结构化归类和统计分析,整理出数据信息的变化与发展趋势。这个阶段是利用算法来测量数据的新闻点,一般而言算法会挑选数据中比较“冲突”“反常”的新闻点,比如体育比赛中的“最高记录”“最低记录”“比分差距”等等,无论这些数据是程序自身计算得出还是人工提供,都会被算法归为具有新闻价值属性的素材,根据对数据新闻点的考量进而确定报道的主要内容。
三、模板匹配,生成报道文本
经过前两个阶段的数据搜集与处理后,在这一阶段中主要是运用机器新闻写作的自然语言生产功能或语义算法功能对在前两个阶段所分析和整理到的观点进行故事化叙述,生成可供人们阅读的各种形式的文字内容。
机器新闻写作的语义算法功能为了使其所生成的文字与人工所写新闻一样的具有丰富的情感表达,会不断的审视在算法过程中所使用的模板框架和新闻素材的新闻点,并将生成的语句与人类语言进行对比与替换。经过以上复杂的算法程序处理后所生产出的新闻内容大多数与记者所写新闻稿件差别不大,特别是体现在机器新闻写作所擅长的财经报道、体育报道中。
机器新闻写作在这一过程中是基于系统内根据新闻主题预设好的写作模板,将处理好的新闻素材嵌入模板,进而生成连贯的文字内容。但是由于技术层面的原因,当前机器新闻写作的新闻内容生产水平扔处于初级阶段,主要集中于运用在数据信息丰富、逻辑结构简单的财经领域与体育领域。不过,为了改变机器新闻写作的模板化创作的缺陷以及适用领域小的短板,媒体机构和科技公司都在对该项技术进行不断的改进与完善。例如,《纽约时报》、美联社等媒体引入Autamated Insights 公司开发的Wordsmith机器新闻写作软件,该程序拥有超过三亿个新闻写作模板,并且这一数据还会随着技术的完善以及机器新闻写作领域的不断扩大而继续增加。
四、审核签发,智能推送
机器新闻写作的全自动化特性体现在内容创作阶段中,即在本阶段之前的三个阶段中都是机器新闻写作程序的自动化运作。机器新闻写作所生成的新闻稿件在推送前需要经过记者编辑的审核,确认无误后发布到各平台或者推送至用户。在这一阶段,记者编辑还会对机器新闻写作的稿件内容进修改或润色,以使其更加的完整,更符合受众的阅读需求。由此也可得知,“把关人”环节在机器新闻写作中依旧不可缺失,而且这一“把关人”角色通常是有记者和编辑来担任。不过,随着机器新闻写作技术的不断完善,机器新闻写作相较于人类记者而言它的误差和错误率更低,有些媒体机构便舍弃了对机器新闻写作所生成内容在这一阶段的审核。比如,美联社从2014年10月开始就取消了对于Wordsmith 所生产的新闻内容的审核,当Wordsmith 完成新闻内容的撰写后可直接推送出去。此外,在对新闻稿件的推送阶段,机器新闻写作还能够精准的把个性化内容推送到各个端口渠道和各类目标人群,从而提高传播速度和提升传播效果。
机器新闻写作的局限性[3]
(一)新闻写作的模式化
在机器新闻写作程序相继在各大媒体出现并广泛使用后,有学者便针对该项技术提出了“伪智能”的质疑,形容机器新闻写作就像是现代工业中的流水线生产,新闻稿件就是将数据填充在预先设置好的模板当中所产出的商品。其实,这种质疑也并非空穴来风,通过观察分析当前这几个机器新闻写作程序所撰写出的新闻稿件就可看出,同类型稿件标题相似、内容相仿,模板化现象严重存在。比如腾讯财经的Dreamwriter 以擅长撰写财经新闻而出名,其在2017年2月6日所撰写的新闻稿件的标题分别是“科大讯飞周一收盘股价大涨6.77%报收于29.96元”和“汉王科技周一收盘股价大涨5.29%报收于22.29元”,标题格式完全相同,仅在主体与数据上变动;稿件内容结构也完全一样,由股价行情波状图与一句话文字内容描述构成,极为简单。正是机器新闻写作的内容创作原理决定了这种模板化、同质化的稿件的出现,长期如此机器新闻写作就成为了带有模板痕迹的简单数据拼凑,会造成新闻价值的丧失,从而降低新闻品质。
(二)侵犯用户个人隐私和威胁数据安全
在大数据时代和物联网时代,各种人或物都可以被数据化方式来呈现,网络的开放性能够使海量数据得以公开共享,网络的开放性也使人类的隐私变得更加容易被泄露与侵犯,关于如何规避网络环境中的隐私权被侵犯的讨论从未停止过,机器新闻写作的出现在一定程度上会加剧隐私权的侵犯和数据滥用问题的发生。机器新闻写作的工作原理是利用搜索引擎来抓取网络中的目标数据信息,这其中有一大部分的信息都是通过筛选社交网络中用户生产的内容,在这个数据的采集过程中就极有可能侵犯用户个人的隐私权。当前,就机器新闻写作可能造成的侵犯版权的问题的处理机制尚未建立,针对机器新闻写作的相关配套法律措施还存在盲区。因此,机器新闻写作的出现对于网络信息安全保护和媒介伦理都提出了较大的挑战。
(三)报道主题的局限性
机器新闻写作是基于计算算法技术来进行内容生产的,在既定的写作模板中嵌入搜集到的数据信息而生成新闻稿件。因此,这种内容创作手段擅长于数据新闻的撰写,在当前的机器新闻写作的应用实践中,主要被用来撰写天气预报、体育、财经、地震灾害领域内的新闻,应用领域较少,还未能够进入到民生新闻、深度报道、解释性报道等领域。大部分机器新闻写作程序的写作功能都较为单一,比如腾讯财经的 Dreamwriter 和第一财经的DT稿王都是主要被用来撰写财经新闻,今日头条的Xiaomingbot主要被应用于撰写体育新闻。这一方面是由于机器新闻写作在生成稿件时都需按照预设的模板进行编辑;另一方面是由于机器新闻写作需要有专业的数据支撑,缺少相关领域的数据库的合作所产生的数据壁垒也导致其不能够获取到更多的数据材料。
(四)缺失价值性和逻辑性
由于技术因素的限制,机器新闻写作目前还无法建立自己的价值体系和情感系统,无法在生成文字内容的过程中发掘出信息素材的新的价值点,不能够像人类记者那样为不同的稿件内容赋予不同的情感色彩,这就使得机器新闻写作生成的稿件仅仅起到传递信息的功能,而不是一种信息的发现。这种生产模式下的所生成的内容缺失价值性和人情味,这种生硬的信息己无法满足受众的需求,阻碍机器新闻写作的大范围的应用与推广。
(五)缺失深度与温度
机器新闻写作使新闻写作在速度与精度方面有着显著的提升,Wordsmith、Helioraf等在第一时间发布、精准推送、长尾信息追踪等方面凸显优势。但是,机器新闻写作在内容的深度与温度方面还有待提升。用事实说话是记者在新闻采写的过程中所遵循的基本规律,机器新闻写作在信息搜集方面的绝对优势可使其能够在内容中添加很多事实元素,拓宽事实的宽度,但是对于事实深层次意义的挖掘、多要素之间的关联分析、过去与当前的勾连等,还受限制于机器写作的简单算法逻辑和机械化的信息堆砌。所以,机器新闻写作虽然提高了新闻稿件的生产速度,但是这种模式化的写作方法并不能根据现实情况做出针对性的反应,对新闻事实的呈现流于形式,内容浅表化,难以触及事实的深层内涵,对于事件的深层次的意义的挖掘、修辞与情感的把控是缺失的。因此,机器新闻写作所生成的内容更多的是数据信息的文本化叙述,无法直接生成具有深度性的新闻消息或评论。
机器新闻写作对新闻业的影响[2]
1、机器新闻写作解放了新闻生产力
机器新闻写作已经成为转化传统思维、优化采编流程、深化内容结构的最佳触点,其对体育报道、财经报道、天气报道等专业领域的快速报道和对数据新闻采写能力的提高效应都是显而易见的。机器人成稿的速度是人工所难以企及的,在某些专业报道中,机器人记者可以突破人类的工作极限。而在数据采集方面,机器人记者的数据挖掘、分析和信息搜索来源的进―步拓展使其写作的新闻更为精准可信。只有掌握了先进的生产力,才能更有效率地创造价值,进而促进了整个媒体行业生态结构的变化。
2、机器新闻写作改变了新闻人的角色
机器新闻写作在海量资讯素材的模式化处理上比记者具有优势,但是在新闻价值的判断和新闻价值的挖掘方面新闻人仍然具有优势,内容的深度处理能力、资讯汇聚的能力和节点的打造能力,是新闻人的优势所在。
新闻人的角色变迁体现在三方面,一是工作主要集中在更具有创造力的调查性报道和深度报道,新闻人应该走出去,深入到现场、深入到人中间去,去了解数据以外关于人的新闻报道;二是成为新闻生产的组织者和新闻来源系统之间的建构者和维护者,使个人、利益组织和专业新闻机构都成为信息连接的关键“接触点”;三是构建新型的新闻传播平台,构建具有平衡和再平衡能力的信息场域,实现互联网时代多元信息的生态化导流和管理。