试析数字出版平台与大数据结构,本文主要内容关键词为:数据结构论文,数字论文,平台论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、概念辨析 1.数字出版平台 数字出版平台的概念,代表了一种产业内涵。平台并不是一个实体概念,它是以产业角度所组建的,以行业为核心领域的,包含整个生产、服务链条各环节在内的一种开放式生产环境。平台的功能不是单一的,所包含的利益关系也是多方的,它通过众多入口和出口,为直接生产方和周边服务方提供一个互相沟通的抽象的场所,用于相互交换生产资源。数字出版平台把出版内容提供方(包括文字创作、音乐创作、影视创作等多种形式)、产品生产方(包括电子书、音视频文件、App应用等多种载体)、发行营销方(包括各大数字出版集团、各大网站等),还有周边的版权管理方、终端设备生产方、其他网站等媒体组织等等。这些组织机构都可以在一个数字平台中找到自己的入口,并在平台中交换到生产其他环节所提供的有用信息。平台的最大价值,就在于整合和交流。 2.大数据与数据结构 大数据虽然称为“大”,但并非所有数据都有很高的使用价值。在产业链的不同环节中,不同的数据其价值一定有高有低。从数据规模上来讲,大数据的基本要求是宏大。目前并没有一个绝对的数字标准来衡量大数据的“大”,大是相对于传统抽样调查数据的计算能力所能承受的数据量来说的。当然,还包括了数据形式的样式之多、数据来源的渠道之多、数据分类的类别之多等方面。大数据的特点是:(1)海量;(2)结构复杂;(3)不重因果,而重相关关系; (4)有预见作用;(5)数据分析结果的延展性。 数据结构是一个抽象的概念,大数据的数据结构是相对于传统抽样调查的数据单一结构而言的。数据结构代表的是不同数据互相之间存在的一种或多种特定关系的结合。两家同样每天生产500TB数据的公司,不一定都算得上真正的大数据公司,区别关键在于数据结构的复杂性。数据结构越复杂,供分析的挖掘深度就越大。分析结论就会更有价值。举个简单的例子,传统的抽样调查可以达到的是统计参与调查者的性别构成与购物频次记录,可发现二者之间的因果关系,再多一个统计因素则不能科学地推算他们之间的关系;大数据能够达到的是,统计参与调查者的性别构成、购物时间地点、购物内容过程等多种交叉信息,可得出一个调查前本没有设定的结论,比如沃尔玛超市曾运用大数据技术计算出年轻的父亲通常会在购买尿布时买啤酒,于是把尿布和啤酒货架放在一起增加了啤酒的销量。这样的结果表示的不是因果关系,而是一种相关关系,也就是说只知道A现象引起了B现象,但其中的原因并不清楚。 大数据的这种功能得益于其数据的大和统计算法的科学性,但并不是说把任何数据放在一起,都能算出关联,而是需要在结构上进行精心设计。而数据关联度也是数据结构设计的一方面影响因素。在数字出版平台中,数据关联度是由其平台自身的辐射广度决定的。数据关联度有表面的直接相关,也有潜在的隐性相关。不管怎样关联,其核心就是用户本身。用户所需的、用户所想的、用户所做的,就是关联度最高的核心数据。 大数据的核心意义在于其预见作用。在传统企业的决策制定中,可用的数据我们姑且称之为经验,但大数据技术出现后,我们可以将过去无法统计计算的非结构化数据相互关联,把所谓的“经验”具象化,以此来指导和完善决策的制定。它就像是一场寻宝游戏,不再执迷于少数数据所能提供的精确性,而开发了更广阔的空间。 在数字出版以其多变性粘合了众多相关企业,使之联接到数字出版平台之时,数字产业链的触手延伸到了更远的地方,因此能够得到更多、更全面的数据资源。在数字出版平台横向一体化战略中,大数据技术用在其时,终将改变数字出版的生产模式,重构数字出版平台的赢利模式。 二、数字出版平台大数据来源 1.结构化数据 结构化数据指的是数字、符号这一类信息,它便于存储和统计。这是最为传统的数据,由于计算能力的限制,结构化数据长期全权占领数字统计领域。 2.非结构化数据 相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据就是非结构化数据,包括文档、图片、XML、HTML、各类报表、图像和音视频信息等等。这些数据难以检索,但如今类似视频抽帧检索技术等的出现为更好地处理非结构化数据提供了有力支持。这些数据在未来会发挥更加重要的价值。 3.社交数据 社交数据来自社会化媒体,这些展现个人情感情绪信息的个人社交平台是所有行业在当下商业环境中都必须重视的数据提供方。用户的社交信息、关系网络和用户间的互动关系是数字出版平台非常需要的社交数据。例如淘宝与新浪微博的战略合作,除了开发新的广告展示位之外,更重要的是获取中国最广大的活跃社交媒体之一的海量用户数据。这些数据是最贴近受众的消费指针。 4.其他 被大数据研究者舍恩·伯格称为“数据废气”的用户在线交互的副产品,包括用户停留的页面、停留时间、输入了哪些信息、鼠标指示轨迹等等,这些信息都隐含着用户的消费轨迹和倾向,是被忽略的数据财富。 综上所述,大数据的来源有千千万万,这就为数据结构设计提供了许多方面的素材。不同种类数据信息的相互整合能够创造完全无法预估的真正价值。而在数字出版平台中达到这样的良性效果,最重要的就是平台各方之间的互相合作。 三、数字出版平台大数据结构设置 从内容制作、发行营销、实际消费,到最后的信息反馈,整个出版流程的各个环节都布满了大量的数据。其中有与参与者直接相关的结构数据,包括姓名、身份证号码、银行信息、消费调查、销售业绩等,也有社会化媒体带来的海量和繁杂的信息。在传统的数据统计中,看似没有逻辑关联的非结构化数据被看做是冗余的,而今在大数据技术下发挥了巨大潜能,尤其在广告的精准投放上,已经得到了一定的成效。而如何搜集到数字出版流程每一环节所需的数据资料,并使得产业链构建,实现所辐射到的企业、机构、部门一体化,是大数据生产面临的第一个难题。 1.内容制作 首先,在传统出版中,内容制作是由职业人员完成的。专业制作的文化产品数字化后,成为了数字出版内容的重要来源。这些制作者的作品、收益、工作习惯等也构成了内容制作数据的一部分。 其次是半专业内容制作资源。随着网络技术的发展,一些民营出版机构和自组合的出版团体借着数字网络平台茁壮成长。他们有组织有规划,有线上线下的活动举办,部分还有广告收入。类似豆瓣小站、人人小站、微刊、自做App等媒介平台的出现,都是自出版团体的沃土,丰富了出版内容资源,满足了消费者繁复多变的消费需求。这些平台的访问、浏览、互动数据,也是数字出版的内容制作的重要数据来源。 第三,以UGC模式为主的网站。类似优酷网、花瓣网、唱吧等网络媒介,也成为当下数字出版内容制作一环中最活跃的组成部分。用户发布的时间、频率、数量、内容分类、偏好、关注度、转发量等都是重要的数据资源。由于发布信息人“传者”与“受者”的双重身份,使得这些数据更为贴近用户和消费者,能够更加客观真实地反映受众的喜好。 数字出版平台的交互性和多模式,为数字出版的内容制作数据扩充了数量并扩大了范围。这些数据涵盖了传统图书报刊音像单位、网络内容发布、移动终端App等多种不同媒体,辐射到的相关企业机构和团体也更广泛。 2.发行营销 数字出版的发行渠道主要集中于网络,包括固定网络及移动网络。亚马逊电子书店入驻中国,多看阅读、豆瓣阅读、网易云阅读等纷纷上线,争先发行数字化的出版物及自己的特色产品。以社会化网站为主的固定网络和以App为主的移动网络渠道,构成了数字出版发行的主要支架。这些不同的发布渠道适用于不同的受众群体,连接了线上与线下。 此外,个人社交媒体也是数字出版发行营销的重要战场。在各大网站及App的服务中,都有“转发”“分享”这类功能,它们的巨大商业价值正在被慢慢开发出来。微博、微信朋友圈、饭否、豆瓣、人人等平台利用了社交媒体平台的交互性和口碑营销优势,集合了大量的用户个人非结构化数据,包含了用户的关系网、偏好、需求、状态、心情等多种信息。这些数据,尤其是关系网分享数据是发行营销中衡量产品好评度的最好标尺。这些活跃数据的存在,使发行营销这一环节的链条分布得更长,与网络媒体有更多的合作可寻。 3.实际消费 消费者在线购买出版物,是一种常见的消费形式。各大电子商务平台出版物的出售、出版机构自有的出售渠道,都可以集合消费者的消费行为信息。这些消费者购买行为产生当下所出现的数据信息,包括消费时间、地域、金额、付款方式、银行业务等等,都是对出版企业极其重要的销售信息。它所涉及的不仅仅是出版机构,还有第三方电商售卖平台和线上付款机构。把出版机构、第三方出售平台、线上付款机构这三方的数据整合到一起,才能组成完整的消费行为实施当下所产生的有价值的数据。因此,这三方间的数据互通合作就显得极为重要。 除了购买动作实施当下所产生的数据外,消费者购买前的浏览行为所产生数据也是十分重要的。这些数据构建的是消费者的购买倾向和偏好。如淘宝网在2010年宣布对全球开放数据后,推出的“淘宝指数”“数据魔方”等大数据产品能够搜集到的就包括消费者的收藏夹信息、消费者在淘宝网站浏览的Cookies痕迹等等消费方式数据。这些数据发生在购买行为之前,信息轨迹描绘了消费者购买前的思考过程。通过对这些数据的分析,能够计算出用户的消费习惯、喜好,从而对下一步的商业活动有所指示。在数字出版中也一样,出版物发行者与产品出售者能够搜集到的用户的注意力数据,对出版物的生产和销售都有很大价值,而它所涵盖的主要数据主体就是出版物发行方和出版物售卖方。 4.信息反馈 传统出版服务一般终止于图书售卖出去。如今新媒体的高速发展给出版产业的后续服务创造了许多途径和机会,其中最重要的就是信息反馈的搜集整理。在我国出版业中,应该专门建立搜集反馈信息的服务机构,把它作为未来出版流程中必要的一个环节。目前国内现有的一些销售反馈服务有:一些图书印刷二维码,消费者可以扫描后进入微信客服,除了退换货等基本售后服务外,还可以反馈额外所需服务信息。如及时获取新书发布消息、进行读编互动等。多看电子阅读开发了读者反馈、纠错、更新的功能,让读者参与到生产过程之中。豆瓣网的豆瓣同城活动把消费者从线上引到线下来,亲身参与活动。宣传推广的同时保留互动信息,积累活动数据。消费者行为信息的大量整合,通过大数据技术的分析,能够指导出版企业未来的选题策划和市场投放。从某种意义上说,消费者数据才是产业的最大资源。 总的来说,把数字出版的流程拆开来细分,每一环节所覆盖的都不仅仅是出版机构自身,其所辐射到的行业和领域十分广泛,跨行业跨部门间的数据交流和合作就自然成为了亟待解决的问题。因此,在大数据时代,数据来源的多样化使得横向一体化战略成为数字出版平台向前快速发展、提高效益的重要战略。 四、大数据结构开发障碍 1.数据安全 个人信息的隐私保护是大数据技术出现后,伴随始终的安全隐患。有些美国企业采取了用户自主选择是否让媒体自动搜集你的信息的选项,如果用户选择了拒绝被搜集信息,那么媒体提供的基于大数据搜集的各种服务将会无法享受。在大数据时代,隐私拥有者对个人信息的保护能力基本为零,拒绝提供信息就意味着拒绝使用诸多先进的和便利的数字化服务,这对用户来说并不现实。因此舍恩·伯格在《大数据时代》一书中提出了一种更为有效的方法:个人隐私保护,从个人许可到让数据使用者承担责任,监管机制可以决定不同种类的个人数据必须删除的时间。再利用的时间框架则取决于数据内在风险和社会价值观的不同。数据安全责任的承担方从提供数据的消费者本身转移到了使用和管理数据者,当有问题出现时能够有较为完善的监管机制进行管理。这是目前看来最为可行的一种安全保护措施。 2.数据技术 大数据由于其海量和数据结构的多层级性,对数据存储、管理提出了更高的技术挑战,如果说云存储等技术可以比较好地解决这些问题,那么还存在着技术更高要求的数据分析与数据可视化问题。我们对于数据的应用已经习惯了过去抽样调查的“假设—验证”逻辑,一个问题对应一个答案。一个答案揭示一个现象。但是大数据多方数据库的相互整合,多个数据类别构成复杂的数据层级,使得数据分析结果存在更多的惊喜和意外收获。但如何运用这些数据库得到理想的分析结果,需要专业的数据人才。而一份好的数据分析更需要好的可视化效果展现在使用者面前,才能物尽其用。淘宝网的“淘宝指数”是面向C2C交易双方的,它的数据可视化做得通俗易懂且有趣有个性,是国内数据可视化的一个很好的范例。 3.数据壁垒 在美国,大数据技术风靡后,数据成为一种公共的、可分享的开放性资源。上至国家政府机构、下到Twitter、Facebook等个人信息发布平台,大量数据信息是开放的。因为他们意识到,在大数据背景下,数据的互通能够打造一种多赢的局面。然而在我国,行业间的数据壁垒还很严重,企业各个机构之间也存在着一定的壁垒。阿里巴巴集团在2013年重构了25个事业部,它的收购计划遍布互联网的各方各面,以收购形式获取产业链触手能够触及到的所有相关行业的行业数据来充实阿里巴巴的强大数据后盾。而在我国出版业,首先是不存在像阿里巴巴集团这样实力雄厚的企业,另外各行业机构还没有更新大数据思维,对数据互通的益处认识得不够深刻。 五、结语 综合来说,在数字出版作为平台角色出现时,大数据技术起到的是一种粘合剂的作用,粘合了平台各方构成的产业链中所能容纳、辐射到的所有行业、部门、企业、机构。而其中最重要的就是数据结构的安排,也就是说把什么样的数据关联在一起找到它们的内在关系。通过技术分析把这种结构的关联和结合变得不止单层相加的那么简单,深化合作,以此来彻底改变传统的生产方式和内在商业逻辑。 人们常说,通过6个人的关系就能找到世界上的任何一人。而在大数据的世界中,通过数据结构的设置,大概不到6步就已经能够发现两种完全看不出联系的现象之间的显性规律,并以此来创造真正的商机。这才是大数据的真正价值。大数据出版平台中,我们更需要这样的富有想象力和内涵的数据结构思维,使产业获得良性发展。数字出版平台与大数据结构分析_大数据论文
数字出版平台与大数据结构分析_大数据论文
下载Doc文档