本文由《广播与电视技术》杂志独家授权。本文刊发于2020年第7期。
作者:郑冠雯,梁兴飞(国家广播电视总局广播电视规划院,北京 )
【摘 要】
本文研究了基于大数据的收视分析方法,剖析了收视大数据从宏观到微观的四级分析架构。采用基于大数据的收视分析方法,能够有效解决由于收视率抽样调查样本量不足导致的样本易被污染、部分节目收视统计误差较大、部分节目出现“0 收视”情况等问题,实现对广播电视节目收视结果客观、真实的统计。
【关键词】
大数据,收视调查
1 背景
在广播电视行业,收视率是衡量节目传播效果的一项重要指标,在节目制作、广告销售等环节发挥着重要作用。以收视入户调查为代表的抽样调查技术的曾是评价广播电视节目收视情况的主要技术手段。收视入户调查通过上门安装专用设备或人工问卷调查等方式采集样本用户的收视行为数据,了解观众的观看情况。然而,受限于入户调查和专用设备部署的成本,收视入户调查的样本规模往往较小,这可能导致:1)抽样调查方法往往只能给出比率指标,无法准确给出绝对量指标,例如某节目具体的收视用户数量 ;2)由于样本规模受限,导致部分节目的收视统计结果存在较大的相对误差,特别是在当今电视节目收视率典型水平普遍低于 1% 的情况下,这种问题尤为显著 ;3)可能出现部分广播电视节目没有一个样本户观看过的“0 收视”的情况,不能反映小众节目的真实收视结果;4)由于样本规模受限,收视样本容易受到污染,能够通过操控少量样本户的方式操纵收视率结果,甚至可能出现收视率造假等严重问题。
国家广播电视总局令第 6 号《广播电视行业统计管理规定》[1]中明确指出 :“任何机构和个人不得干扰、破坏广播电视主管部门依法开展的收视收听率(点击率)统计工作,不得制造虚假的收视收听率(点击率)”,为收视数据的客观真实统计提出了新的要求。采用基于大数据的收视分析方法, 能够有效解决由于抽样调查样本量不足导致的样本易被污染、部分节目收视统计误差较大、部分节目出现“0 收视”情况等问题,并能够给出绝对量指标和比率指标,数据统计精准到户、节目分析精确到秒,实现对广播电视收视结果客观、全面、真实的统计。
2收视大数据分析的整体架构
收视大数据分析可以包括整体分析、频道分析、节目分析、分钟级 /秒级分析四级分析架构,其整体架构如图 1 所示。
收视大数据处理过程中,涉及收视大数据采集、清洗、入库、分析、应用等环节,本文聚焦于收视大数据分析环节的数据处理方法。收视大数据在清洗、转换、入库后,得到的结构化的用户收视行为数据通常存储在 HIVE 等大数据仓库中。从宏观到微观,能够对收视数据进行以下四个层次的分析 :(1)从数据整体规模上对收视数据进行宏观统计分析 ;(2)基于频道划分信息,对每个频道的收视数据进行分析 ;(3)在此基础上增加节目信息,对每个节目的收视数据进行分析 ;(4)以系统能够支持的最细时间精度,对收视数据进行分钟级 /秒级收视分析。分析结果为结构化数据,其数据量一般已不需要采用大数据技术进行处理。分析结果中,一部分结果可直接作为系统输出的指标,如收视用户数 ;另一部分需要按照收视指标相关公式进行计算后得到,如得到收视时长结果后,可通过计算得到收视率指标等。
3收视大数据分析的关键思路
如何将大数据的优势与收视调查应用相结合是收视大数据分析的关键所在。大数据技术的长处在于能够批量地处理海量规模数据的计数、累加等基本运算操作。因此,可以将收视数据分析中的各个过程拆解为这些基本运算操作,使之能够在大数据平台上采用 MapReduce 等模型进行高效、并行、稳定的运算。
经分析,在收视大数据分析过程中,涉及三类大数据平台的典型运算,分别是累加、去重和计数。
1. 累加,即对某类符合条件记录的特定字段的值进行加和。在收视大数据分析中,基于时间的指标一般可以直接相加, 通常采用累加的方式进行处理。
2. 去重,即统计某类符合条件记录的总条数,并以特定字段为唯一标识,对该字段相同的记录保留且仅保留一条。在收视大数据分析中,基于用户数量的指标一般要求同一名用户仅统计一次,通常采用去重的方式进行处理。
文章来源:《大数据》 网址: http://www.dsjzz.cn/zonghexinwen/2020/0801/489.html
上一篇:大数据,该如何谈起
下一篇:目前选择计算机、大数据和人工智能这几个专业