• 业务咨询、市场合作:61619362
  • 公司邮箱:support@datatom.com
联系我们  | English

海量媒体类非结构化数据管理探索实践

作者:德小拓     来源:站内原创     2020/11/24 10:36:58    

德拓深耕于媒体行业,提供全栈数据解决方案,一直以来为媒体行业提供数据存储、数据处理、数据应用等一系列优质解决方案。

 

近几年随着媒体融合的纵深发展,媒体业态发生了转变,新业态、新技术为媒体行业到底带来了什么样的改变?

 

今天,我们将通过一个全新的视角,带大家探索一下德拓在媒体领域最核心的非结构化数据管理应用上的思路和实践。

现有非结构化数据管理的难点
各大电视台无一例外地建设了覆盖长视频(传统电视)和短视频(新媒体)的媒体平台,而最大的特点就是汇聚了来自多个渠道的海量视音频素材。视音频素材作为非结构化数据,其管理难度大,现有的管理和检索机制存在瓶颈,主要体现在:
 

针对海量视频,采用分类进行管理,如成品、收录、pgc回传、上载、互联网采集等。但是分类只是描述内容的“属性”,其特点是分层级、粗糙、单维,再面对海量非结构化数据时,存在瓶颈。

 

针对单一视频,通常采用文件名、标题、摘要等进行描述,精准性和灵活性差,无法精准体现关键信息。


标签:非结构化数据管理的最佳实践
结构化数据和非结构化数据相比,是可以被高效检索和定位的,因此可采用结构化数据思维来管理非结构化数据,也就是互联网上通用的技术——标签

01 可被搜索和精确定位
由于标签是结构化的,是可以在关系型数据库中有效的组织、存储和管理的,这一点非常重要。结构化数据总是能够被高效地搜索和定位,这样就让标签数量可以无后顾之忧地爆发式增长。而随着标签数量的不断增长,标签能够愈发精确地去描述信息,让信息本身也愈发可被精确定位和搜索

02 适用于各种数据
虽然标签本身是结构化的,但是标签可以描述任意数据结构,比如常规的文本、图片、视频、音频。
 

03 可使原本无法描述、搜索和定位的数据也可被描述、搜索和定位

标签可以更加具体和精准的描述数据。比如,我想搜索视频中的指定时间的内容呢?例如我想检索领导人在新闻中出现的片段时间,就只能用标签进行检索。比如,现在最能让群众接受和喜闻乐见的针对视频内容或者视频帧的标签:弹幕。

标签的本质是元数据
标签属于业务领域,而在数据领域,有一个广为熟知的词汇与标签极其雷同,无论它的定义、它的适用范围,还是它的衍生应用都与标签有着令人惊讶的一致性,它就是大家经常说到的:元数据。元数据本身就是用来描述数据的数据,是从数据中抽取出来用于说明其特征的数据,是结构化数据。

我们可以说,标签和元数据就是同一个事业在不同纬度的表现,也就是“一套人马,两块牌子”。标签的本质就是客观描述视频、音频的元数据。因此完全可以将标签作为视音频的元数据一部分,从而提供视音频的高效管理和精准检索。
 

利用增强型元数据技术实现新一代非结构化数据管理体系

按照之前的理论,直接将标签作为元数据使用即可,但是实际情况并非如此简单,为了能够更好地对非结构化数据进行管理,德拓基于自身对数据存储、管理、应用技术的积累,通过独有的增强型元数据技术,打造出了能完美支撑媒体业务的非结构化数据管理服务。
 

01 利用对象存储技术实现元数据的高效管理和共享


首先需要解决元数据保存和共享的问题,德拓基于对象存储的特性,将元数据和实体数据合并存放到对象存储中。


这样做的好处在于:可以将元数据从各个业务系统中数据库解放出来,通过rest接口进行高效访问和共享,形成一个灵活、高效、可扩展的数据管理体系
 

02 利用增强元数据技术实现多维度元数据体系

共享型元数据管理体系将为各个业务系统提供服务,因此元数据应该是多维度的,比如有新闻、综艺、媒资、新媒体等多个维度;所有元数据应该是一个整体,但是不同维度的元数据又应该是相互隔离的,才能提供极大的灵活性。



德拓利用独有的对象存储增强型元数据技术,首先实现了元数据分域管理,既保证元数据的完整性,又保证了灵活性,同时将元数据容量提高到128兆,打破通用对象存储元数据大小的瓶颈。

 

03 高效检索技术实现数据精准查询

通过高效检索引擎,无需传统数据库,即可直接针对各域元数据进行精准检索。


这是海量非结构化数据管理系列第一篇,后续,将继续推出其他系列文章,与大家分享德拓在媒体行业非结构化数据管理方面的一系列实践和探索~