• 业务咨询、市场合作:61619362
  • 公司邮箱:support@datatom.com
联系我们  | English

打造精细化标签体系,DATRIX驾驭非结构化数据管

作者:德小拓     来源:站内原创     2022/04/28 21:40:00    
 

什么是标签?

早在1700年,欧洲印制出了用在药品和布匹上作为商品识别的第一批标签。所以,现在的标签是用来标志您的产品目标和分类或内容,像是给目标确定的关键字词,便于自己和他人查找和定位自己目标的工具。

 

为什么要给内容打标签?

因为,我们要找一切我们认为有用的东西。

 

1)快速识别

 

当一则“内容”出现在我们面前时,首先,我们需要识别它。不管是否需要深入关注,只要是我们主动或被动地接触到内容后,就不得不去了解它的概要。比如一说“天坛”,你就知道在北京,且是一座建筑。

 

2)便捷检索

 

在识别后会面临两个选择:要它(和目的的相关性较高或者感兴趣),不要它(反之)。这里不涉及其程度。例如,你正在找建筑的内容,那么你选择“黄鹤楼”,而不是“蝴蝶效应”。

 

分类和标签的联系与区别

1)建立联系的方式不同

 

分类是自上而下的,也就是先有分类,而后才有内容。标签是自下而上的,一定是先有内容,才有标签。分类自上而下的特性,有助于“重聚”关键词相同的内容。这就决定了它们的维度不同「分类是抽象化,大纲级别;标签是实例化,关键词级别」。

 

2)描述的类型不同

 

分类描述的是属性,故名“分门别类”。花是花,树是树。标签描述的是内容特征,所以叫做“打标签”,有点像“扣帽子”。

 

数据管理为什么需要标签体系?

传统企业的信息化使用更多的是分类体系,而标签体系是互联网企业的“致胜法宝”。

 

随着数字化时代的到来,大数据&人工智能等技术掀起了传统企业数字化转型的浪潮。从技术侧来看,转型就是拥抱互联网,战略性地使用数据和IT

 

如果将数据管理平台定位成一个存储和管理数据的技术平台,那或许有“分类体系”就可以了。但如果数据管理平台的定位是企业数字化转型的运营中枢系统,要实现对前端业务的支持和赋能,那“标签体系”就是数据管理平台的标配

 

分类是自上而下的规划,侧重标准化,标签是自下而上的倒推,注重业务场景。

 

“数字转型,场景为王”,在“技术+业务”双驱模式的数据管理平台中,标签体系、数据萃取将助力企业运营转型升级。

 

德拓信息自研的DATRIX智能数据管理平台作为一站式数据平台,提供从数据汇聚、数据存储、管理、搜索、转码、AI处理、发布应用、到归档备份的数据全流程生命周期管理,实现组织数据资源的统一管理与共享交换。

DATRIX目前已在多行业有大量的项目案例,今天,小拓将以以苏州广播电视台为例,来谈谈标签体系在非结构化数据管理中的重要性。

 

项目需求

随着信息化时代的发展,数据量越来越大,数据的时效越来越急迫。在面对各类业务生产的需求时,作为领先的媒体平台,苏州台对于各类视频、音频、图片文档等非结构化数据管理具有更高的要求。

 

目前国内大多数电视现有的传统媒体库,在进行素材编辑时,无法对部分素材进行统一的存储,台内素材编辑人员与部门缺少数据共享、归档的意识,导致各类数据利用率低,共享困难。

 

基于这些需求和痛点,德拓信息为苏州台在DATRIX的基础上定制化打造了影像素材智能管理平台,通过AI智能技术、知识图谱、标签体系等技术对生产资源实现更多层次更细节化的管理,以满足各类业务的生产需求,拓展更多智能化的生产方式

 

在管理层面,用从内容信息维度的管理原始级精品素材的方式将取代现在分类式的素材管理模式

 

在协同共享层面,通过部门空间应用,加强素材在部门内容有效协同共享;

 

在服务层面,采用标签检索和图谱等技术,提高素材检索精度,为内容生产系统服务。

 

标签体系的具体应用

/ 应用一 /

文件标记

通过标签树,分类标签管理功能,实现即时&上传完成后打标签,且提供标签层级关系,极大方便用户后期的文件管理。

 

1)利用标签树,实现有层级的标签管理,增强t标签的关联性:

(标签树管理)

2)后台设定不同类型文件对应的必填标签,支持即时&上传完成后打标签,极大方便后期的文件管理。

(分类标签管理)

(即时上传完成后打标签)

/ 应用二 /

数据推荐

精准的文件推荐:当用户预览文件时,页面左下方的‘相关推荐’模块,会根据文件标签、文件名、编目信息等进行推荐,尽可能挖掘用户所需文件。

(基于标签的文件推荐)

/ 应用三 /

智能检索

利用标签树,实现标签推荐:即用户在搜索关键词时,如果该关键词存在于标签树中,那么在搜索页面可为用户推荐搜索词的上级、平级、下级标签,提升搜索的逻辑深度,为用户尽可能找到所需文件。

(搜索标签推荐)

如上图所示,当用户搜索‘姑苏区’时,搜索结果为元数据信息中包含‘姑苏区’的所有文件。同时‘姑苏区’存在于标签树中,故此处推荐标签为‘苏州市’(上级标签)、‘吴中区/吴江区/相城区’(平级标签)。当用户点击推荐标签后,即视为以该标签继续搜索对应文件。

 

标签检索:DATRIX支持多维度的文件信息检索,其中标签是重要的维度之一。

(文件搜索)

如上图所示,在搜索‘吴中区’时,出现四个搜索结果,此外,标签推荐继续推出关联标签。第一个文件的标签与搜索关键词直接匹配,列为第一,可见标签在文件检索中有着至关重要的地位。

/ 应用四 /

基于德拓AI引擎,给文件自动打标签

在后续版本升级中,DATRIX将支持基于Ai引擎,给不同类型文件自动打标签,例如:针对新闻视频中出现的多人会议/主持人/飞机/汽车等文件,通过转码和Ai引擎处理,自动给该文件打上‘会议’、‘主持’、‘飞机’、‘汽车’等标签,极大提升文件管理及使用效率,帮助用户深入挖掘数据价值。

 

DATRIX作为德拓信息十年的拳头产品,在媒体、教育、金融、医疗等多个行业沉淀了大量经典案例,目前已服务于CCTV、SMG、复旦大学、中国医科大学、四川大学华西医院、联想之星等单位。

用户场景虽不尽相同,但在各个案例中,标签体系均扮演着极其重要的角色。德拓信息DATRIX产品也将坚定不移的持续优化标签体系在各行业领域的具体落地场景,帮助用户最大程度发掘数据价值,更高效的管理和使用数据。