• 业务咨询、市场合作:61619362
  • 公司邮箱:support@datatom.com
联系我们  | English

德拓DATRIX助力释放非结构化数据潜能

作者:德小拓     来源:站内原创     2022/08/18 21:42:00    
 

 

 非结构化数据管理潜力无限

01

1)政策东风来临

生产要素形态随着经济发展不断变迁

早在2019年10月四中全会上,中央文件已将“数据”作为生产要素之一,参与分配的提法更是历史首次。

 

数据与土地、劳动力、资本、技术等传统要素并列为要素之一,标志着我国正式进入数字经济红利大规模释放的时代。数据中的结构化数据,已得到广泛的关注,而占比超过八成的非结构化数据,还远未得到与其比例相当的重视。

 

近年来,国家政策层面已开始重视非结构化数据,工业和信息化部《“十四五”大数据产业发展规划》明确提出“强化数据多样性处理。提升数值、文本、图形图像、音频视频等多类型数据的多样化处理能力。促进多维度异构数据关联,创新数据融合模式,提升多模态数据的综合处理水平,通过数据的完整性提升认知的全面性。”为非结构化数据处理指明了方向。

 

2)经济价值巨大

非结构化数据 = 新时代“页岩油”

 

当数据成为“新时代的石油”,那么非结构化数据,则可以类比为“新时代的页岩油”。其特征包括:

 

〉类型多

 

包含了文本、图像、音频、视频、超媒体等各种信息;

 

〉分布广泛

 

大量存在于政府、企业等各种组织中;数量巨大,占据了数据总量的80%以上;

 

〉前景无限

 

与结构化数据相比,非结构化数据的识别、治理、分析、挖掘都具有挑战,其背后的潜藏价值必将带来大数据领域的革命性变革。

 

3)社会认知提升

非结构化数据价值逐渐被社会认可

 

一方面,用数据说话、用数据决策、用数据管理、用数据创新的大数据思维,逐渐被社会接受。

 

另一方面,非结构化数据的价值也越来越被社会所认可。人类的文化、科技等成果,大多是非结构化的,组织中的过程数据、知识沉淀、历史传承等也大多以非结构化数据的形式存在。

 

4)技术手段成熟:

技术发展创造条件

 

由于非结构化数据结构不规则,无法用数据库二维逻辑表来表现,格式多样,信息难以识别,缺乏有效的技术手段进行管理,价值难以发现。但随着分布式、对象存储、AI等技术的发展,为非结构化数据的识别与管理创造了条件。

 

DATRIX的市场定位

02

数字化转型与数据化生存时代,DATRIX数据管理平台是德拓信息研发的,面向海量非结构化数据,汇聚多元内容,提供全面管理,探查深度价值,支撑丰富应用的非结构化数据管理平台。

早在2012年,德拓就开始打磨非结构化数据管理产品。目前,DATRIX已得到包括媒体文娱、教育科研、数字政府、公共安全等各行业众多客户的青睐。

 

DATRIX的市场实践

03

德拓信息通过多年行业实践,助力500+用户深度挖掘非结构化数据价值,并总结以下四个步骤要点:

 

步骤一:广汇聚 

 

组织内部大量文件,分散存储在个人电脑、移动硬盘、光盘、以及各种应用系统之中,非常容易丢失、损坏,难以查找和利用。因此,首先要进行资源的汇聚。

 

以某中学为例,校内拥有多年来众多优秀老师总结积累的大量创新优秀教学资源。这些资源分布于学校的教务、录播、微课等多个系统,以及老师自己的电脑终端,甚至是第三方平台里。随着人员的变动,系统的变迁,很多优秀资源就此流失。

 

DATRIX通过历史资料批量上传、手动上传、目录自动同步、系统对接等多种方式,将原本分散的资源进行汇聚,帮助该中学形成校本资源库,优秀的教学资源得以汇聚和传承。

 

步骤二:统资源 

 

仅仅资源汇聚是不够的,还必须建立规范和标准,对文件进行标准化,统一编目和标签,建立组织级的资源库。

 

举例某音乐学院,该学院拥有丰富的音乐资源,包括民间采风、文化遗产记录、教学视频、演奏会视频、考级材料等多种类型;文字、图片、音频、视频等多种格式;乐器、演奏形式、演奏者、演奏时间、相关事件等多种维度。当师生需要调用这些资源时,往往无从下手。

 

引入DATRIX后,将这些珍贵的音乐素材分门别类,建立音乐资源库,给每个音乐素材打上相应的标签,按不同门类自动发布到资源门户上,为师生检索、调用音乐素材带来极大便利,充分挖掘优质音乐资源的价值。

 

步骤三:智处理 

 

借助人像识别、语音识别、OCR识别、NLP等AI技术,对非结构化数据中的信息进行识别,深入探索文件中蕴藏的价值。

 

以某公安局为例,办案过程中累积了大量案卷,每个案件都会产生大量的文字、照片、录音、视频等非结构化数据。工作人员经常要根据案件名称、时间、地点、人物、关键词等进行查找,在海量的文件中寻找特定素材,往往费时费力。

 

DATRIX通过AI功能,自动进行人像识别、OCR识别、NLP语义识别,给案件自动打上标签,实现了关键字检索、人像检索、地点检索、图谱检索,大大提高了警务人员的工作效率。

 

步骤四:慧服务 

 

DATRIX提供了资源库、资源门户、开放搜索、在线学习等丰富的应用,并通过丰富的API,支持第三方平台开发更多、更丰富的应用,充分释放DATRIX非结构化数据处理能力。

 

结束语

 

截至目前,DATRIX已帮助包括中科院、人民大学、复旦大学、国防大学、火箭军工程大学、苏州广播电视台、上海市经信委、新疆公安厅、甘肃电信、国家电网在内的众多行业客户,深入探索非结构化数据的管理,让非结构化数据发挥出巨大的价值。