番禺网站建设系统,汉中门户网官网,在百度怎样建网站,校园网站建设毕业设计1. 非结构化数据管理的范围 非结构化数据包括无格式的文本、各类格式的文档、图像、音频、视频等多样异构的格式文件。相较于结构化数据#xff0c;非结构化数据更难以标准化和理解#xff0c;因而非结构化数据的管理不仅包括文件本身#xff0c;而且包括对文件的描述属性非结构化数据更难以标准化和理解因而非结构化数据的管理不仅包括文件本身而且包括对文件的描述属性也就是非结构化的元数据信息。这些元数据信息包括文件对象的标题、格式、Owner等基本特征还包括对数据内容的客观理解信息如标签、相似性检索、相似性连接等。这些元数据信息便于用户对非结构化数据进行搜索和消费。 都柏林核心元数据是一个致力于规范Web资源体系结构的国际性元数据解决方案它定义了一个所有Web资源都应遵循的通用核心标准。 基本特征类属性由公司进行统一管理内容增强类属性由承担数据分析工作的项目组自行设计但其分析结果都应由公司元数据管理平台自动采集后进行统一存储。 2. 非结构化数据入湖的4种方式 非结构化数据入湖包括基本特征元数据入湖、文件解析内容入湖、文件关系入湖和原始文件入湖4种方式其中基本特征元数据入湖是必选内容后面三项内容可以根据分析诉求选择性入湖和延后入湖。 1基本特征元数据入湖 主要通过从源端集成的文档本身的基本信息入湖。入湖的过程中数据内容仍存储在源系统数据湖中仅存储非结构化数据的基本特征元数据。基本特征元数据入湖需同时满足如下条件。 已经设计了包含基本特征元数据的索引表。 已经设计了信息架构如业务对象和逻辑实体。 已经定义了索引表中每笔记录对应文件的Owner、标准、密级认证了数据源并满足质量要求。 2文件解析内容入湖 对数据源的文件内容进行文本解析、拆分后入湖。入湖的过程中原始文件仍存储在源系统数据湖中仅存储解析后的内容增强元数据。内容解析入湖需同时满足如下条件。 已经确定解析后的内容对应的Owner、密级和使用的范围。 已经获取了解析前对应原始文件的基本特征元数据。 已经确定了内容解析后的存储位置并保证至少一年内不会迁移。 3文件关系入湖 根据知识图谱等应用案例在源端提取的文件上下文关系入湖。入湖的过程中原始文件仍存储在源系统数据湖中仅存储文件的关系等内容增强元数据。文件关系入湖需同时满足如下条件 已经确定文件对应的Owner、密级和使用的范围。 已经获取了文件的基本特征元数据。 已经确定了关系实体的存储位置并保证至少一年内不会迁移。 4原始文件入湖 根据消费应用案例从源端把原始文件搬入湖。数据湖中存储原始文件并进行全生命周期管理。原始文件入湖需同时满足如下条件。 已经确定原始文件对应的Owner、密级和使用的范围。 已经获取了基本特征元数据。 已经确定了存储位置并保证至少一年内不会迁移。