元数据管理
OpenDataWorks 提供全方位的数据资产元信息管理与资产盘点能力,支持对数据仓库进行可视化建表设计、生命周期回收站管理、存储空间度量追踪及访问热度分析。
1. 数据表设计与物理同步
平台提供了可视化的「表设计器」,用于维护表及其字段的元信息:
可视化建表与字段维护
在前端界面创建或编辑数据表时,您可以配置:
- 基础信息:表名、中文描述、所属数据分层(ODS/DWD/DIM/DWS/ADS)、数据域及业务域。
- 字段配置:批量新增或修改字段名称、类型、注释,以及指定是否为主键、是否允许为空。
- 物理引擎属性:针对底层分布式数据库(如 Apache Doris),可直接在界面上调整分桶字段、分桶数、副本数等物理存储属性。
后端自动同步
当您在界面上保存设计好的表结构时,平台会自动在底层 Doris 数据库中同步执行对应的 DDL 变更(如创建物理表、新增/删除列或修改字段注释),确保元数据与物理表结构实时一致。同时,您可以在界面上直接一键“查看 DDL”获取完整的物理建表语句。
2. 表级软删除回收站 (Lifecycle)
为了防止误删数据,平台建立了 “表级软删除回收站” 机制:
- 安全废弃(软删除):在数据表详情页点击“软删除”,输入表名确认后,表状态会变更为“已废弃”(
deprecated)。在底层数据库中,该物理表会被重命名并移入后台保留,避免被直接物理销毁。 - 30天宽限期保留:所有被废弃的表会进入「回收站」列表中挂起,系统会显示每个表的剩余保留天数(默认保留 30 天)。
- 一键恢复(Restore):在 30 天宽限期内,如果您发现该表仍需使用,可在回收站中点击“恢复”,系统将自动恢复其原始表名和状态,重新上线使用。
- 立即清除(Purge):如果确认表已无用且急需释放存储空间,可在回收站点击“物理清除”,系统将从底层数据库彻底物理删除该表。30 天期满未处理的表也会被系统自动清理。
3. 存储指标与变动历史 (Storage Stats)
在数据表详情页,平台提供了直观的数据量监控大盘:
- 实时指标显示:展示该表当前的行数(Row Count)、数据文件大小(Data Size)和索引大小(Index Size)。指标默认采用缓存机制以保障流畅度,您可点击“刷新”以获取数据库当前的最新度量。
- 7天/30天历史趋势图:提供直观的指标变化折线图和柱状图,方便数据管理员盘点存储资源,及时发现数据异常膨胀或收缩的趋势。
4. 访问热度与用户分析 (Access Stats)
为了帮助评估表资产的实用价值,详情页提供了热度分析面板:
- 访问频次趋势:展示最近 30 天内,该表被查询、写入的总次数及每日热度趋势。
- 高频用户排行:展示该表最活跃的 Top 5 访问用户,帮助管理员知晓谁在使用该表。
- 零访问预警:对于连续 30 天没有任何读写访问的表,系统会标记为“闲置表”,建议管理员评估下线,避免计算与存储资源的浪费。
5. 数据血缘图谱 (Lineage Graph)
血缘图谱能够直观展示数据在表之间的流转链路:
- 可视化依赖拓扑:在「数据血缘」模块,系统会以关系力导向图呈现表级血缘,用不同的颜色区分 ODS 到 ADS 的分层。
- 上下游穿透:选中任意一张表作为锚点,可向上追溯其数据来源(数据溯源),或向下追踪其输出去向(影响分析)。
- 多维条件筛选:支持在血缘画布中按数据分层、业务域、数据域和表名关键词进行快速检索和局部高亮过滤。