什麼是數據產品?從「有數據」到「用數據」

什麼是數據產品?從「有數據」到「用數據」-1200

Dashboard 不是數據產品

問十個數據工程師「你們公司有數據產品嗎?」,大多數人會說「有啊,我們有報表系統」或「我們有 BI Dashboard」。

但 Dashboard 不是數據產品。報表也不是。

準確地說,Dashboard 是數據的消費介面,是數據產品的輸出之一,但不等同於數據產品本身。

真正的數據產品,是一套以產品思維管理的數據資產體系,具備明確的所有者、服務等級承諾、生命週期管理,以及可衡量的業務價值。

一、數據產品的定義

不同機構對數據產品有不同表述,但核心精神一致:

Microsoft 定義數據產品為「經過處理的領域數據資產或數據集,可通過介面與下游流程共享的可信賴資產」。

IBM 強調,數據產品將數據、元數據、語義與模板結合,以支持不同業務用例,而非只是一個靜態的數據集。

Data Mesh 架構原則(由 Zhamak Dehghani 提出)則將「Data as a Product」列為四大核心原則之首,主張每個業務領域(Domain)對自身產出的數據負責,並以「產品」的標準交付給其他使用者。

綜合以上,一個清晰的數據產品定義是:

數據產品是以業務場景為起點、有明確所有者、遵循服務等級協議、可被可信賴地取用和重用的數據資產。

二、數據產品 vs. 傳統 ETL/報表:思維的根本轉變

很多企業已有 ETL 流程、數據倉儲、BI 報表,為什麼還需要「數據產品」這個概念?

因為傳統方式有一個根本缺陷:它是技術驅動的,而非業務驅動的。

維度

傳統 ETL/報表方式

數據產品思維

驅動方式

技術驅動(IT 定義需求)

業務驅動(Business Owner 定義)

所有權

中央 IT 團隊

業務領域(Domain Owner)

生命週期管理

一次性交付,少有更新

持續迭代,有版本控制

品質管理機制

出問題時才修復(被動)

有 SLA 承諾,主動監控(主動)

取用方式

按需申請,等待 IT 排期

自助發現與取用(Self-serve)

可重用性

低(為特定需求開發)

高(設計之初考慮多元用途)

業務價值衡量

不明確

與 KPI/ROI 直接連結

傳統報表的典型問題是:IT 花了三個月開發了一個「月報」,但業務部門說「其實我們要的是每週的數字」,或是「這個欄位的定義跟我想的不一樣」。

數據產品思維的答案是:在開始建之前,先把目標用戶、核心指標、邊界定義清楚,並且讓業務 Owner 承擔所有者責任。

三、數據產品的五大特性

一個符合標準的數據產品,應該具備以下五個特性(對應 Data Mesh 的設計原則):

1. 可探索 & 可理解(Discoverable & Understandable)

數據產品必須在「數據目錄(Data Catalog)」或「數據市集(Data Marketplace)」中可被發現。每個數據產品需要有清晰的文件:它包含哪些欄位?欄位的業務定義是什麼?適用於哪些場景?不適用於哪些場景?

2. 有 SLA 承諾(SLA-Assured)

數據品質不是靠口頭保證,而是靠可測量的服務等級協議。典型的 SLA 維度包括:

  • 新鮮度(Freshness):資料更新延遲不超過 X 小時

  • 準確性(Accuracy):關鍵欄位正確率 ≥ 98%

  • 完整性(Completeness):必填欄位空值率 ≤ 2%

3. 可信賴(Trustworthy)

可信賴來自數據血緣(Data Lineage)。每一筆數據的來源、轉換過程、加工邏輯都有完整記錄,讓使用者可以追溯「這個數字是怎麼來的」,讓 AI 輸出可以被解釋和稽核。

4. 可互通(Interoperable)

數據產品遵循標準格式和接口規範,可以與其他數據產品組合使用。例如「客戶基本資料產品」和「交易紀錄產品」可以通過共同的 Customer ID 進行關聯,無需重新整合。

5. 有業務價值(Business Value-Oriented)

這是最核心,也是最容易被忽略的特性。每個數據產品的建立,都必須從一個具體的業務場景出發,並定義清楚它解決了什麼問題、帶來了什麼可衡量的業務成效。

沒有業務場景的數據產品,就只是一個「數據集」,不是數據產品。

四、數據產品的類型

依據消費者類型和輸出形式,數據產品可以分為幾類:

類型

說明

範例

原始數據產品

清洗過的源系統數據,供下游加工使用

清洗後的交易原始紀錄

聚合分析產品

經過計算、聚合的指標數據

客戶月度 RFM 評分

特徵產品(Feature Product)

專為 AI/ML 模型訓練準備的特徵工程結果

用於流失預測的 150 個特徵

決策支援產品

直接輸出可行動的洞察或建議

高風險客戶排名清單

API 數據產品

透過 API 即時供下游系統取用的數據服務

即時詐欺風險評分 API

五、從「有數據」到「用數據」的三個里程碑

企業在數據產品旅程中,通常會經歷三個里程碑:

里程碑一:數據可見(Data Visible)
建立數據目錄,讓全公司知道有哪些數據、品質如何、由誰負責。這是最基礎的一步,但許多企業連這一步都尚未完成。

里程碑二:數據可信(Data Trustworthy
建立品質 SLA 和血緣追蹤,讓業務人員敢用數據做決策,不需要每次都問 IT「這個數字對嗎?」。

里程碑三:數據可行動(Data Actionable)
數據產品直接連結業務場景,驅動自動化決策、AI 推薦、即時行銷觸發,讓數據真正從「存在」升級為「產生價值」。

 

六、一個簡單的案例:從「客戶數據孤島」到「客戶 360 數據產品」

現狀(問題場景):
一家金融機構有以下數據:

  • CRM 系統:客戶基本資料

  • 交易系統:交易紀錄

  • 客服系統:服務工單

  • 數位平台:網站瀏覽軌跡

但這四個系統的客戶 ID 不統一,品質參差不齊,各部門各自用各自的版本,同一個客戶的「月均資產」在不同報表中可能出現三個不同數字。

數據產品解法:
建立「客戶 360 數據產品」:

  1. 統一 ID:以身份證字號為主鍵,建立跨系統 ID 對應表

  2. 定義 SLA:客戶資料每日更新,關鍵欄位完整率 ≥ 99%

  3. 指定 Owner:客戶服務部門擔任數據所有者,負責品質問題的第一道防線

  4. 建立血緣:每個計算欄位(如「過去 12 個月交易頻次」)都有清晰的計算規則文件

  5. 設計消費介面:提供 API 接口,讓行銷系統、AI 模型、BI 工具都能取用同一份可信賴的客戶數據

成效:行銷精準度提升、AI 模型訓練數據品質改善、各部門對「客戶數據」的爭議消失。

FAQ:常見問題

A:這是一個常見的誤解。BI Dashboard 和報表只是數據的「消費介面」,並不是數據產品本身。傳統的 ETL 流程通常是「技術驅動」的,由 IT 部門為特定需求進行一次性開發,往往缺乏持續的維護與品質保證。真正的數據產品是「業務驅動」的,具備明確的所有者、服務等級承諾(SLA),並且像軟體產品一樣有生命週期管理與版本控制,能被多個下游場景(包含 AI 模型或跨部門應用)可信賴地重用。

A:

應該是業務部門(Domain Owner)。傳統模式下,數據由中央 IT 集中管理,容易導致開發出的報表與業務實際需求脫節(例如:IT 給了月報,但業務需要週報)。數據產品思維強調業務領域必須對自身產出的數據負責,由業務端擔任數據所有者,定義目標用戶、核心指標與邊界,並對這份數據的品質(SLA)負責,IT 團隊則轉為提供技術與架構的支援角色。

A:可以的,這正是數據產品的強項。以「客戶 360 數據產品」為例,它的做法是打破數據孤島,建立統一的主鍵(如統編或身分證字號),並對齊跨系統的資料。更重要的是,它會為每個欄位建立「數據血緣(Data Lineage)」與清晰的業務定義。當所有部門、行銷系統或 AI 模型都透過標準的 API 接口取用這「唯一且可信賴的數據源」時,就能徹底消除不同部門間的數據爭議。

A:針對 AI 模型的訓練,企業可以建立專屬的「特徵產品(Feature Product)」。這類數據產品是將原始數據加工後,專門為 AI 或機器學習準備的特徵工程結果(例如:用於預測流失率的 150 個客戶特徵)。具備 SLA 保證的特徵產品,能確保模型訓練數據的品質與穩定性,大幅減少資料科學家花在清理和猜測數據含義上的時間。

A:企業的轉型旅程建議從達成「數據可見(Data Visible)」的第一個里程碑開始。這意味著您不需要立刻重構所有系統,而是先建立「數據目錄(Data Catalog)」或數據市集,盤點現有的關鍵數據資產,釐清這些數據包含哪些欄位、品質如何、以及由誰負責。當數據變得透明且可被探索後,再逐步針對關鍵業務場景加上 SLA 承諾,邁向「數據可信」與「數據可行動」的階段。

相關文章:

上一篇:AI 失敗的真相:數據才是關鍵地基

下一篇:數據產品的商業語言:衡量才有價值

相關解決方案:

👉 想了解更多湖倉一體 解決方案
👉 想了解更多 數據虛擬化平台
👉 想了解更多 Nous 數據治理平台
👉 想了解更多 Nous 數據品質平台

 

訂閱偉康科技洞察室部落格,掌握最新科技趨勢!

專人協助

由偉康業務人員為您詳細說明偉康的解決方案,以及相關產業經驗。

立即訂閱電子報

掌握最新科技趨勢!