データリネージとは何か、なぜ重要か
データリネージとは、データが作成されてから時間と共に変化していく道程を指します。
多くの大企業は、テクノロジーで近代化しようとするあまり、さまざまなデータ入力ポイントや変換ルールを持つ複数の異なるシステムを取得し、データが組織内や組織間で移動する際に利用しています。
これらのツールは、エンタープライズ サービス バス (ESB) 製品、データ統合ツール、抽出、変換、ロード (ETL) ツール、手続きコード、アプリケーション プログラム インターフェイス (API)s 、ファイル転送プロトコル (FTP) プロセス、さらにデータを集約し変換するビジネス インテリジェンス (BI) レポートまで多岐にわたっています。
これらすべての多様なデータ ソースがあり、システムが統合されている場合、それらが形成する複雑なデータ ウェブを理解することは難しく、ましてや単純な視覚的フローを得ることはできません。 これが、データの系統を追跡する必要がある理由であり、データがどこで発生し、どのように変換され、どのように特定の組織内、組織間、組織外に移動するかを理解する能力を提供する、その役割がビジネス運営に非常に重要である理由でもあるのです。 COVID-19 の起源の追跡からデータ駆動型ビジネスまで
コロナウイルスの起源については、多くの説が浮上しています。 最近のカリフォルニア大学サンフランシスコ校 (UCSF) の研究では、COVID-19 の遺伝子解析を行い、ウイルスがカリフォルニア州のベイエリアに特異的に持ち込まれた方法を特定しました。
2月と3月初旬に29人の患者から少なくとも8種類のウイルス系統を検出し、地域限定の患者ゼロではなく、病原体が複数独立して導入されたことが示唆されました。 この研究を指揮した教授は、「さまざまなソースからカリフォルニアに入り込んだ火花が、複数の山火事を引き起こしているようなものです」と述べています。
データ リネージの利点トップ 5
複数の業界にわたるさまざまな規模の顧客と協力している私の視点から、データ リネージの利点 5つを強調したいと思います:
Business Impact
データはすべての組織の生存に不可欠です。 そのため、企業は、組織の意思決定を促進する複数のシステムにわたるデータの流れについて考えなければなりません。
たとえば、マーケティング部門は、人口統計と顧客行動を使用して、売上を予測します。 また、CEOは、業績や成長の統計に基づいて意思決定を行います。 データの起源と履歴を理解することにより、次のような主要業績評価指標 (KPI) レポートのデータの起源に関する質問に答えることができます:
- レポート テーブルと列がメタデータでどのように定義されているか?
- 変換ルールは何か?
データ リネージなしには、これらの機能は無意味であるため、データがどこから来て、誰がそれを使用し、どのように変換するかを明確に理解することは、ビジネスにとって意味があることです。
データの期待値に変更があった場合、データリネージは、どの下流のアプリケーションおよびプロセスがその変更の影響を受けるかを判断する方法を提供し、アプリケーションの更新の計画に役立ちます。
Compliance & Auditability
ビジネス用語およびデータポリシーは、標準化および文書化されたビジネスルールを通じて実装する必要があります。 これらのビジネス ルールのコンプライアンスは、データ リネージを通じて追跡でき、データ変換およびパイプラインに監査可能性および検証コントロールを組み込んで、コンプライアンス違反のデータ インスタンスがあるときに警告を生成します。 たとえば、資本市場の取引会社は、リスク管理、データ ガバナンス、および BCBS 239 や MiFID II などのさまざまな規制の報告をサポートするために、データの起源と履歴を理解しなければなりません。
また、さまざまな組織のステークホルダー (顧客、社員、監査役) は、報告データを理解し信頼できるようにする必要があります。 データリネージは、提供されたデータが正確に反映されていることを証明します。
Data Governance
自動データリネージソリューションは、データ使用を理解および検証し、関連リスクを軽減するためにメタデータをつなぎ合わせます。
上流および下流のデータ リネージをエンドツーエンドで自動文書化し、いつ、誰が、どのような変更を行ったかを明らかにします。
このデータの所有権、説明責任、追跡可能性は、健全なデータ ガバナンス プログラムの基礎となります。 データ ガバナンスの利点
コラボレーション
アナリティクスとレポートはデータに依存しており、異なるビジネス グループや部門間のコラボレーションは非常に重要です。
データパイプラインと情報の流れを見ることは、コンプライアンスの取り組みをさらにサポートします。
Data Quality
データ品質は、人、プロセス、テクノロジーを通じたデータの移動、変換、解釈、選択によって影響を受けます。
データスチュワードは、データリネージとマッピングを使用して、情報の流れをさかのぼり、適用された標準化と変換を検証し、それらが正しく実行されたかを確認することができます。 erwin Data Intelligence Suite(erwin DI)は、列レベルまで、またリポジトリ間のエンドツーエンドのデータリネージを自動的に生成します。 ソースシステムから中間変換やビジネスロジックを含むレポート層までのデータフローを見ることができます。
erwin Data Intelligence(DI)の次のライブデモに参加して、メタデータ駆動型の自動データリネージを実際に見てみてください。