构建 MLOps 实时向量特征存储的分布式元数据一致性方案

分布式系统

文章字数: 4.1k

阅读时长: 17 分

当 MLOps 平台需要为上百个并发模型训练任务提供实时向量特征时，真正的瓶颈往往并非数据平面的吞吐量，而是控制平面的元数据一致性。一个特征的定义、版本、源头数据湖的快照信息、以及其在线服务的状态，这些元数据是整个系统的“大脑”。在分布式环境中，如果这个“大脑”出现分裂或不一致，整个平台就会陷入瘫KE痪——模型会加载错误版本的特征，训练任务会基于过时的数据，甚至导致线上服务崩溃。

传统的做法是使用一个高可用的关系型数据库（如 PostgreSQL）作为元数据中心。这在小规模下是可行的，但随着 MLOps 平台规模的扩大，问题随之而来。当自动化流水线和数据科学家同时通过不同的入口（CI/CD 脚本、Web UI）高并发地更新特征元数据时，依赖数据库的事务和行级锁很快会成为性能瓶颈和死锁的温床。更致命的是，在网络分区的情况下，一个中心化的数据库会让整个控制平面彻底失效。我们需要一个真正容错、无单点故障的元数据管理方案。

方案 A：依赖外部协调服务（如 Zookeeper/etcd）

一个直接的想法是引入成熟的分布式协调服务，如 etcd。它基于 Raft 协议，提供了强一致性的键值存储，非常适合存储关键元数据。

优势:
- 强一致性保证: 天然解决了并发写和数据一致性的问题。
- 高可用: etcd 集群能够容忍少数节点故障。
- 成熟的生态: 客户端库和社区支持都非常完善。
劣势:
- 运维复杂度: 为我们的 MLOps 平台引入了一个全新的、重量级的外部依赖。我们需要专门的团队来维护 etcd 集群的稳定性、监控、备份和升级。在真实项目中，这部分成本不容忽视。
- 灵活性受限: 我们的业务逻辑需要适配 etcd 的键值模型。对于复杂的查询和事务逻辑，实现起来会非常笨拙。我们本质上需要的是一个状态机，而不仅仅是一个 KV 存储。
- 性能考量: etcd 是一个通用工具，其性能针对的是通用场景。对于我们特定的元数据操作，可能会有过度的性能开销。

在资源有限、追求技术栈内聚的场景下，引入一个庞大的外部系统来只解决元数据这一个问题，显得有些“杀鸡用牛刀”。

方案 B：内嵌 Raft 共识库构建专用元数据服务

另一个更具挑战但也更可控的方案是，不依赖外部服务，而是在我们的元数据服务应用内部直接嵌入一个 Raft 协议的实现库（例如 Go 语言中的 hashicorp/raft）。我们将特征元数据的操作封装成一个有限状态机（FSM），并利用 Raft 协议保证这个状态机在多个服务节点之间的变更日志是一致的。

优势:
- 技术栈统一: 无需引入新的外部依赖，整个服务是一个独立的、自包含的 Go 应用。部署、监控和维护都大大简化。
- 业务逻辑内聚: 状态机的逻辑就是我们的业务逻辑。我们可以定义任意复杂的操作指令（如 CreateFeature, UpdateSchema, DeployVersion），而不是被限制在简单的 PUT/GET 上。
- 性能优化: 我们可以为自己的状态机做深度优化。例如，定期对状态机做快照，防止日志无限增长，这完全在我们的代码控制范围内。
劣势:
- 实现复杂度: 我们需要自己处理 Raft 节点的网络通信、集群成员变更、日志存储和快照等底层细节。尽管有成熟的库，但这部分代码依然需要审慎地编写和测试。
- 认知成本: 团队成员需要对 Raft 协议有基本的理解，才能排查可能出现的问题。

决策: 我们选择方案 B。对于一个核心的内部平台（IDP）来说，控制关键组件的命运至关重要。内嵌 Raft 方案虽然前期开发成本稍高，但换来的是长期的运维简便、系统独立性和更高的灵活性，这个权衡是值得的。它让我们能构建一个真正高可用的、为向量特征元数据管理量身定制的分布式控制平面。

核心实现概览

整个系统分为三个主要部分：后端元数据服务（Raft 集群）、上游数据处理系统（从 Data Lake 提取数据生成向量），以及前端管理界面（供数据科学家使用）。

graph TD
    subgraph "数据来源 (Data Source)"
        DL[<--fa:fa-database--> Data Lake]
    end

    subgraph "MLOps 平台后端"
        UI_API[API Gateway]
        
        subgraph "元数据服务 (Raft Cluster)"
            direction LR
            MetaSvc1[Node 1: Leader]
            MetaSvc2[Node 2: Follower]
            MetaSvc3[Node 3: Follower]
            MetaSvc1 <-->|Heartbeat/AppendEntries| MetaSvc2
            MetaSvc2 <-->|Heartbeat/AppendEntries| MetaSvc3
            MetaSvc3 <-->|Heartbeat/AppendEntries| MetaSvc1
        end

        subgraph "特征处理/服务 (Data Plane)"
            FP[Feature Processors]
            VS[Vector Serving]
        end
    end

    subgraph "用户界面 (UI)"
        WebApp[React App w/ CSS Modules]
    end

    DL -- Batch/Stream --> FP
    FP -- Generates Vectors --> VS
    FP -- Subscribes to Metadata Changes --> MetaSvc1

    WebApp -- HTTP/gRPC --> UI_API
    UI_API -- Propose Command --> MetaSvc1
    
    MetaSvc1 -- Replicates Log --> MetaSvc2 & MetaSvc3
    MetaSvc1 -- Apply to FSM --> MetaSvc1
    MetaSvc2 -- Apply to FSM --> MetaSvc2
    MetaSvc3 -- Apply to FSM --> MetaSvc3

1. Go 实现的 Raft 状态机

我们将使用 hashicorp/raft 库。首先，定义我们的状态机（FSM）和它需要处理的日志条目（Command）。

fsm.go - 有限状态机的定义与实现

package metadata

import (
	"encoding/json"
	"fmt"
	"io"
	"sync"

	"github.com/hashicorp/raft"
	"github.com/sirupsen/logrus"
)

// CommandType 定义了可以应用于状态机的操作类型
type CommandType int

const (
	CommandCreateFeature CommandType = iota
	CommandUpdateFeatureSchema
	CommandSetFeatureVersionState
)

// LogEntry 是写入 Raft 日志的数据结构
type LogEntry struct {
	Type    CommandType `json:"type"`
	Payload []byte      `json:"payload"`
}

// CreateFeaturePayload 创建新特征的载荷
type CreateFeaturePayload struct {
	Name        string `json:"name"`
	Description string `json:"description"`
	ValueType   string `json:"value_type"` // e.g., "vector", "scalar"
	VectorDim   int    `json:"vector_dim,omitempty"`
}

// Feature represents the state of a single feature.
// 这是我们状态机中真正存储的数据结构
type Feature struct {
	ID          string                 `json:"id"`
	Name        string                 `json:"name"`
	Description string                 `json:"description"`
	ValueType   string                 `json:"value_type"`
	VectorDim   int                    `json:"vector_dim,omitempty"`
	Versions    map[int]FeatureVersion `json:"versions"`
}

// FeatureVersion 代表特征的一个版本
type FeatureVersion struct {
	Version int    `json:"version"`
	State   string `json:"state"` // e.g., "active", "deprecated"
	Schema  string `json:"schema"`
}

// featureStoreFSM 是我们的有限状态机实现
// 它实现了 raft.FSM 接口
type featureStoreFSM struct {
	log  *logrus.Entry
	mu   sync.RWMutex
	// features 是内存中的状态，实际项目中会使用更持久化的存储如 BadgerDB
	features map[string]*Feature 
}

func NewFSM(logger *logrus.Logger) *featureStoreFSM {
	return &featureStoreFSM{
		log: logger.WithField("component", "fsm"),
		features: make(map[string]*Feature),
	}
}

// Apply 将 Raft 日志条目应用到状态机
// 这是 FSM 的核心，所有状态变更必须通过这里
// 这个函数必须是确定性的
func (f *featureStoreFSM) Apply(log *raft.Log) interface{} {
	f.mu.Lock()
	defer f.mu.Unlock()

	var entry LogEntry
	if err := json.Unmarshal(log.Data, &entry); err != nil {
		f.log.WithError(err).Error("Failed to unmarshal log entry")
		// 在真实项目中，应该返回一个错误，以便上层可以知道应用失败
		return fmt.Errorf("unmarshal log entry: %w", err)
	}

	f.log.WithField("type", entry.Type).Info("Applying log entry")

	switch entry.Type {
	case CommandCreateFeature:
		var p CreateFeaturePayload
		if err := json.Unmarshal(entry.Payload, &p); err != nil {
			return fmt.Errorf("unmarshal create payload: %w", err)
		}
		if _, exists := f.features[p.Name]; exists {
			return fmt.Errorf("feature '%s' already exists", p.Name)
		}
		newFeature := &Feature{
			ID:          p.Name, // Simple ID for example
			Name:        p.Name,
			Description: p.Description,
			ValueType:   p.ValueType,
			VectorDim:   p.VectorDim,
			Versions:    make(map[int]FeatureVersion),
		}
		f.features[p.Name] = newFeature
		f.log.WithField("feature_name", p.Name).Info("Feature created")
		return nil
	default:
		return fmt.Errorf("unrecognized command type: %d", entry.Type)
	}
}

// Snapshot 用于为状态机创建快照，防止日志无限增长
// 它返回一个可以用于恢复状态的快照对象
func (f *featureStoreFSM) Snapshot() (raft.FSMSnapshot, error) {
	f.mu.RLock()
	defer f.mu.RUnlock()

	// 序列化整个状态
	data, err := json.Marshal(f.features)
	if err != nil {
		return nil, err
	}

	return &fsmSnapshot{data: data}, nil
}

// Restore 从快照中恢复状态机
func (f *featureStoreFSM) Restore(rc io.ReadCloser) error {
	defer rc.Close()
	
	data, err := io.ReadAll(rc)
	if err != nil {
		return err
	}
	
	f.mu.Lock()
	defer f.mu.Unlock()

	var features map[string]*Feature
	if err := json.Unmarshal(data, &features); err != nil {
		return err
	}
	f.features = features
	f.log.Info("Restored FSM from snapshot")
	return nil
}

// fsmSnapshot 实现了 raft.FSMSnapshot 接口
type fsmSnapshot struct {
	data []byte
}

func (s *fsmSnapshot) Persist(sink raft.SnapshotSink) error {
	if _, err := sink.Write(s.data); err != nil {
		_ = sink.Cancel()
		return err
	}
	return sink.Close()
}

func (s *fsmSnapshot) Release() {}

server.go - Raft 节点启动与命令提交

package metadata

import (
	"context"
	"fmt"
	"net"
	"os"
	"path/filepath"
	"time"

	"github.com/hashicorp/raft"
	raftboltdb "github.com/hashicorp/raft-boltdb/v2"
	"github.com/sirupsen/logrus"
)

type Server struct {
	raft *raft.Raft
	fsm  *featureStoreFSM
	log  *logrus.Logger
}

// Propose a command to the Raft cluster.
// 这是客户端（如 API Gateway）与 Raft 集群交互的入口
func (s *Server) Propose(ctx context.Context, cmdType CommandType, payload interface{}) error {
	if s.raft.State() != raft.Leader {
		return fmt.Errorf("not the leader, cannot propose")
	}

	payloadBytes, err := json.Marshal(payload)
	if err != nil {
		return fmt.Errorf("failed to marshal payload: %w", err)
	}

	logEntry := LogEntry{
		Type:    cmdType,
		Payload: payloadBytes,
	}

	logBytes, err := json.Marshal(logEntry)
	if err != nil {
		return fmt.Errorf("failed to marshal log entry: %w", err)
	}
	
	timeout := 10 * time.Second // 生产环境中应可配置
	future := s.raft.Apply(logBytes, timeout)

	if err := future.Error(); err != nil {
		return fmt.Errorf("raft apply failed: %w", err)
	}

	// future.Response() 会返回 FSM.Apply() 的返回值
	resp := future.Response()
	if err, ok := resp.(error); ok {
		return fmt.Errorf("command application failed: %w", err)
	}

	return nil
}

// NewServer creates and bootstraps a new metadata server node.
func NewServer(nodeID, raftAddr, raftDir string, isLeader bool, logger *logrus.Logger) (*Server, error) {
	config := raft.DefaultConfig()
	config.LocalID = raft.ServerID(nodeID)
	config.Logger = &raft.HCLogAdapter{Logger: hclog.New(&hclog.LoggerOptions{
        Name: "raft",
        Level: hclog.Debug,
        Output: logger.Writer(),
    })}


	addr, err := net.ResolveTCPAddr("tcp", raftAddr)
	if err != nil {
		return nil, err
	}
	transport, err := raft.NewTCPTransport(raftAddr, addr, 3, 10*time.Second, os.Stderr)
	if err != nil {
		return nil, err
	}

	if err := os.MkdirAll(raftDir, 0755); err != nil {
		return nil, err
	}

	// 使用 BoltDB 作为 Raft 的日志存储和稳定存储
	logStore, err := raftboltdb.NewBoltStore(filepath.Join(raftDir, "raft-log.db"))
	if err != nil {
		return nil, fmt.Errorf("new bolt store for logs: %w", err)
	}
	stableStore, err := raftboltdb.NewBoltStore(filepath.Join(raftDir, "raft-stable.db"))
	if err != nil {
		return nil, fmt.Errorf("new bolt store for stable: %w", err)
	}

	// 快照存储
	snapshotStore, err := raft.NewFileSnapshotStore(raftDir, 2, os.Stderr)
	if err != nil {
		return nil, fmt.Errorf("new file snapshot store: %w", err)
	}
	
	fsm := NewFSM(logger)

	r, err := raft.NewRaft(config, fsm, logStore, stableStore, snapshotStore, transport)
	if err != nil {
		return nil, err
	}

	// 如果是集群的第一个节点，需要进行自举 (bootstrap)
	if isLeader {
		bootstrapConfig := raft.Configuration{
			Servers: []raft.Server{
				{
					ID:      config.LocalID,
					Address: transport.LocalAddr(),
				},
			},
		}
		f := r.BootstrapCluster(bootstrapConfig)
		if err := f.Error(); err != nil {
			return nil, fmt.Errorf("failed to bootstrap cluster: %w", err)
		}
	}

	return &Server{
		raft: r,
		fsm:  fsm,
		log:  logger,
	}, nil
}

这段代码展示了 FSM 的核心逻辑和 Raft 节点的初始化过程。在真实项目中，集群成员的管理（节点的加入和离开）也需要通过 Raft 命令来保证一致性。

2. 前端组件化与 CSS Modules

在 MLOps 平台这种大型内部应用中，前端往往由多个团队协作开发。一个团队负责模型训练的 UI，另一个负责特征管理的 UI。如果没有严格的样式隔离，CSS 类名冲突将是家常便饭，导致样式污染和难以维护的 “spaghetti CSS”。

CSS Modules 正是为此而生。它通过在构建时为每个组件的 CSS 类名生成一个唯一的哈希值，从根本上解决了全局命名空间污染的问题。

FeatureStatusBadge.module.css - 组件的样式文件

/*
 * 使用 .module.css 后缀是关键，构建工具（如 Webpack, Vite）会识别它
 * 并自动处理类名转换。
 */
.badge {
  display: inline-block;
  padding: 0.25em 0.6em;
  font-size: 75%;
  font-weight: 700;
  line-height: 1;
  text-align: center;
  white-space: nowrap;
  vertical-align: baseline;
  border-radius: 0.25rem;
  transition: color 0.15s ease-in-out, background-color 0.15s ease-in-out;
}

/*
 * 定义不同状态的样式
 * 这些类名在 JS 中会被转换成类似 "FeatureStatusBadge_active__a3f4e" 的格式
 */
.active {
  color: #fff;
  background-color: #28a745; /* Green */
}

.deprecated {
  color: #fff;
  background-color: #6c757d; /* Gray */
}

.pending {
  color: #212529;
  background-color: #ffc107; /* Yellow */
}

FeatureStatusBadge.tsx - 使用 CSS Modules 的 React 组件

import React, { FC } from 'react';
// 导入 CSS Module，'styles' 对象包含了所有转换后的类名
import styles from './FeatureStatusBadge.module.css';

type FeatureState = 'active' | 'deprecated' | 'pending';

interface FeatureStatusBadgeProps {
  state: FeatureState;
  // 用于单元测试和 E2E 测试
  'data-testid'?: string; 
}

// 一个常见的错误是直接使用字符串拼接类名，
// 正确的方式是使用 styles 对象来访问编译后的类名。
const stateToClassMap: Record<FeatureState, string> = {
  active: styles.active,
  deprecated: styles.deprecated,
  pending: styles.pending,
};

export const FeatureStatusBadge: FC<FeatureStatusBadgeProps> = ({ state, 'data-testid': testId }) => {
  // 基础类名和状态类名组合
  // 这里的坑在于，要确保 styles.badge 总是存在
  const badgeClasses = `${styles.badge} ${stateToClassMap[state] || ''}`;

  return (
    <span className={badgeClasses} data-testid={testId}>
      {state.toUpperCase()}
    </span>
  );
};

FeatureManagementPanel.tsx - 调用后端 API 的容器组件

import React, { useState } from 'react';
import { FeatureStatusBadge } from './FeatureStatusBadge';
import { createFeature } from '../api/featureAPI'; // 假设的 API 调用函数

// ... (其他 imports 和组件定义)

export const FeatureManagementPanel = () => {
    const [featureName, setFeatureName] = useState('');
    const [isSubmitting, setIsSubmitting] = useState(false);
    const [error, setError] = useState<string | null>(null);

    const handleSubmit = async (event: React.FormEvent) => {
        event.preventDefault();
        if (!featureName.trim()) {
            setError('Feature name cannot be empty.');
            return;
        }

        setIsSubmitting(true);
        setError(null);

        try {
            const payload = {
                name: featureName,
                description: 'A new feature created from UI',
                value_type: 'vector',
                vector_dim: 128,
            };
            // 这个 API 调用最终会触发 Raft 集群的 Propose
            await createFeature(payload); 
            // 在实际应用中，这里会通过 WebSocket 或轮询来更新特征列表
            alert('Feature creation proposed successfully!');

        } catch (apiError: any) {
            // 详尽的错误处理至关重要
            console.error('Failed to propose feature creation:', apiError);
            setError(apiError.message || 'An unknown error occurred.');
        } finally {
            setIsSubmitting(false);
        }
    };

    return (
        <div>
            {/* ... 表单 UI ... */}
            <form onSubmit={handleSubmit}>
                <input
                    type="text"
                    value={featureName}
                    onChange={(e) => setFeatureName(e.target.value)}
                    placeholder="Enter new feature name"
                    disabled={isSubmitting}
                />
                <button type="submit" disabled={isSubmitting}>
                    {isSubmitting ? 'Submitting...' : 'Create Feature'}
                </button>
            </form>
            {error && <div style={{ color: 'red' }}>Error: {error}</div>}
            
            {/* 展示特征状态 */}
            <div>
                <span>user_embedding_v1: </span>
                <FeatureStatusBadge state="active" />
            </div>
        </div>
    );
};

在这里，CSS Modules 的价值得以体现。FeatureStatusBadge 组件可以被平台的任何其他部分安全地复用，而无需担心它的 .badge 或 .active 样式会与另一个组件（比如一个 Alert 组件）的同名类冲突。这对于构建一个可维护、可扩展的大型内部开发者平台的前端至关重要。

架构的扩展性与局限性

这个基于内嵌 Raft 的元数据服务架构，其核心优势在于控制平面的高可用和强一致性。数据平面（即向量数据的存储和在线服务）可以独立扩展。例如，特征向量可以存储在专门的向量数据库或高性能 KV 存储中，而元数据服务只负责指导数据平面应该加载哪个版本的特征。

但这个方案并非没有局限性。

首先，Raft 协议的写入性能受限于集群中最慢节点的响应和网络延迟。它非常适合处理低频但至关重要的元数据更新，但不适用于高吞吐量的数据写入场景。任何试图将业务数据直接写入 Raft FSM 的行为都是一种架构上的误用。

其次，我们选择了内嵌库，这意味着元数据服务和 Raft 节点的生命周期是绑定的。这简化了部署，但也意味着如果应用进程崩溃，Raft 节点也会随之停止。在生产环境中，需要有健壮的进程守护和自动重启机制（如 systemd 或 Kubernetes 的 Pod 定义）来保障服务的可用性。

最后，随着业务复杂度的增加，FSM 的状态和逻辑可能会变得非常庞大。届时，就需要考虑更复杂的 FSM 设计，例如将状态持久化到高性能的本地 KV 引擎（如 RocksDB/BadgerDB）而不是纯内存，以及实现更高效的快照和恢复机制。对于超大规模的系统，甚至可能需要将元数据按领域进行分片，每一片由一个独立的 Raft 集群管理，但这将引入跨分片事务的巨大复杂性。

MLOps 分布式一致性向量 Data Lake CSS Modules

构建PB级可观测性数据后端 TiDB与ClickHouse的混合架构选型与实现

2023-10-27 后端架构

可观测性 TiDB ClickHouse 后端数据工程

基于TDD构建由Haskell与Flask驱动的CockroachDB分布式事务内核

2023-10-27 分布式系统

CockroachDB TDD Haskell Flask