2023 龙蜥操作系统大会演讲实录：《兼容龙蜥的云原生大模型数据计算系统——πDataCS》

2024-02-22

本文主要分三部分内容：第一部分介绍拓数派公司，第二部分介绍 πDataCS 产品，最后介绍 πDataCS 与龙蜥在生态上的合作。

杭州拓数派科技发展有限公司（简称“拓数派”，英文名称“OpenPie”）是国内基础数据计算领域的高科技创新企业。作为国内云上数据库和数据计算领域的引领者，以“Data Computing for New Discoveries”「数据计算，只为新发现」为使命，致力于在数字原生时代，运用突破性计算理论、独创的云原生数据库旗舰产品以及之上的算法和数学模型，建立下一代云原生数据平台的前沿标准，驱动企业实现从“软件公司”到“数据公司”再到“数学公司”的持续进阶，加速数字化转型升级。

拓数派自成立以来专注于数据计算领域，旗下大模型数据计算系统（PieDataComputingSystem, 缩写：πDataCS），以云原生技术重构数据存储和计算，一份存储，多引擎数据计算，让 AI 模型更大更快，全面升级大数据系统至大模型时代。πDataCS 旨在助力企业优化计算瓶颈、充分利用和发挥数据规模优势，构建核心技术壁垒，更好地赋能业务发展，使得自主可控的大模型数据计算系统保持全球领先，让大模型技术全面赋能各行各业。目前大模型数据计算系统，面向国内市场提供公有云版、社区版、企业版及一体机多个版本，满足企业不同业务场景需求，并已为金融、制造、医疗及教育等行业用户构建了 AI 数据底座。

拓数派拥有强悍的研发核心团队和有成功上市经验的管理团队。其核心团队成员主要来自 Pivotal、IBM、腾讯、字节跳动、快手、Oracle 等世界 500 强及国内头部互联网公司。拓数派创始人兼 CEO 冯雷（Ray Von）是数据云和人工智能领域的连续创业者和技术引领者。冯雷于 2010 年从美国硅谷归国，曾在 500 强公司 EMC 旗下创建 Greenplum 中国研发部门工作。2013 年随着全球 Pivotal 组建，冯雷先生在中国 Greenplum 大数据和 VMWare 的 PaaS 云的基础上组建了 Pivotal 中国研发中心，推动了 Greenplum 大数据库、CloudFoundry PaaS 云等知名开源产品的领域领先地位。

拓数派 2021 年创立，迅速进入快速发展阶段，引领数据计算时代的到来。成立当天即获得头部产业基金天使轮投资，成为 DAY-1 准独角兽。2022 年拓数派发布了云原生虚拟数仓 PieCloudDB 社区版与商业版。2023 年拓数派大模型数据计算系统 πDataCS 正式亮相，让 AI 模型更大更快。

下面介绍 πDataCS。数据分析的目的最终是为了发现解释世界规则的模型。有了数据和计算，最终用来描述世界规律，构建一个模型系统。构建模型系统的关键是要有足够多的数据，数据是核心竞争力。有了数据后要构造出解释世界的模型。拓数派团队既具备大数据分析的丰富经验，也具备云计算方面的实战经验。

一提到模型可能首先想到有几千亿参数的大模型数据系统，其实日常生活中的模型无处不在。例如自由落体模型，由物理实验推导而来。最早的物理规律并不是理论推导而成，而是由数据分析得出，例如开普勒行星运动三定律，就是通过分析天文学家几十年的观测数据总结得出。以自由落体模型为例，可以考虑物体的自由落体运动以时间和变量为参数。构造这样简单的一套模拟系统，通过观测收集到数据，再经过计算发现 p0、p1 参数都是 0，只有 p3 是5 。经过分析后得出，只有当 p0、p1 值为该值时才符合客观规律，这就是简单的模型训练过程。进行数据分析时，不仅要构造像大模型这种复杂系统，生活中也有很多像自由落体这种模型等待我们发现。

下面是 πDataCS 产品的架构图。

πDataCS 打造了全新的云原生架构，支持一份数据，多引擎计算。πDataCS 支持多种云平台，包括公有云和私有云。πDataCS 以云原生技术重构数据存储和计算，先将数据计算系统中的计算和数据分离，增强系统的弹性。接着，考虑到未来数据治理和交易，拓数派把元数据和用户数据再次分离，实现了全新的 eMPP 架构。元数据被映射到块存储，由元数据管理系统「木牍」进行管理；用户数据被映射到对象存储，由「简墨」存储系统来管理；计算被映射到容器或者虚拟机，由计算系统来管理。元数据可以在系统中描述数据的结构，找到数据位置。将元数据单独处理后简化了数据交换。例如进行黄金交易时不一定一手交钱一手交货，可以将存储黄金的保险柜钥匙交出，此处的保险柜钥匙就相当于元数据管理系统，避免了数据遗漏等风险。此外 πDataCS 还利用 FPGA 硬件加速技术来提高对数据文件的访问。

目前，πDataCS支持三种计算引擎：

PieCloudDB：作为拓数派首款云原生数仓计算引擎，支持 SQL 语言模型，兼容 HTAP
PieCloudVector：为支持和大模型配合的向量计算而建立的云原生向量计算引擎
PieCloudML：为支持 Python 和 R 等机器学习语言而建立的云原生机器学习引擎

πDataCS 的第一个优势是全面升级 Hadoop 大数据和 Greenplum 数仓至云原生数据平台。打造 πDataCS 是为了全面升级用户的数据平台。曾经谈到大数据时一定会提到 Hadoop，随着时间发展，人们发现 Hadoop 的很多问题，但很多用户的大数据系统还是基于 Hadoop 实现。自从 Hadoop 之后出现很多大数据技术，但只能解决一部分数据问题。例如 MPP 数据库，主要为了处理关系型数据，还有 MySQL 数据库只能处理某一个类型的数据。只有 Hadoop 平台可以使用它的若干个模块来处理所有的数据，包括结构化的、非结构化的、文本、图像等等。同 Hadoop 一样，πDataCS 和也可以通过一个平台多种计算引擎来为客户处理所有数据，包括结构化的、非结构化的、文本、图像等。

πDataCS 的第二优势是可以全面支持大语言基础模型和私域数据结合做垂直应用。拓数派第二款计算引擎 PieCloudVector，是一款可以用于存储、查询和分析向量数据（比如特征向量）的向量数据库。

某知名金融客户积累了很多金融方面的数据，包括各种各业的行业和所投资的各个公司的一些财务数据等，这些是他的核心竞争力。他希望打造一个他私有的大模型系统，使用问答的方式来使用他收集的这些金融方面数据，但是考虑到数据的隐私和安全等，不可能使用公开的大模型。上图是以 PieCloudVector 为核心，帮助客户找到了这样一套私有的金融方面的大模型系统。首先这些文档使用模型进行提取，将特征存入向量计算 Vector 数据中，再通过架构和他的应用程序进行交互，然后可以使用问答的方式来使用金融数据，也可以使用像大语言模型系统。

πDataCS 的第三个优势是云原生 eMPP 计算引擎全面颠覆 MPP 技术，打造大模型数据计算新范式。这一优势是通过第一款计算引擎 PieCloudDB Database 来实现的。

虚拟机技术可以把一台物理服务器切换成若干台小的服务器，把它一台物理服务器的资源切换虚拟机，给不同的用户来用。同样我们希望把数仓资源切算成若干的虚拟数仓，然后交给各个部门来使用，提高硬件的使用效率。以上解释了为什么拓数派团队要对 PieCloudDB 打造基于云原生的 eMPP 架构。

PieCloudDB 是基于 eMPP 架构的数仓系统，实现了把元数据收集到元数据服务木牍当中，把用户数据存储到了简墨系统中，然后实现了存储分离的虚拟数仓，实现了元数据、用户数据和虚拟数仓数据计算之间独立的扩缩容。使用基于 PC 架构的传统数仓系统，数据和计算紧紧绑定在一起。可以对它进行横向的扩展，但是同时必须要扩展存储，也需要扩展计算，计算和存储不能进行独立的扩展。这种架构下需要缩容时操作很困难。通过 PieCloudDB 虚拟数仓，将一个个数仓打造成不包含任何数据而且无状态的计算平台。可以根据需要对数仓的计算能力进行扩缩容。

在实际的应用场景中，简墨系统可以构建在 S3 对象存储中或者 HDFS 和 NAS 中。

PieCloudDB 通过映射，让每一个业务部门自己拥有独立的一套数仓系统，使用起来与传统 MPP 数据库没有太大区别。但各个部门进行数据交换时，不需要再进行 ETL 操作，通过数据授权对元数据进行操作，将不同部门之间的数据映射给其他部门。在存储系统中，所有数据只存储了一份。类似前文交换保险柜钥匙来获得黄金，而不是真正进行黄金交换。通过虚拟数仓系统，可以降低硬件和管理成本。虚拟化可以提高硬件的使用率，提升数据资源的应用效率，再通过一些技术提高数据安全性。

为了实现虚拟数仓系统，PieCloudDB 完成了四大技术突破。

首先，PieCloudDB 实现了云原生存算分离架构：用户数据，元数据和计算三层分离，可进行独立扩缩容。第二根据云原生特点打造优化器达奇。云原生优化器负责根据部署 PieCloudDB 架构的特点来生成更优的执行计划，提高数据分析效率。第三是全新的数据存储引擎简墨，还有相关缓存架构设计，提高虚拟数仓访问数据输出的效率。第四是 eMPP 分布式技术，为传统 MPP 架构增加弹性，使虚拟数仓进行横向的扩容和缩容变得非常方便。

πDataCS 第二款计算引擎PieCloudVector，针对一些像金融、保险这方面用户，对数据的安全性要求比较高，需要打造一个自己私有的大模型系统。

把用户收集的数据或者是公有的数据，通过特征提取，创建一系列 embeddings，存储到向量数组中，再通过其他一些开源框架和大模型进行一个交互。相当于 PieCloudVector 为客户自己构建自有大模型提供存储底座。相对于其他的向量数据库，包括一些专用的数据库，还有传统的关键数据库有这些向量的插件。

相比这两种方案，我们这套系统有哪些优势呢？第一，使用专用的向量数据库，其他一些相关数据，例如存储在数据库中的关键型数据等，需要进行若干数据移动。传统的数据库在高可用或者扩展方面有缺陷。所以 PieCloudVector 集中了两方面优势，比较方便进行水平的扩缩容，第二个同时具有这两方面的优点，既可以存储普通的关系型数据，也可以存储向量数据。

第三款计算引擎是正在开发的新一代（大模型）机器学习 PieCloudML，在现有这些架构的基础上，通过新一代 PieCloudML，增加机器学习、图像数据处理等大模型系统提供更深一步的支持。

大模型数据计算系统，面向国内市场提供云上云版、社区版、企业版、一体机四个版本，满足企业不同业务场景需求。πDataCS 有三种部署方式。第一种直接部署在云上，第二种部署在客户现有的云平台，第三种是一体机系统，用户接上网线，插上电源可以直接使用。

拓数派一直秉持着“开放互信、合作共赢”的理念，致力于构建蓬勃的数据生态。πDataCS 也非常注重软件生态打造，注重与社区方面的合作。πDataCS 需要适配各种各样的云环境，所以需要打造强大的软件生态系统。拓数派团队针对不同的部署方式与龙蜥平台进行了全方位的测试，测试结果显示，龙晰平台安全稳定、性能优异。因此，我们确信，龙蜥平台可以支持 πDataCS 良好运行。除了龙蜥外，πDataCS 也完成了与其他主流软硬件平台的适配工作。拓数派将继续努力，打造完善的产品生态，为用户提供更安全稳定、高性能、易用的大模型数据计算平台。