非小号

23386

虚拟币

116

交易平台

64

钱包

¥7.17

USDT场外

65.2088%

BTC 占比

9Gwei

ETH Gas

资讯
行情
资讯 > 正文
Codatta 为何而生:构建 AI 的知识协议层
ChainCatcher2025-06-24 21:00:00

理解 AI 的数据基础

Figure 1: Classical Software System (Human-driven) vs. AI System (Data-driven)

AI模型通过数据学习识别模式、进行推理并解决新问题。与依赖显式规则的传统软件不同,生成式AI(大语言模型)通过海量数据集和输入-输出样本驱动AI系统。

基于工业届的实践经验,约80%的AI工程投入集中于数据环节——包括管道构建、清洗和预处理——而非算法开发。高质量、高知识密度的数据至关重要。随着大语言模型的发展,对专业化知识和推理数据的需求显著增长,而基础标注需求则随着基础模型能力的提升而降低。

生成式 AI 时代:数据角色的进化

Figure 2: AI Model Development Stages: From Foundational to Vertical AI

在生成式AI时代,数据的作用正在发生根本性转变。传统标注数据的重要性正在下降,而高质量、高知识密度的数据需求呈现爆发式增长。AI模型的训练通常分为三个阶段:首先是基于互联网数据的预训练,建立基础认知能力;其次是使用人工标注的偏好数据进行精调,优化交互体验;最后是通过强化学习生成合成数据,提升模型泛化能力。

然而,《自然》杂志等研究表明,合成数据存在明显局限。过度使用会导致"模型崩溃",严重影响输出质量。这凸显了真实数据的关键价值。随着基础AI能力的提升,专业领域应用越来越依赖人类专家提供的优质知识数据。这些由人工生成的高质量数据,在模型微调和效果评估等关键环节仍然不可或缺。

用版税激励重塑 AI 数据生态

AI开发者(尤其是初创公司)在获取优质专业知识数据时面临高昂的初期成本。传统采购方式需要大量初始投资,导致关键的人类智能数据难以获取,从而延缓AI创新进程。

领域专家为AI系统提供关键知识,其专业见解可能使AI取代专家自身的工作。然而,他们通常只能获得一次性报酬,且金额往往不足。这种激励错配不仅打击专家积极性,更引发了AI利益分配的公平性问题。

Figure-3 Comparing GenAI Business Models

Codatta通过基于区块链的数据资产化版税支付模式解决这一问题。该方案为开发者免除预付费门槛,使其通过收益分成获取高质量数据。通过将报酬与长期收益挂钩,Codatta既降低了创新壁垒,又为专家构建了可持续的激励体系。

数据贡献者将获得共享所有权,并从使用其数据的AI应用中持续获取版税——这种模式类似于投资AI初创企业。基于这类资产的特殊属性及其价值创造潜力,相关权益还可通过交易实现流动性,灵活满足收益变现需求。这种收益机制与数据影响力同步增长的长期收益机制,既真正体现了专业知识的价值,又在公平性上远超传统的一次性买断模式。

从数据到资产:链上版税支付实践

Figure-4: Codatta's Data Assetification Framework

该图展示了 Codatta 数据资产化和版税分配的核心机制。左侧显示的是数据贡献(X、Y 以及知识点 KP0、KP1、KP2、KVO、KV1)与内容哈希值一起提交到链上,而加密的数据有效载荷则存储在混合存储解决方案中。右侧描述了专门的人工智能模型如何利用这些数据,为客户提供推论。重要的 “数据归属 ”模块可跟踪价值贡献,从而根据使用情况和影响公平分配版税。

为实现数据资产化,Codatta构建了三大核心支柱:基础设施、社区和激励机制设计:

  • 隐私保护的透明性:

我们的系统通过区块链记录所有数据贡献,创建关于来源、归属和所有权的永久可验证记录。所有数据资产均采用加密存储(支持去中心化与中心化混合架构),在保障商业价值的同时确保公平的认可和版税分配。Codatta通过智能合约将知识转化为可追溯,可产生收益的数字资产。

  • 人类贡献者与专业AI的协同网络:

我们在透明、声誉驱动的系统中同时利用人类专家和AI。AI处理初始任务(追求速度/规模),而人类则用专业洞察优化输出。这种双层方法正成为行业标准。Codatta进一步扩展这一模式,允许人类扮演多重角色:知识提供者、验证者或资金支持者。每个角色都公开可见,并与动态声誉系统关联,从而鼓励质量和责任感。

  • 可编程激励模块

数据交互(采集、验证、改进)与定制化奖励挂钩。智能合约自动分配版税、声誉或质押的激励,确保基于数据价值的公平报酬。这些模块采用估值和归属算法,在训练和推理过程中分析知识影响力。它们能适配不同数据类型,优化长期公平补偿,推动可持续知识经济的发展。

这三大支柱——加密存储的链上透明性、人机混合网络及可编程奖励机制—共同构成了Codatta的数据资产化框架。该系统将知识贡献转化为安全可追溯的数字资产,通过持续产生版税收益,在人类智能与可扩展、可持续的AI发展之间架起桥梁。

开放设计:连接传统 AI 与去中心化智能

Codatta是一个灵活的知识网络,桥接去中心化AI(Decentralized AI or DeAI)与传统Web2/Web3人类智能服务。针对传统数据标注场景,Codatta可作为MTurk/Scale AI等平台的高质量后端,通过支持法币/稳定币支付,使传统服务能访问其专家网络获取高阶知识数据。这让传统平台无需应对Web3复杂性即可享受区块链级验证与质量保障,实现即插即用。

在DeAI技术栈中,Codatta专注于数据策展——这一关键的首步环节。我们认为区块链最适用于DeAI中的贡献者身份认证、数据/模型验证、溯源追踪和使用监测。我们的设计将繁重的计算/存储任务卸载到中心化基础设施以提高效率,同时通过去中心化系统确保透明度、可追责性和公平的价值分配。这种混合方法在保证可扩展性的同时维护了完整性,构建起可信的AI数据供应链。

通过连接中心化和去中心化生态系统,Codatta致力于构建更公平、更高性能的AI系统——在这里,人类贡献者得到认可,数据完整性受到保护,激励机制与长期价值创造保持一致。

附注:Codatta的旅程从Microscope开源项目的开启(与Coinbase、Messari、GoPlus合作),现已发展为面向生成式AI的通用人类智能平台,并致力于成为AI开发者的基础支撑。其旗舰产品加密账户标注系统(CAA)已实现:覆盖35条区块链网络, 标注4,600万个高风险地址, 完成5.6亿次标注(涵盖95个类别, 由10万 贡献者共同构建) 当前业务已拓展至评估、电商、医疗健康及健身等多个领域,并制定明确发展路线图,2024年:覆盖100 知识领域,汇聚30万 贡献者; 2025年:实现协议完全去中心化 2026年:完成全面数据资产化,使每个知识贡献都成为可创收的资产。