a16z「门徒」Kuzco 实操指南二：从单兵作战到集群部署

Techub News2024-11-28 20:05:03

作者：J1N，Techub News

引言：Epoch One to Two

Kuzco 是一个专门服务 LLM 大语言模型算力挖矿网络，今年入选 a16z 于 9 月 9 日在纽约启动的 Crypto Startup Accelerator（CSX）秋季加速器计划，被该计划选中的项目会能获得 a16z 至少 50 万美元的投资，并会得到 a16z 运营团队的指导和支持。目前该加速器计划已结束。

11 月 16 日， Kuzco 宣布，第一期（Epoch One）激励计划将于 2024 年 11 月 18 日结束，所有操作将暂停，数据快照将永久存储，最终积分排名会公布在新排行榜上。

官方披露，Epoch One 从 2024 年 3 月 6 日推出，峰值设备数量超过 8000 台，该网络上运行 Meta 发布的 8B 规格的 Llama-3 AI 大语言模型，共计推理超过 1 万亿条 tokens。

并宣布在接下来的数周内公布融资信息和项目发展路线图，以及第二期（Epoch Two）激励计划将于 12 月 9 日开启， Epoch Two 将带来一些新特性，如更高的 NVIDIA 硬件的吞吐量与可靠性；鼓励用户接入顶尖算力设备如 A100 和 H100；支持更多的图像生成和多模态语言模型 VLM。

目前离 Epoch Two 开启还有半个月的准备时间，本文将探讨：

分享个人挖矿的实践与成果，从单机到集群的转变。
展示通过研究和实践获取融资，并搭建高规格机器的全过程。
探讨硬件配置与项目需求的匹配性，并解答投资者常见疑问。

Epoch One 回顾：单兵作战

配置

笔者的配置清单包括 RTX 系列显卡 2060、2070S、3080、4060、4060Ti，以及 4 张 4070S 和 2 台苹果 M2、M3 设备。这些设备分布在几台主机、笔记本电脑以及一台专用矿机上。

成本

值得一提的是，这些显卡原本就是笔者以往每年按游戏需求购置的，并非专为挖矿购买。因此，计算成本时并未将硬件购置费用计入，仅统计矿机的实际电费成本。这里拿第一篇《 a16z「门徒」Kuzco 实操指南：如何高效地进行 AI 算力挖矿？》组装的矿机举例。

该矿机配置：

主板：z490（后续换工业板）
CPU：10 代 I9
显卡：2060、2070s、3080、4060ti、4070s

手搓矿机

下图为该矿机 10 月和 11 月消耗的电量，一共是 564 度，获得积分（KZO Point）约为 6 亿分。所有的机器加起来约为 11 亿分。具体的电费成本需要根据各位所在地的电费情况计算，这里仅提供参考。

图最右，共获得 10 亿积分

筹备 Epoch Two：集群部署

基于笔者在第一篇文章中的分享，以及亲身参与设备组装、调试和环境部署的丰富运维经验，笔者成功争取到一定资金支持，并将其全部投入用于组装高性能矿机，以进一步提升算力规模和运营效率。

单兵手搓到集群部署

高规格机器的配置与选择逻辑

结合笔者在 Epoch One 中的实践经验，对主板、CPU、显卡、电源、平台以及网络配置进行了全面优化，选择了更适配的硬件组合，不仅提升了整体运行的稳定性、安全性和效率，还在硬件选择上更注重二手市场的流通性。这一策略能够有效降低的实际投入成本，为后续参与者提供更高的性价比选择。

主板

笔者选择工业主板而非主流的 B85，主要基于性能、稳定性和性价比的综合考量。

性能方面，运行 Kuzco 的 Llama-3 模型需要启动多个 Docker 进程，而并行运行这些进程会占用大量 CPU 资源，对 CPU 的性能要求较高，而 B85 所兼容的 CPU 无法满足这一需求。

此外，工业主板在长时间稳定运行、耐高温性能以及厂家保修方面具备明显优势，同时在二手市场上的流通性更强，因此无疑是最优选择。

显卡

笔者选择使用 4070S 作为主力显卡，主要基于以下几点：

AI 运算性能的优势：相较于 30 系显卡，40 系显卡在 AI 运算中的性能提升远大于在游戏性能上的提升。其核心原因在于 AI 算力主要依赖显卡的 CUDA 核心数量，而 40 系显卡的 CUDA 核心显著多于 30 系显卡。

能效比优势：笔者对多款 GPU 进行了详细测试，计算了每条 Tokens 的平均功耗

4060Ti（160W）：0.125 Tokens/W
3080（330W）：0.22 Tokens/W
4090（450W）：0.26 Tokens/W
4070S（220W）：0.38 Tokens/W

从测试结果来看，4070S 在性能与功耗的平衡上表现最佳，其更高的能效比直接降低了电费成本，使其成为性价比最高的选择。

二手市场的价格和流动性：作为中高端显卡，4070S 在二手市场具备较高的流动性和保值性，进一步降低了设备的持有成本，同时为后续的硬件升级提供了灵活性。

CPU

如前文所述，Kuzco 的 Llama-3 在运行时需要启动多个 Docker，这对 CPU 资源的占用极为显著，尤其是在多卡运行的情况下，CPU 占用率可能高达 80%-90%。因此，多核多线程的处理能力显得尤为重要。高性能、多线程、稳定的 CPU 不仅能够有效支持多任务运行，还能保证整个挖矿过程的稳定性和效率。

13 代 i5 满载跑显卡能去到 70% 占用率

网络环境

软路由为图中方块盒子

网络环境在挖矿中同样至关重要，即使配置了高性能显卡，如果网络未优化，算力也会受到严重影响。根据笔者实测，网速不足可能导致算力下降至 30%，而低质量的网络节点则可能直接导致无法连接至 Kuzco 网络，这两点对挖矿而言都是不可接受的。为了解决这些问题，笔者采用软路由方案，这种方式不仅便于配置，而且在完成设置后几乎无需人工干预即可高效运行，理论上还能够支持无限台设备的接入。至于具体的操作方式，建议读者根据需求自行查阅相关资料。

电源

经典长城 2000w 核弹电源

在选择电源时需要特别注意峰值功耗的问题，这也是为什么即使 7 张 4070S 的额定功耗仅为 1540W，笔者仍然选择使用双 2000W 电源，总功率达到 4000W。这并不是在浪费资源，而是出于对设备运行稳定性和安全性的考虑。

显卡在运行中会出现峰值功耗，即在某些瞬间其实际功耗可能达到额定功耗的 1.5 倍甚至更多，随后再回落到正常水平。如果电源功率不足以应对这种峰值，可能触发电源的强制停机机制，甚至导致显卡损坏。这对矿机的正常运行是致命的威胁。

4070s 运行功耗表现

以 4070S 为例，虽然其额定功耗为 220W，但峰值功耗可能超过 400W。7 张显卡的峰值功耗合计可能达到 3000W 以上，因此配置双 2000W 电源是为了保证机器的稳定运行。对于配置多张 4090 的用户尤其需要注意，单张 4090 的额定功耗为 450W，而峰值功耗可能高达 770W。多卡情况下，仅靠两个电源可能无法满足需求，此时通常需要三台电源来确保系统稳定。

4090 运行功耗表现

补充

至于 BIOS 设置、硬件兼容性以及远程管理等问题，笔者在此不作过多展开。这些内容在网上已有大量免费教程供参考，按照教程操作即可解决大多数问题。建议根据自己的硬件配置和需求进行针对性查阅和处理，简单高效。

风险与收益

回答大家最关心的问题：每天能挖多少钱？坦率地说，这个问题没有明确的答案，因为风险与收益始终是并存的。我可以分享一个明确的观点：无论是币圈还是传统行业，任何一个项目如果能够精确计算出每天的收益，那么你进去很可能已经赚不到大钱了。除非你拥有某些垄断性资源，例如极低的电费成本或非常便宜的矿机设备，这样才能在收益上占据优势。然而，这样的资源并非每个人都具备。

笔者选择流动性好的设备，正是为了降低投资风险和成本压力。以 Kuzco 挖矿为例，成本主要集中在硬件的折旧和电费上，因此你的最大亏损也仅限于这些固定成本。如果不是在低成本的前提下参与，那么任何投资决策都失去了意义。需要强调的是，挖头矿的特性决定了没有明确的收益预期，但这也正是头矿的潜力所在。

从主观判断来看，这个赛道有着巨大的市场前景：一方面，Kuzco 获得了 a16z 的投资支持；另一方面，LLM 大型语言模型的需求正在快速扩大。想想看，几乎没有人会不用 LLM 吧？像 OpenAI 的 ChatGPT、Meta 的 Llama、以及马斯克的 XAI，这些平台一轮接一轮的高额融资，清晰地表明了这个行业的增长潜力。

对于普通人来说，直接参与 AI 行业并非易事。一方面，AI 技术门槛高；另一方面，AI 模型的训练需要耗费巨量的资源和经费，绝大多数人难以承受这样的成本。而通过 Kuzco 加入 AI 算力网络，普通人可以在成本可控的前提下，轻松参与这个高增长领域，为 AI 算力贡献一份力，同时获得收益。

另外，比特币价格目前即将突破 10 万美元，从 2022 年的 1.6 万美元涨到如今的高点，其背后存在巨大的回撤风险。如果选择直接购买 AI 项目的代币，也会面临类似的高波动风险。相比之下，参与 AI 算力网络是一种更加稳健的选择：不仅成本明确可控，还能以相对低的风险切入 AI 行业的高速增长轨道。这是当前环境下，普通人进入 AI 领域实际可行的方式之一。

引言：Epoch One to Two

Epoch One 回顾：单兵作战

配置

成本

筹备 Epoch Two：集群部署

高规格机器的配置与选择逻辑

主板

显卡

CPU

风险与收益

热门资讯