语言模型在听到声音之前已经知道什么
在人工智能的研究团队中,有一个发现正在流传,表面上看似技术上的一个小好奇,但在它的表层之下,蕴含着创业融资的教训,许多人工智能创业公司的创始人尚未完全领会。
研究的发布在HackerNoon上,显示出仅用文本训练的语言模型——没有任何音频文件被使用——已经具有足够的内部表征,以预测专门音频模型的表现。换句话说:在连接任何声音编码器之前,语言模型就已经预见到了它的表现。音频知识在语言中是潜在的,隐藏在数百万段关于音乐、声学、耳科医学和对话的转录中。
对于工程师来说,这无疑是令人着迷的。然而,对于一位拥有十二个月运营资金,并且承诺“下一代音频人工智能”的创业公司创始人来说,这显得更加紧迫:这表明她即将燃烧掉的训练基础设施资本可能不再是瓶颈。
你已经支付的知识
在人工智能产品开发中,传统逻辑一直是线性且昂贵的:你需要音频数据来构建音频模型。这意味着需要标注团队、数据集许可、专用计算基础设施,以及可能延续数周的训练周期。在一个客户未支付的情况下,每个阶段都在烧钱。
这个发现所证明的是,这部分工作已经被完成,并且集体由训练大型语言模型的科技巨头付出了成本。声音的表征——其结构、模式及与人类语言的关系——已经存在于这些模型中。创始人的任务不是从零开始构建,而是学会如何询问已经存在的知识。
这对在音频、语音识别、声学情感分析或声音合成领域运营的任何创业公司的成本架构都将产生直接影响。如果基础知识已经可用,作为共享基础设施,那么构建产品初版的边际成本就会大幅下降。较低的初始成本意味着,从第一次销售(唯一使创业公司变得真实的事件)到实现的时间可以从几个月缩短至几周。
但是,这有一个陷阱:许多创始团队仍会投资于复制已经存在的东西,因为自己的训练过程对投资者具有强大的叙事吸引力。“我们的模型”听起来比“我们使用现有的东西并在其上构建”更好。这是一个可能对公司造成损失的定位错误。
人工智能创业公司与补贴实验室的区别
我常常观察到的一个模式是在人工智能创业公司中——尤其是在音频等技术垂直领域运作的创业公司——即研究与业务之间的模糊。它们建立密集的数据科学团队,累积基础设施的技术债务,并通过“当模型准备就绪时,客户自然会来”的承诺推迟销售时机。
这不是一家创业公司。这是一家消耗风险资本的实验室,希望能在资金耗尽之前被他人收购。
关于语言模型中潜在音频知识的发现恰恰朝着相反的方向。如果70%的技术知识已经存在于公共或商业的预训练模型中,那么智能创始人70%的工作并不是技术性的问题,而是分销、理解客户和设定计费模型。
一家在现有知识基础上构建的创业公司可以在小团队中推出其产品的功能版本,在第一个月就可以收费——即使是以较低的价格来验证支付意愿——并使用这笔现金流来资助后续迭代。这不是屈就于小规模;这是确保产品影响力在融资危机中得以存活的唯一财务架构。
另一种选择——等待完美的模型、专有数据集和自有基础设施——则是在赌注全押于一轮可能不会到来的资本,或者得到的条件会稀释控制权到创始人不再能做出重要决策的程度。
没有人审计的隐性资产
还有一个分析层面,我觉得对于在接下来的几年中评估技术预算分配的领导者同样重要。
如果语言模型已经包含可用的音频表征,那么这些模型内积累的价值远超市场所标价的。已经通过API或许可支付使用这些模型的公司,正坐拥一个能力尚未被完全映射的资产,而那些假设必须从零开始构建音频产品的公司,则是在桌子上留下钱。
对于CFO而言,这应该转化为一个内部审计问题:我们正在支付开发的能力中,有多少已经存在于我们已签约的工具中?在大多数中型组织中,答案是重叠显著,但没有人去衡量。
这并不是反对深度技术创新的论点。它是反对将深度技术创新作为商业验证替代的论点。语言模型中潜在的音频知识提醒我们,人工智能经济中最有价值的资本并不总是注入在下一轮的资本中;有时是那些已经支付却尚未被充分利用的资本。
生存下来的模型不是最强大的,而是最早收费的
关于语言模型中音频知识的研究,归根结底,是效率积累的证明。知识被转移、被重用、被层层构建。在采用这种逻辑的创业公司——基于已有构建,减少每次迭代的可变成本,在完善前就先收费——具有结构性优势,相比那些坚持重新创造基础设施的公司。
创始人和领导创新的C级团队面临的架构决策也是道德决策:可以利用现有资本复制已存在的东西,并维持有利于金融中介的融资循环,或者可以将同样的资本作为分销燃料,更早进入市场,产生使其产品独立于下一个融资轮的现金流。一家依赖客户支付融资的公司,对其客户是唯一的责任。这是唯一一种在不请示的情况下实现影响力的方式。









