Jina AI创业复盘：AI团队的Scaling Law是什么

显示全部楼层

“满分 10 分，我给这六年打 7 分。”

没有吹嘘，也没有谦虚。

从创立到出售，差两个月满六年。2025 年 10 月，肖涵把 Jina AI卖给了美国上市公司 Elastic（NYSE: ESTC）。他率领核心团队加入 Elastic，并担任 VP of AI。

六年里，AI 技术的发展速度快到令人窒息：微服务架构失宠，ChatGPT 重塑行业，大模型你追我赶，RAG几度生死轮回，模型的半衰期仅几个月。不跑着，技术资产半年后价值归零。

他跑了六年，中途 Pivot 两次：砍掉分散精力的项目，裁撤一半的员工，离开欧洲，重心移向硅谷，All in 搜索底座模型。他说：“当没有壁垒时，极致的聚焦和近乎独裁的执行力，就是唯一的壁垒。”

他说这是一场鱿鱼游戏。他活到了最后，但不是没有遗憾。

与此同时，我也在这家公司经历着自己的三年。

我叫张飒，2022 年入职 Jina AI，负责产品运营。上个月随收购从北京搬到新加坡。作为毕业后的第一份工作，Jina AI 是辆刹不住的车。兴奋、疲惫、彷徨、庆幸，四挡双离合。我见过老板凌晨三点还在提交代码；也记得团队围在一起为第一笔 10 美元击掌相庆；更熟悉那种刚备好的物料因战略调整而作废、刚记牢的卖点因产品迭代要推翻重来的无奈。

后来模型被市场认可了，收购消息落定了，我才明白一件事：当时我眼里的折腾，其实是老板在 AI 浪潮里的求生动作。

以下是我和Jina AI 创始人肖涵的一次长谈，关于他六年创业的得与失。

张飒：六年来，您给这段 Jina AI 创业经历打几分？满分 10 分的话？

肖涵：我觉得 7 分的样子吧。

从 2020 年疫情期间开始，我从零组建一个团队，经历了不少波折，到 2025 年 10 月份成功卖给一个美国上市公司。这段创业经历算是我到现在为止比较自豪的事情，第一次创业就成功退出，也让一直跟着我的团队有了一个比较好的出路。不过多少在一些事情上还是有些遗憾。

张飒：六年算长么，您觉得？

肖涵：跑的时候其实没感觉，跑完停下来才发现嚯跑了这么久。

张飒：关于 Jina AI您最早的记忆是什么？

肖涵：记得 2019 年圣诞节前，我在深圳海岸城那边一个酒店行政酒廊里和投资人第一次 pitch(路演)，后来在上海安福路上的 Costa 咖啡厅里，修改 PPT 去给 IC(投委会)讲。这大概是我关于 Jina 最早的记忆。

张飒：其实我一直比较好奇，Jina AI 这个名字是怎么来的？

肖涵：我当时是想找一个人工智能的名称，像钢铁侠里 Jarvis 的那种，但同时要满足几个条件：

一是要感觉中性化、女性化一些，更加有亲和力、少一些侵略性。第二是要让这个名字在各个语言中读法都大致相同，三是 SEO 要比较好做一些。

当时 shortlist 里几个名字，最后选择了 Jina，简单、好记也好读。感觉像是 Jarvis 的女友一样。另外当时做 SEO 的时候发现 Jina 这个名字只有一些韩国人在用，所以觉得 SEO 做起来也比较容易，可以很轻松的排在 Google 搜索的前面。

中文名称我叫做极纳，意思是“极深研几”、“海纳百川”，算是搜索和索引擦上边，同时“极客”也是我们公司文化的一部分。

张飒：Jina 从 2020 年成立到现在，我们做的事情都有哪些？我有些朋友很早关注 Jina，更多朋友最近两年才关注 Jina，感觉大家对 Jina 的认知并不相同？

肖涵：是的。我们中间有过几次 pivot 也就是“转型”，但总体来说都是围绕 Neural Information Retrieval 这个大的主题中做上下游调整。

2020 年 2 月成立到 2023 年 2 月我们一直在做一套软件框架，帮助开发者去更快的实现语义搜索。角色上有点像 Elasticsearch 和后来的 Langchain，LlamaIndex 这些，聚焦在工具链、糖水代码和脚手架上。

2023 年是我们比较混乱的一年，因为 2022 年 12 月 ChatGPT 的发布，我当时察觉到之前做的框架不再被社区关注。那时公司内部连续开了好几次全员会，讨论接下来该做什么。

所以在 2023 年一年里尝试了两个不同的新方向：一个是走 Wrapper(套壳)路线，通过构建 prompt-based 的生产力工具，我内部称为 Thin Strategy。还有一个方向是走 Search Model 的路线，从训练自己的 Embedding 向量模型开始，夯实搜索的基础技术，我称为 Fat Strategy。

2024 年 2 月，我停止了所有的 Wrapper 路线的推进，一股脑地押在了搜索模型的研发上，并重塑了新的叙事逻辑：Search Foundation Models（搜索底座模型）。这就是今天大家所看到的 Jina AI——从多语言到多模态，前后四代共 20 个向量模型、重排器、Reader 等搜索侧小模型，14 篇会议论文，HuggingFace 上每月五百万次的下载量以及 API 上每天超 200 billion tokens 的用量。

张飒：所以 2023 年是对 Jina 来说重要的一年？

肖涵：是的，2023 年还有 2024 年年初，这两个时间点现在回顾起来都非常重要。

2023 年的那一次转型意味着放弃之前的软件框架性工作，完全重新审视 ChatGPT 和 Gen AI 对于搜索业务的影响。这个对于公司花了两年多构建起来的技术栈和文化是一次比较大的冲击，内部从上到下也有很多人不理解为什么不继续坚持下去。同时还要去努力想新的出路。

不过 2022 年年底 ChatGPT 的发布对于整个软件业都应该是一次比较大的冲击，基本重新定义了 AI 业务。所以如果有初创公司说我在 2023 年没有任何反思和焦虑我是不相信的，除非你不读新闻，不闻窗外事，否则很难不对自己所做的工作的价值有所怀疑。FOMO （错失恐惧症）是我们 2023 年挂在嘴边最多的词。

2024 年 2 月那次转型是需要为向量模型、重排器等找到一个统一的叙事逻辑，从而实现公司产品线上的聚焦，所以也非常重要。

张飒：2023 年之前 Jina AI 创业一开始做的那套搜索框架是什么呢？

肖涵：我们公司是 2020 年起来的嘛，2020 年当时很流行 Microservice + Orchestration 这一套云原生的技术栈。所以我们当时用 Python 实现了一套相对完整的微服务部署框架，可以使得多模态搜索中涉及到的每一个模块，比如向量化、预处理、打分、索引等等都可以被微服务化及自由的扩容。

当时围绕着这个理念开发了很多开源软件，比如 DocArray 等，相当于后来的 Pydantic，让用户设计自己的多模态文档结构以方便搜索。还有一些 Docker 容器化的实现，后来也有被 Replit 的一些设计所参考。

其实早在 2021 年我们也有涉及到一些模型层面的研发，不过主要是围绕 BERT，CLIP 这类模型的微调框架，叫 Finetuner，内置了一些简单的微调策略和 Training loop 的实现，以糖水代码为主，最终效果并不保证。功能和定位上有点像今天的 SentenceTransformers 那个库。

2022 年年底前我们所有的工程项目，试图去囊括整个 AI 搜索的 Ops。靠开源社区的增长计算 ROI，纯研发零收入，用爱发电也是当时很多商业化开源软件初创公司的早期打法。

不过总体来说这套框架在 2022 年年底的社区增长开始停滞，我自己也用的越来越少，2023 年之后基本没有再用过这些框架实现任何东西。当时察觉到社区更需要一种轻量级的搜索开发体验，方便大家替换 LLM、迭代 prompt 和 Vibe 测试 RAG 的输出，所以像 Langchain, LlamaIndex 这种就在 2023 年初就非常受欢迎。

张飒：那您后来用过 Langchain, LlamaIndex 开发么？

肖涵：没，一次都没。

我自从在 2023 年否定了我们公司自己的框架之后，我就对所有胶水和糖水代码丧失了兴趣，也不看好任何框架。尤其是站在 2025 年的今天去看，当大部分代码都可以用大模型直接生成时，学习那些胶水代码和 Opinionated Framework 的必要性也没有了。

说白了，除非这些框架和硬件特性强绑定，比如 Google SDK 和谷歌云绑定，CUDA和英伟达的 GPU 绑定，不然对于开发者来说，完全没有必要去花时间学习一个中间层，无论这个中间层的作者是网红还是谁。

张飒：您说 2023 年的时候曾经尝试了两个不同的新方向，为什么选择最后做模型呢？

肖涵：我们当时内部分成两组：一部分人在做基于 Prompt 的 AI 的生产力工具，涉及到很多有意思的 Prompt 工程技术。我当时的想法是通过 UI/UX 的方式去呈现一些生产力 API。同时这也第一次开始尝试商业化和营收。我当时带着团队花了不少精力在这些 Webapp 里去嵌入 Paywall，设计 Stripe 支付 API 和用户转化漏斗等等。当第一次看到 Slack 里提示 10 美元收入到账，大家都非常兴奋。

我记得我们当时一年做了有五六个 App，虽然这些后来全部被我砍掉了，但是这段商业化的经历和对 Token Economy 的初探对于我后来在为模型设计 Paywall 有不少借鉴和启发。

2023 年我们在迷茫期做的 5 个 Gen AI 向的 Web 端应用，旨在通过 Prompt 提高生产力。这些 App 多少带来了新生用户和营收，不过在 2024 年都被一股脑砍掉了。

之所以后来没有继续做这个方向，主要是发现公司内部的基因不太适合做带有 UI 的产品，大家虽然是在每天开发，但每天去用这些 App 的基本没有。我觉得要做到一个好的 App，UI/UX 的设计和细节非常重要，因为它承载了产品的叙事逻辑。如果自己开发的 App 自己不用，那么很多设计和逻辑问题就很难被发现和优化。

总而言之，ToC 端 App 的基因和文化在我们公司并不存在，这个和我们招聘对象有关。

第二就是这些 App 虽然多多少少有些营收，但他们之间缺乏一个统一的叙事逻辑。因此从外面看来感觉非常散，弱化了 Jina AI 这个品牌形象，对于一个 startup 来说这是非常致命的。

张飒：您选择了模型这条路而砍掉 Wrapper Apps 这条路，这个决定在内部执行起来是不是很难？

肖涵：有不少阻力。

一方面，Wrapper Apps 这边开发迭代速度快，还各自带着一定营收，对于一个没怎么接触过商业化的团队来说是一个鼓励和教学作用。但问题在于 Wrapper Apps 之间缺乏统一叙事逻辑，看上去像是打一枪换一个地方。

另一方面，模型侧讲究慢工出细活，开发速度要比Wrapper Apps慢很多，所以两个团队在文化和节奏上很不同。我们在 2023 年 10 月份开源的jina-embeddings-v2因为其8K 长文本和比肩OpenAI text-ada002的性能在 Hacker News 上一夜爆火，出乎我的预料，同时也给了模型团队很大的信心。

2023 年末我们公司的一个宣传单，可以看到 Embeddings 的产品线已经初成，但我并没有完全转向模型，而是仍然在推广 PromptPerfect 和 SceneXplain 这两个 AIGC 的 App，原因大概有二：一是搜索底座模型的叙事逻辑尚未形成，二是 AIGC 的有一定营收舍不得放弃。

但同时维护两个方向对于一个初创来说并不是一个好故事。最终在 2024 年 2 月，在我到了美国湾区之后，决定完全停止 App 的开发，重新整理团队，优化人员从而完全聚焦在模型层的研发。

那几个月里，我把公司从 60 多人砍到 30 多人，网站上移除了所有 App 的信息，目的只有一个：聚焦。

张飒：从外部看来，感觉 Jina AI 从 2024 年起像变了一个公司，所以您觉得是因为什么呢？是因为您在美国的原因么？

肖涵：我会说从 2024 年起 Jina AI 变得非常lean & mean, based, no bullshit。

有了之前 2020-2022 年框架没人爱，2023 年的 App 过于分散的教训，我意识到初创公司的叙事逻辑非常重要：框架有 Bug 可以改，模型落后了可以追，App 活跃度下降了可以营销，但如果整个公司缺乏一个清晰的叙事逻辑，那崩溃就早已注定。而且逻辑越简单越好，不要搞什么二阶高阶逻辑。

这其中有不少我在美国湾区时受到的影响和反思。这也离不开 2023 年圣诞节时我看的几本书：Richard Koch的《80/20 法则》，Al Ries的《22 条商规》和Richard Sutton的《苦涩的教训》。

我意识到公司需要从内到外实现一次重新的聚焦，要去除掉 80% 的方向、管理、人员、营销去认真寻找那最关键的 20%。在湾区时我走访了很多优秀的初创公司，对于他们非常 lean 的团队文化也非常有感触。

再加上整个湾区 2024 年初开始在 Elon、Trump、Peter Thiel 还有 Marc Andreessen 的影响下，文化上已经开始偏右和加速主义，我记得当时在湾区听得最多的一个词是e/acc (有效加速主义）。整个 24 年我还特意把这个 e/acc 作为我 Twitter 和 Slack 的签名档，提醒自己不要被一些虚头巴脑的东西所拖累和浪费时间，要专注有效的创新。不过在 2025 年的今天提 e/acc 词的人要少了很多，估计是大家已经被加速到麻了。

总而言之，从 2024 年以来，我就在公司组织上把架构压到最扁平，去除掉所有的 message-passer 和无效管理层，全员 Heads Down 和 Hands On。

我的目标是把 Jina AI 重新打造成一个搜索领域的 Premium Brand，比如我们要坚持慢工出细活，每发布一个模型的同时要发表一篇学术论文；在研究的静默期，用高质量的 Blog 去代替一些短平快赚噱头的网络营销。

张飒：可是训练模型容易么？应该比做应用更难吧？

肖涵：确实难，所以做的人少。

尤其是当我们聚焦在高质量的搜索小模型上时，其实竞争对手就变得非常清晰了：Voyage, Google, Cohere, Mixbread, Nomic AI 基本就这么几家。

Voyage 和 Cohere 都是闭源模型，Google 和 Cohere 又在想打大模型的仗所以没有 100% 聚焦在搜索小模型上。Mixbread 和 Nomic AI 社区相对比我们小一点，但也提供非常优秀的开源向量模型和重排器。

我觉得理清竞对关系很重要。初创公司绝对不能逃避和害怕竞争，而要直面竞争。但上场前一定要选对竞争对手，不然瞄准错误的对手一顿疯狂输出，完全是浪费精力。

从开源社区的角度，千问团队也算是竞争对手之一，他们今年出的开源的qwen-embedding和qwen-reranker在开源社区中对我们有不小影响。虽说千问并不靠这些模型来赚钱（而我们靠），但在开源社区中还是从我们这拿走了不少关注度。无论是千问还是北京智源的 bge，对我们属于亦敌亦友：有竞争，也有很多被我们学习和借鉴的地方。

张飒：既然千问也可以做向量模型，Gemini 也可以做向量模型，那 Jina 这种专注从零到一做搜索小模型的公司和大模型公司相比优势又在哪呢？

肖涵：我一直信一句话：当一个公司没有任何的上下游供应链优势和技术壁垒时，唯一的壁垒来自于其自身高效的运营。这就是我悲观的“壁垒底线”：如果我们什么都不行，那么就通过最大化聚焦和近乎独裁的管理方式让团队跑步前进。

我已经准备好了最悲观的打法，但实际情况也没有那么悲观：

第一我们多年以来积累了不少高质量的标注数据，团队内部有不少欧洲人，所以对于欧洲多语言召回模型的手工评测和标注有比较多的积累。

第二我们有不少的客户群体，这其中包括 Jina Reader 带来的将近 1 万大大小小的付费客户，他们每天贡献了将近 200 billion tokens 的 API 使用量，每天我们收到不少付费客户的反馈和建议，都有效的帮助我们改进模型性能和 API 设计。

第三就是多年来在搜索模型训练上的经验积累和对技术进展的敏感度，知道什么时候该 early stop，什么时候该深挖进去，最近有哪些新技术方向，有哪些是噪音。

我觉得今天一个模型的“半衰期”差不多是五六个月，也就是说每半年这个模型的价值就减半。一年后这个模型基本就没啥应用价值了，会有更好的模型取代它。所以这个竞争优势也是一个动态变化的过程。

我觉得争第一固然很重要，能争到第一是最好的，但Be always part of the game 不放弃，也非常重要：比如我 24 年给团队定的目标是当“百事可乐”，当行业老二，让人记住先。

最后一点对于很多技术人员来说可能有点玄乎，就是模型的调性和品牌价值。在模型日新月异的今天，培养用户在品牌上的忠诚度就非常重要，这就是品牌价值。而简单来讲，品牌价值 = 技术 + 营销（比如技术博客、学术论文）+ 客户体验（网站、API）。

比如很多人都说保时捷卡宴就是换壳的大众途锐和奥迪 Q7，因为底盘都差不多。可大家还是喜欢保时捷多一些，因为多年来保时捷偏向运动的底盘发动机调教风格，以及其宣传下的赛车血统的传承和稀缺性。

Open red publication "ReSearch" volume 24 displayed on a white surface with a distinctive shadow casting over the pages.

2024 年年底我们发布的年刊《Re·Search》，意在 Rethink Search，也有 Research 的意思。其中精选了我们 24 年发表的技术博客。这本“小红书”因为其设计风格和扎实的内容给用户留下了很深刻的印象，也强化了 Jina AI 品牌的调性。

张飒：2024 年秋天我记得当时您接受 Paperweekly 有篇采访是关于搜索小模型的未来，您觉得那些观点今天还适用么？

肖涵：那是去年九月份的吧，到现在一年多，其实大部分仍然适用。

比如我当时说小模型并不是天生小，而是从大模型中蒸馏和剪裁出来的，这就意味着那些大模型厂商如果做起小模型会有不少优势，因为他们知道原厂模型的 vibe，该剪哪裁哪。结果今年就应验了，千问和 Gemini 果然就这么做了。

和去年那篇观点不同的是，在 Agentic search、DeepResearch 这种 2025 年新的设计模式的影响下，很多传统的向量召回模型（包括重排器）的使用场景发生了变化。

之前这些召回模型更多的是面向数据库的 I/O，动辄数百亿的量。今天可能更多的是被当做小工具在上下文窗口中做 Context Engineering，比如去重、过滤、压缩 token。这就需要模型的参数量更小速度更快，也需要模型在一些之前被忽视的任务上（比如 STS 任务，专门为去重）去做优化。

张飒：我们聊聊这次收购吧，最开始您是怎么接触到买方的？

肖涵：我应该是 23 年底第一次和 Elastic 合作。当时他们看到我们的jina-embeddings-v2不错，想做个 API Integration，我们就共建了个 Slack Channel 开始互通。

24 年我来湾区后，在他们三番办公室见了他们的管理层，随便聊了聊工作生活的话题。今年夏天在美国时，又和他们的管理层聊了不少次，在三番办公室里给他们的创始人、CEO、CPO 等做了几个小时的演讲，觉得相互之间的技术都高度互补，Elastic 的高层对我个人非常友好和信任，于是就开始了这个收购案。

总体来说，前期铺垫、信任基础、方向互补和一定的运气都是促成收购非常重要的条件。

张飒：其实我们很多人对收购没有概念，您能简单讲讲这个过程么？

肖涵：收购非常复杂和繁琐，尤其当买方是美国上市公司，法律规范非常多，真是收购一次掉层皮。一般来讲，这种收购是需要请一个专业投行 M&A 团队去操作，我却比较 lean/吝啬，完全靠自己“手搓”，结果还真搓了出来，也算是一段难忘的经历。

对于 Jina AI 而言，这其中包含很多的复杂的因素，包括美国和中国之间的地缘政治（当然还有德国），多个买方之间的博弈，买卖两方的博弈，投资人之间的博弈，还有内部员工之间的博弈。而且由于买方是上市公司，所以收购时间线上还和他们的季度财报和 Analyst Meeting 的举办绑定。

所以从我 7 月份签署 LOI (Letter of intent) 到 8 月份准备 data room 做 SPA（股权收购协议），到 9 月份去开始协调 SPA 上各方签署，签署完要马不停蹄的执行交割先决条件，员工或 Relocate 或重签 Offer，再到最终 10 月份在美国纽约的官宣。这几个月来我和我的律师殚精竭虑、跨时区一天好几个会议的沟通，当然买方律师也是一样。其实直到今天，仍然有不少 Post Acquisition 的工作在做，主要是因为 Jina 这几年来在多个国家设有办公室，所以需要一个一个处理。

总体而言，我觉得 Jina AI 从架构上 Overengineer 了很多，我们一个不到 30 个人的公司，因为公司架构设计得过于复杂，导致收购起来跟买一个几百人的跨国公司似的。

然而最累的是处理在收购过程中展现出的一些人性问题，在巨大的时间压力下我一个人代表公司去和内外多方博弈，也是我多年以来承受压力最大的一次经历。

张飒：所以您觉得 Model as Product 的公司的终局就是被收购么？

肖涵：差不多。要么 pivot 去做产品和应用。要么去做通用大模型去拿融资去上市。

如果只是做特定领域的小模型，比如搜索，无论是 Voyage 还是 Jina，其实最终都走到了被收购这条路。原因也很简单：小模型的人才不比大模型人才便宜，毕竟我们要做的是顶尖的小模型，所以人才的钱不能省。现有的 token 计价经济还不足以支撑 GPU 上的推理成本，所以利润很薄。

现在回看 24 年年初当我大刀阔斧的砍掉 App 专注小模型时，在那一刻，Jina 的终局也就收敛到被收购这一条路上（当然还有倒闭这条路），剩下的就是留给我的时间和能否成功的问题。

如果刻意的不暴露营收（因为一旦暴露营收那么估值就基本定了），那就只能通过把故事讲大去拿融资。可是小模型的故事就讲不大，就如同街边麻辣烫和海底捞，小模型就像麻辣烫，一下班很多人在那买。不是说他没市场，投资人也知道街边麻辣烫香，但投资人还是喜欢投海底捞（大模型）。

张飒：既然终局是被收购，那您做收入又有什么意义呢？

肖涵：收入还是要做，我觉得有几点。

第一就是 PMF 的验证，看看市场到底需不需要这类模型，以及在竞争中是否可以脱颖而出。2023 年之前我们曾追踪过很多社区指标，包括下载量、Github 关注度、社交媒体讨论度等等。后来发现这些指标大多捕风捉影，和 PMF 弱相关，完全没有真金白银来得实在。毕竟用户说你好给你点个赞是一回事儿，肯花钱买你的模型是完全另一回事儿。

第二点是培养团队对 Token Economy 的理解：训练时的语料一共是多少 tokens，每个 batch 是多少 token，推理时 token/s 是多少，最大 token 长度是多少，用户输入的 token 中位值是多少，第一个 token 返回的时间是多少，每分钟允许请求的最大 token 数量是多少，多模态如图片时怎么计算 token 才合理。只有当公司里每个人对这些数据手到擒来，才能明白token 的价值到底是多少，整个模型的训练、推理才能更加高效和专业。我们 2024 年初刚开始做 Model API 的 Paywall 时，很多人对免费 Token 的数量和定价完全没有概念，内部曾说免费送十万的 Token 太多了，用户根本用不完。这就是缺乏对 TokenEconomy 的理解。如今我们每个新 API Key直接送一千万的 Token，保证了用户在进行多模态图片输入和长文本输入时的消费体验。付费阶梯也根据多次优化和重新设计，从而保证推理服务的利润率为正。

最后也算是我的一点个人的坚持，我觉得既然是创业做公司，那目的就是要盈利。烧投资人的钱发工资并不是一个特别值得骄傲的事情。我既然把公司转型到了 Model as Product 的模式上，那我就希望竭尽所能的去探究这个模式的极限在哪，它的实际利润到底如何。如果一个团队仅仅是为了纯做技术和社交媒体上的影响力，那还不如在高校里做。

张飒：那您觉得这几年来，您在 Jina 做对了什么，又做错了什么呢？

肖涵：现在回头看，我做对的几点包括：

从第一天就构建一个国际化的团队，这对 Jina 在后期的人才招聘、市场和收购案上都奠定了一个比较好的基础。

第二就是身先士卒，事必躬亲。我几年来在 Jina 写的代码数量应该是所有员工里最多的。我曾在内部开玩笑的说，如果哪天 Jina 倒闭了，那绝对不是因为 CEO 写代码太少了，而是因为写代码太多了。

其实无论是工程研发还是商业化、市场运营、销售客服这些事情我都会亲身参与进来。我觉得无论多少年，创始人必须要保持一个最大的热情。如果一个公司的创始人每天开始打卡躺平，无所事事，那公司就彻底玩完。

在商业化的探索上，我从 2023 年的零收入开始一点一点做起，到被收购时做到两百万美元的 ARR，作为一个纯 Model as Product 靠卖 API 的初创，在零广告营销全靠口碑自然增长的情况下，我认为这个结果还勉强说的过去。至少从零到 Million ARR 的路我一路蹚了出来，坑踩了个遍，也算后事之师。

最后就是持续的学习和思变，根据大环境对公司的及时调整和优化，包括几次在公司组织上和叙事逻辑上的重塑。这些都是我认为正确且必须由创始人牵头的。

我做错的地方：

首先我觉得前几年我没有能够让团队足够的聚焦，尤其是在 A 轮融资过后，团队方向过于分散，因此浪费了时间和金钱去追逐了很多没有意义的技术和市场营销。

第二，在方向不够聚焦时我选择了扩张团队，希望通过空降 leader 来解决内部产品线和聚焦问题，结果收效甚微。如果这六年来我给公司的所有 leader 打分，10 分我给 2 分：很多 leader 在生存压力和技术快速变化的环境下无法及时跟进和发挥。我没有找到很好的 leader，也没有培养出很好的 leader。

这就引出了我这几年创业来的最大遗憾：就是我并没有想明白团队的 Scaling Law。从 2020 年到 2023 年，团队一直在扩张，可是产出和品牌力却在下降。从 2024 年起，我一直走在精简团队的路上，从 60 人裁撤到 30 人，团队效率和品牌价值得到了颠覆性的提升。

但按照这个逻辑推到底，团队人数和品牌价值根本呈反比！

“小而美”并不应该是终局：如果每家公司都以小为荣，越做越精简，这世上就不会有谷歌和微软这样的巨头。所以如何去 Scale 一个 AI 团队，去把生意做大，这个是我近六年遗憾没能做成的事情。

Growth without revenue is disaster, revenue without growth is boring. 我把公司从盲目扩张的disaster 里捞了出来，之后一直在小心翼翼地避免滑入boring。

虽说强者不抱怨环境，可我觉得我另一个错误就是对欧洲和德国抱有太多的期待和幻想。直到 2024 年我来到美国湾区后，我发现自己在一个过分平庸的地方浪费了很多宝贵的时间。

对于整个德国和欧洲社会的左和保守，对 AI 纸上谈兵和杞人忧天，劳动法对创业者缺乏理解尊重，及对优秀人才的冷漠无视，这些都让我在 2023 年后对欧洲和德国无比失望。我曾在 2023 年在公司里叫上几个德国同事一起去做一些 lobby 游说，希望多参与到欧洲议会和德国政界来获取关注和资源，一年下来活动参加不少，进展为零。直到有一天我也看明白了，他们邀请我去参加这些议会、党代会完全是把我看做一个 Diversity Guest：他们不需要我的 Expertise，只需要那张 Asian Face。

2025 年春我接受了《华尔街日报》的采访，表达了我对德国和欧洲的彻底失望。欧洲总以为他们在 AI 的落后是孤立现象，其实不然，是整个社会和经济环境造成的。报道发表后，引起了不少讨论。但在欧洲这些讨论最终能有多少付诸实践，我不抱以任何期望。

很多人总说 American Dream 怎么怎么样，但很多事情确实是我来到美国之后才有了实质的进展。无论塑造 lean & mean 的公司文化，还是 Jina 品牌的重新树立，再到最后被美国上市公司收购：这个地方不仅激励了我，也确实奖励了我的付出。

无论如何残酷的竞争与合作，AI 的发展绝对是中美两国的事情，就像鸣人和佐助一样相爱相杀。而欧洲就像小樱——说白了就没她啥事儿。

张飒：您还会创业吗？

肖涵：创业是刻在骨子的事情，我觉得未来还会。但目前还是需要再积累一下，把事情再琢磨透一些。比如我们都看到这波 AI 带来了生产力上的提升，很多工程师感觉可以创个业变现一波生产力。可是生产力的提高 ≠ 价值捕获能力提升，不代表可以落地生财。

有些人可能会说，我今年因为熟练使用 Cursor/Claude Code 做了好几个项目被老板发奖金表扬了。在公司里领工资时，生产力提升能变现，是因为公司已经解决了价值捕获的问题：有现成的客户、销售渠道、品牌信任。你多产出 10%，公司的变现机器能把这 10% 转化成收入，你分到一部分。

而在创业独立面对市场时，AI 只增强了供给侧（你能做更多、更快），却没有同步增强需求侧（找客户、建立信任、完成交易）。说白了，生产力是“造东西”的能力，不是“卖东西”的能力。

如果所有人都将成倍的生产力直接投放在市场中时，供给集体上升，单位价格反而下降。最后反而也赚不到什么钱。

张飒：那您现在有什么看好的创业方向么？

肖涵：我去年曾说过我对 AI + 原创游戏挺感兴趣，我觉得在原创游戏中各种多模态的落地场景明确：无论是素材、故事线、NPC 逻辑，都可以随着大模型能力的提升而水涨船高。游戏本身就是一个成熟的商业模型：付费下载、内购、订阅。AI提升的生产力（更丰富的素材、更拟人的 NPC、更个性化的剧情）直接转化成玩家体验，而体验是可以被明码标价的。

卡点在于如何塑造一个受欢迎的 IP：经典的 IP 都把握在游戏大厂手里，独立开发者从零塑造一个 IP 又谈何容易。这个就要谈到 OC 圈（Original Character,原创角色），我之前投过的米球岛就是做这个方向的。你可以把它想象成一个去中心化的 IP 孵化池，用户本身就在为角色赋予情感价值和传播势能。如果 AI 能让 OC 创作的门槛更低、表达更丰富，某种意义上是在加速“ IP 民主化”，不再只有大厂能造 IP。米球岛这个切入点挺聪明的。

这两个月兴起的 AI Trading，比如 AlphaArena 拿各种大模型在二级市场中做量化交易，或是在一级市场中为 Sell-side 做投研分析。我觉得也是一个不错的方向。这个方向最硬核的地方在于：回报是可量化的、实时的、无需说服任何人的。你的模型比市场聪明一点点，你就赚到了。不需要品牌、不需要销售、不需要用户增长。市场本身就是最高效的裁判。

尤其是 Buy-side 的交易信号捕获，相当于完全跳过 AI 生产力这一叙事逻辑，而将AI 的“认知能力”直接映射成 alpha。这可能是 AI 变现路径里摩擦最小的场景之一。我最近在和一个出自伯克利和斯坦福的项目 Tauric Research 聊，他们开始用 Jina Reader API 做信息获取和舆情分析，然后输入到一个他们自己训练的推理模型中去得到交易信号，这比“提升生产力”的故事要硬得多，因为下游直接是钱。

当然 AI Trading 的竞争也更残酷。因为所有人都在同一个市场里博弈，你的 alpha 就是别人的负 alpha。

张飒：最后您能给未来的创业者一些建议么？

肖涵：要专注，要强调公司的叙事逻辑。

创始团队一定要精简，不要为了显得好看而凑人头。如果你自己很强，那就一个人开干。如果你自己不强或没思路，那我建议就先别创业。

要尽最大努力找到那些聪明的人和 High Achiever，并且和他们在一起工作。这些人对第一性原则，80/20 等熟记于心，做事干净利落，杀伐果断，从不后悔。这是创业团队所需要的。

今年年初，一个 MIT 本科生来柏林找我们实习。乌克兰女生，Sheldon 式的人物，不太擅长社交，但聪明得惊人。我问她：为什么大老远跑来柏林？（潜台词是：你 MIT 的学生，美国机会那么多）她秒答：因为父母在柏林，她想和父母团聚；她投过亚马逊柏林，但对方不肯透露实习内容；而 Jina 明确告诉她是做小模型，正好是她喜欢的方向。于是她就来了。整个回答没有一秒犹豫。

后来我又问她：18岁，一个女生，独自从乌克兰去波士顿，会不会害怕？她的回答我至今记得——

“我不怕。害怕的应该是我的父母，因为他们还生活在战争里。”

她在柏林待了三个月，训练出一个超强的jina-code-embeddings，写了篇论文，中了 NeurIPS Workshop，然后转身离开。整个过程干净利落，像她说话的方式一样。

12月在 San Diego 举办的 NeurIPS 她也会参加，有在会场的朋友可以替我和她打个招呼。

最后，一定要避免和平庸的人在一起消磨时间。他们的特征很明显：做事拖泥带水，决策犹犹豫豫；竞争来了绕着走，压力来了往回缩。

也别想着“我来培养他”或“我再给他点时间看看”，创业是九死一生的游戏，不是大学。你没有时间把一个 60 分的人打磨成 90 分，你只能找到那些本来就是 90 分的人，然后一起拼命。所以：

Don’t pray for an easy life, pray to be a stronger one.

（全文完）