做了一年 WPS AI ，对于 AI+办公的一些新思考

903次阅读

没有评论

AI+Office 无疑是今年比较热的 AI 赛道之一。

Notion、印象笔记、WPS 以及 Office，今年的笔记办公类软件，都在将 AI 作为主打功能集成到自身的产品里。传统软件巨头、模型厂商和创业者都卷入其中，纷纷在寻找自己的落地场景与用户痛点。

AI 到底解决了办公软件的哪些痛点？
如何更好从 UI 交互上考虑 AI 与原有产品的结合？
AI 与 Office 结合的未来是什么？

作为 WPS AI 的产品经理，付子豪（Sio Fu）在这个赛道摸爬滚打了一整年，今天这篇文章，他分享了对于 AI+Office 赛道的一些思考。

作者：付子豪（Sio FU），WPSAI 产品经理，不断探索底层模型能力，专注应用层创造产品。

文章转自公众号「下维 NextDimension」，FounderPark 略有调整。

做了一年 WPS AI ，对于 AI+办公的一些新思考

01 AI+Office 一年的探索及思考

这一年的探索从 2 月份 Micro SaaS 形态的右侧侧边栏功能插件（AI 写表格公式）开始，到 5 月份验证了表格 Copilot 的可能性，再到 9 月份上线了回归嵌入式场景的能力（公式和条件格式）。伴随着模型能力变化，市场体系成熟，产品视角也在不断地更新演进。

今天以 LLM 为起点的 GenAI 应用或 Feature 设计与往日已经大不相同，从结果处看 GenAI 的幻觉带来了想象空间，同时也带来了对办公场景严肃性无穷的挑战。交互的形态，模型的局限，流程的设计，上线的标准，甚至产品的 PMF，都对产品经理提出了更新的要求，当然也更严苛。

交互的形态：到底是 beside，inside 还是 outside？

对于表格：

在最早 MicroSaaS 的尝试中发现和「辅助」这个概念融合的最好的就是右侧侧边栏，信息的获取更加独立，结果的对照也会更加容易。当时仅仅是一个插件的形式，并未考虑直接和左侧表格内容进行交互，这在某种程度上仅仅解决了一个问题（搜索和操作的融合），但即便如此我依然觉得这是一个非常好的形态和值得所有操作复杂软件探索的方向。

做了一年 WPS AI ，对于 AI+办公的一些新思考

当然 Copilot 是 Beside 这种形态的代表作了，在搜索上再升一级对话式操作，数据区域成为了 Double Check 和数据沉淀。但是很快就会发现这种形式的问题，开放式的 Input 变得不可控。在办公场景下用户的预期极高，所有提问本质上都是待解决的燃眉之急，目光所及的输入框就是唯一救星。提问变得五花八门，分分钟就把背后的模型难倒了，问而不得的体验最终又让用户打上了「人工智障」标签。

将 AI 融入能力输出的原有路径，在使用的流程中 inside AI 的能力，目前来看是一个中和的方案。用户能够聚焦到所做的任务，提问的发散性被很好得收敛。但是对于操作复杂，且核心业务并非生成的表格来说依然有着一些问题需要回答。聚焦到什么样的能力粒度更合适？单一能力所能发挥的价值上限？模型在单一任务上的表现也即绝对正确率如何？

开放带来输入内容的不可控，聚焦又会将能力限制地单一且后置。

对于文档，RAG 系统：

生成是这两种产品最核心的业务，而最终的结果都是得到内容。NotionAI 在去年 11 月份就为文档类软件奠定了 Inside 基础，结果快速呈现，用户只需要做「重试+删除」这两个关键操作，模型发散性的优势通过 Inside 放大。RAG 系统的设计也是如此，借助于 AI 获得易用性更高的内容，同时 Inside 的形态也很好地区分了传统 Browsing 和 RAG。当然这两种业务也有一些相似点，比如原有业务的起点就是 Input，线性的流程，以及用户决策的沉没成本较低等。

从 Beside 到 Inside 是核心业务起点的转换。

有的业务很好转换，而有的业务则不然，这个过程不取决于产品，而是业务和模型决定的。

从 Inside 到 Outside 等待着数据流转的打通以及模型能力的跃迁。

模型的局限决定了产品的上限

如果过去产品能力的上限取决于团队中最厉害的程序员，那么今天 AI 产品能力的上限就取决于团队能摸得到的 LLM 上限。努力寻找 TPF！

回溯过去的功能设计，产品经理和研发同学主要探讨的是实现复杂度。当然这个复杂度取决于工程师的代码水平，如果从这个角度继续推导，能做到的产品能力上限就取决于程序员的水平。如果团队内没有，但是市场上有，依然可以做到。而面对 LLM 这个 Foundation，产品的能力上限一定取决于模型，做不到就是做不到，消除不掉的幻觉即便是将 OpenAI 的工程师挖过来依然无法全部消除。那么这么来看，在产品设计的初期就需要产品经理深入了解模型，从这些局限之间寻找出来一条适合应用场景的路。

那么在产品设计中需要关心模型的什么呢？<Accuracy，Latency，Cost>，时延和要求的准确率成正比，等待时间越久对结果的期待预期必然会提高；成本和真实的准确率成反比，越便宜容错率越高。当然，如果在起点的时候已经看到了悬崖，及时勒马止损也是至关重要。

做了一年 WPS AI ，对于 AI+办公的一些新思考

针对模型局限性的优化，OpenAI Devday 也给出来了三种方法以及值得探索的两个方向，从内容和模型两个维度进行优化。场景知识方向，通过外挂知识库检索的方式，让知识获取准确性更高；在特定的操作或者输出特点上，就需要进行模型的微调。当然这都要深入场景仔细分析，并不是万物皆可 SFT。喂数据进去的门槛在不断的降低，过拟合的处理依然会使你头疼痛不已。

上线的标准：测试集很重要

测试的准确率不是用户体感准确率，那么上线的 Acc 标准（准确率指标）应该是多少？

评测集的设计也是一个十分重要的课题，问题的长度，覆盖的广度，表达的丰富度等等。但无论怎样的多元细致，还是会和真实场景的体感准确率有一定的差别。一方面，输入框在办公场景下变成了唯一的救星，塞到流程里依然会有用户希望抓住这个救命稻草；另一方面，语言表达的多样性，对模型会带来非常大的挑战，毕竟每一个人的表达习惯都不同。评测集的建立中，最常见的问题依然是「理想化」。

Acc 达到一个什么水平是可以上线可用的呢？我认为测试准确率在 85% 是一个能够投入上线使用的红线。从这个值可以推导出用户真实的体感准确率会达到 70%（我认为体感准确率：测试准确率=0.8：1）。今天的尝鲜用户对于 AI 是有一定容错率的，但依然是「再一再二不能再三再四」的态度。在 acc 过低的时候就草率地推到市场，本质上就是消耗用户的好奇心，并不利于长线发展。

当然，上线的标准也需要 case by case 的进行分析，不同的场景应用之间相差还是比较大的。然而，从我的角度来看，非严肃场景，两次需要有明确的渐好趋势（这可以通过运营的手段进行用户教育）；严肃场景，三次以内要有明确的解法（包括正确答案和正确流程）。

产品的 PMF：找到 T 能解决的 M

更多讨论参见作者之前的文章：AI应用层P和M到底怎样F？

多观察 M，共情场景，做出效果工具。

无论在过去还是现在的 GenAI 时代，从市场需求出发始终没变。而今天对产品经理提出的挑战是将 M 与具有局限性的 T 结合起来做 P。调整产品设计对整个 PMF 的影响权重在逐渐变小，如果 M 决定想象空间，T 决定了到底能否实现，T 和 M fit 的情况下今天很多场景的 P 可能就只是一个输入框和 double check 的按钮。

杜绝退而求其次的方案，会不经意间习惯。

「模型能力不行」成了产品做不出的常见借口，换另外一个方案来进行兜底。这本质上还是 TMF 的调研和思考没做好，选用退而求其次的方案倒也能交差，但这直接影响到效果呈现，从而影响到产品的 PMF。删删减减的过程中，消耗掉了团队整体的斗志，在面对结果时，模型能力不足还不能成为说辞。能力的差距并不是看到整个产品输出结果时才能发现，从起点处就能窥探一二。

02 为什么市场玩家都卷入AI+Office 赛道？

是微软向大家证明了 AI+Office 的 PMF？

是容器决定价值办公软件比 chatbox 的场景价值更高？

是模型生成文字的属性放在办公软件里刚刚合适？

……

似乎都对，但都差点儿意思。

对于生产效率的提升🚀，用户们（我们）已经等不及了，而恰好 LLM 带来了可能性。

2023 年一月初的时候，我写了一篇文章《云化协同之后风吹向了人工智能》正式拉开这一年在云化协同之后的 AI。办公从人类开始集体式协作就逐渐出现，到今天更迭了无数种范式变化。一方面是生产资料的存储及真实的归属所有权的变化，另一方面是借助人力的生产资料价值挖掘的不断提升。每一次的变化，都激发了整个社会发展更进一步的进程。

办公现状：数字债务逐渐吞噬了我们的创新时间

今年五月份的时候微软发布了一个针对 Microsoft365 用户的使用情况调研出的办公趋势年度报告，其中有三个重要的发现。针对目前办公状态的评价更是一针见血，

协同成为了今天各大办公软件必备的基础能力，又在疫情时代瞬间放大了价值。高效的协同带来了整个团队的效率提升，但是低效的协同则带来三个和尚没水吃的窘境。今天基于 IM 的办公环境，在打开 IM 的那一刻上百条消息的涌入便是常事儿，最近飞书在推出年度报告特别列出了会议的场次。「开会了」，「记得回消息」…… 成为了每天听到最多的声音

仔细观察目前我们常用的办公软件分为两大类：Communication（沟通）和 Creation（创造）

根据微软的调查发现，在每天的办公时间中，用户有 57% 的时间消耗在 Communication，剩余的 43% 投入到了 Creation 中去。但我想落到我们真实的工作场景中，57% 还是略有低估的。而且随着职级的升高，「拉通，对齐，讨论」变得更加频繁，不断地压缩着 Creation 的时间，同时也消耗着创造的精力。

做了一年 WPS AI ，对于 AI+办公的一些新思考

渐渐的【不被打扰的专注时间】成了工作中的奢求，68% 的受访者抱怨他们在工作日没有足够的全身心投入的时间，「强协同」带来的弊端也逐渐暴露出来。

在调研中影响生产效率的因素，用户提出最多的五个问题：

参与低效的会议
缺少清晰的目标
会议的频次过高
缺少创造的灵感
找不到想要的内容

如果 AI+Office 是瞄准生产效率的跨越式提升，那么在今天这个时间节点，此刻 LLM 的能力边界内，这些需求绝对是 AI 最最最重要的机会，用户「求贤若渴」的声音已经如此强烈。

办公趋势：我懂到大家懂→懂我到懂大家

从打破物理隔离到抹掉基因差异，不断提高生产资料表达上限降低办公软件使用下限

1.0-本地办公

我懂：生产资料存储方式改变，借助界面化的操作高效完成价值挖掘

原始的生产资料的存储方式逐渐过时，单一纸质存储无法发挥其中的价值。外加上预测学科的不断发展，由这些生产资料所能衍生出的价值也逐渐被人们发现。与此同时随着个人 PC 的不断发展，借助着界面化的操作，和本地的「数字化」存储能力，驱使着整个办公行业的从业人员开始学习办公软件。

逐渐去了解办公软件在不同场景下应该选择的组件，并且术业专攻的学习软件的各种功能，从而更好的存储和利用历史的生产资料。初期，会使用办公软件成为强有力的竞争优势；中期，泛化的要求整体从业人员 office 使用熟练；后期，沉淀出不同组件的行业专家能够做一些定制化。

2.0-云端办公

我们懂：生产资料存储更牢固，群体智慧拉高生产资料价值表达上限

生产资料的数字化存储过程在本地已经满足，但这是否真正发挥了其中的全部价值，答案是否定的。其中的价值表达的上限取决于所拥有历史生产资料的单一个体。从 B 端的角度来看，这是不可控且资源（人才）利用率过低的。因此打破物理隔离，将生产资料上云，发挥团队的智慧。当生产资料开启共享，由单一个体变为团队整体，价值表达的上限自然会被拉高。

在疫情环境下，催生出的远程办公也加速着这个生产资料上云的大趋势，数字资产的概念也逐渐传递到 B 端，不仅担心价值挖掘，也开始担心生产资料的安全性。走上云端，共同挖掘，公司所有。

3.0-AI办公

懂我：提高单一个体生产资料价值表达上限

除非是由上到下的指派，对于生产资料的价值挖掘能够发挥出集体智慧的优势。但是大多时候的工作相对还是割裂的，集体智慧还是很难轻松实现。而对于单一个体来讲，个人价值的表现又取决于个人能力。当然每个人进步的自驱力没必要怀疑，但是资本并不会等。因此以结果论英雄的今天必定会催生出过程助手，毫无疑问就是 AI 技术的合理运用。

一方面更大得发挥生产资料带来的价值，另一方面提高个体的工作效率。这两者带来的都是资本投入的 ROI 逐渐增高。因此，对于个体来讲，「懂我」的介入能够带来好的产出结果；对于公司来讲，每个员工都借助「懂我」的能量，整体提高了公司价值表达的基线和上限，何乐而不为。

4.0-Web3.0 办公（去中心化）

懂我们：抹掉人性发挥群体智慧极限

目前衍生出的 AI 办公还是会有一个中心，也就是单一个体的使用习惯和思维习惯，借助过程工具来提高整体的表达。对于 AI 来讲，学习的样本能力也决定了 AI 技术的上限，同时价值的呈现又考验合作的效率和其中的人性。如果样本没有中心，如果合作没有人性，那将会发挥人类集体的智慧，借助于 AI 进行能量汇聚多少有点儿「上载智能」的感觉。用群体的智慧解决问题，从而挖掘生产资料的价值表现上限。当然这是一个十分理想化的终局进程。

但是，对于全人类来讲大概率是不可能的，共享是打乱了自然发展规律的。但是对于局部的公司，团队，去中心化一定会是趋势，群策的能量也一定是各位老板特别希望看到的。因此在未来，「懂我们」将会是「懂我」注定的下一步，而其中的我们可大可小，主要取决于外力介入的多少。

做了一年 WPS AI ，对于 AI+办公的一些新思考

LLM 为办公带来了什么？

LLM 的出现不能类比移动互联网出现的状态，它更像是 PC 诞生的时代，云诞生的时代

基石：历史重演—数学语言通用性—量化思维

人类的进化和社会的进步在我看来最原始的推动力之一就是量化思维，把世间的一切逻辑都转换为数学语言来表达<不受地域，时代等客观因素的影响而产生隔阂>，而转换为数学语言的前提共识是世界发展到今天，你所有面对的问题在历史长河中都存在和出现过。因此过去的历史经验会对今天的的决策产生巨大影响。如果我们将所有的历史经验通过量化思维转换为数学语言，并将其录入到计算系统中去，一定会对今天的决策产生重要影响。

起因：算力受限—算盘诞生—PC 诞生—机房诞生—云计算诞生—算力过剩

如果把每一次决策都看作是数学公式解答，那么当人们发现逻辑线程逐渐变长，大脑的连续算力已然不够用了。因此出现了算盘这种计算工具，提高计算效率，紧接着出现了垂类场景下的计算集合组织（例如过去金融业的账房）。近现代计算机诞生，进一步扩展算力，同时延长计算时间。当我们发现单台计算机的能力欠佳了，出现了机房。但是机房的效率不可控，且成本过高，如何能够更加合理得释放算力呢？云计算诞生，变成可调度，按需获取的计算资源池。目前这个阶段各家云计算都很难达到饱和状态，计算资源闲置，出现了算力过剩的状况。

引爆：Code—Low/No Code—<AI-LLM>—<AI-ASR+LLM>—创意即服务

互联网爆火的上一个时代，具备代码能力的程序员们将逻辑（业务思考）转换为数学语言（算法）在经过编码得到计算机能懂的 Code，从而借助计算机的能量释放出了其思考的价值，接着互联网的普及，将这种思考中存在的角色逐渐丰富，从而将价值互联。引爆了第一波互联网浪潮。接着算力容量欠佳，基础设施成为了限制，云计算的风吹了起来。当算力充足后，我们发现使用算力的门槛还是过高（从表格的公式，脚本，到真正的计算机语言），此时 AI 应运而生，帮你解决使用算力的门槛。通过自然语言理解，理解你的逻辑，直接调用云上算力，生成相应的结果。让创意和结果的链接变得更加容易，让思维充分释放价值。

做了一年 WPS AI ，对于 AI+办公的一些新思考

高效普世决策模型过程：由思考-原则-加权-算法→好决策（From 瑞·达利欧《原则》）
在「AI+」的辅助下，由思考发起 Input，借助背后模型辅助获得 Output 决策
并非隐掉中间过程，而是借助历史推演拟合最优的中间过程，借助计算机的「毅力」优势持续输出最优解

从我的角度来看：AI 的诞生进一步促进了算力平民化的进程，当你手握算力，那么请大胆想象吧。

Idea—AI—Outcome

03 还有什么能做？还有什么等待思考?

「我们总是高估未来两年的变化，低估未来 10 年的变革」—Bill Gates

来势汹汹的 GenAI，AI 重塑微软的响亮口号，把这一年的期待值直接拉满。出现了「没有一个 Agent 在手都不好意思说自己在做 AI」的幻象。面对着这个变革性的机会，每一个人都期待着成为借助大风飞起来的那一个，毕竟雷总说过「站在风口上，猪都能飞起来」。如果这里面飞起来是顺势而为，站在风口上就暗藏学问了，这个过程依然需要深度思考，还需要点时间。

那么办公场景下还有哪些方面值得探索呢？从我的角度来看，三个确定性较强的方面：文字图片内容生成，任务指令化及自动化，数据资产/行业知识检索。

做了一年 WPS AI ，对于 AI+办公的一些新思考