背景Google I/O 2025开发者大会上,谷歌宣布为ML Kit推出一组端上生成式AI(GenAI)API,这将彻底改变安卓应用集成AI能力的方式:开发者现在可以轻松将Gemini Nano模型集成到App应用中。  功能描述 ML Kit GenAI API首批发布了四个针对常见场景的API接口,每个都针对特定使用场景进行了优化: - 文本摘要功能:可以将长篇文章或聊天对话浓缩为简洁的要点列表。
- 智能校对功能:通过优化语法和修正拼写错误,帮助用户润色简短内容。
- 风格改写功能:允许开发者以不同语气或风格重写短消息。如将普通文本改写为更专业或更友好的语气,适应不同沟通场景。
- 图像描述生成:为给定图片生成简短说明,大大提升了图像的可访问性。
这些API最大的优势在于它们开箱即用的高质量。谷歌通过特定功能的微调,使每个API的基准分数都显著高于基础Gemini Nano模型。 ❝参考链接:https://developers.google.cn/ml-kit/genai?authuser=3&hl=zh-cn 端侧AI的优势与传统的云端AI处理不同,ML Kit GenAI API完全在设备端运行,这带来了三大核心优势: - 数据隐私安全:所有输入、推理和输出数据都在本地处理,用户信息不会离开设备。这对于注重隐私的应用场景尤为重要。
- 离线功能可用:无需可靠的互联网连接,AI功能依旧可用。用户即使在网络信号差的场景下,也能享受完整的AI体验。
- 零额外成本:每次API调用不会产生额外的服务器费用,开发者可以无限次使用而不用担心成本飙升。
这些API基于AICore构建,这是Android系统服务,可实现设备端执行生成式AI基础模型。多个应用可以共享设备上的Gemini Nano模型,节省存储空间。 技术原理 ML Kit GenAI API的高质量输出源于其精心设计的四层架构: - 层级1 Gemini Nano基础模型:作为所有API共享的基础,提供了强大的生成能力。
- 层级2 特定API的LoRA适配器模型:在基础模型之上进行训练和部署,进一步优化了每个API的质量。这种低秩适应(LoRA)微调技术使模型能更好地适应特定任务。
- 层级3 优化的推理参数:针对每个API进行调整,以引导模型返回最佳结果。不同的任务有不同的参数设置,确保输出最符合预期。
- 层级4 评估管道:确保API在各种数据集和属性上的质量。该管道由大语言模型评分器、统计指标和人工评分器组成,持续监控和改进API性能
性能表现这些API最大的优势在于:开箱即用的高质量。谷歌通过特定功能的微调,使每个API的基准分数都显著高于基础Gemini Nano模型。 ❝据官方数据,摘要功能的得分从77.2提升到92.1,图像描述从86.9提升到92.3。  实际性能方面,这些API在高端安卓设备上表现优异。以Pixel 9 Pro为例:  具体使用ML Kit GenAI API的设计保持了开发者友好的一贯传统:同时提供流式和非流式两种结果接收方式: - 流式API:在生成回答时以增量方式提供,适合长内容;
- 非流式API:等待整个响应完成后一次性返回,适合简短回答
val articleToSummarize ="We are excited to announce a set of on-device generative AI APIs..."
val summarizerOptions = SummarizationOptions.builder(context) .setInputType(InputType.ARTICLE) .setOutputType(OutputType.ONE_BULLET) .setLanguage(Language.ENGLISH) .build()
val summarizer = Summarization.getClient(summarizerOptions)
❝使用示例:https://github.com/googlesamples/mlkit/tree/master/android/genai 总结 & 未来展望- ML Kit GenAI API的推出,标志着端侧AI正走向成熟,也为无数AI落地应用场景开启了新可能
- 对于安卓开发者来说,现在正是探索和集成这些AI能力的最佳时机,赶紧用起来吧!
|