返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

Pixeltable:一张表搞定embeddings、LLM、向量搜索,多模态开发不再拼凑工具

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 22:41 |阅读模式 打印 上一主题 下一主题


ingFang SC", "Lantinghei SC", "Microsoft Yahei", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans;font-size: 16px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;text-align: start;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">开发过多模态 AI 应用的人都应该遇到过这个问题,其实最头疼的不是算法而是基础设施。

ingFang SC", "Lantinghei SC", "Microsoft Yahei", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans;font-size: 16px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;text-align: start;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">向量数据库需要存 embeddings;SQL 数据库需要元数据管理;大文件还要放到对象存储上,不仅邀单独跑个 pipeline 做 chunking,还要再写个脚本调模型推理,最后还得套个 Agent 框架把这些东西串起来。

ingFang SC", "Lantinghei SC", "Microsoft Yahei", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans;font-size: 16px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;text-align: start;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">代码里到处是胶水逻辑,维护起来十分麻烦。

ingFang SC", "Lantinghei SC", "Microsoft Yahei", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans;font-size: 16px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;text-align: start;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">Pixeltable这个开源库就的目标就是解决这个问题:"别折腾了,全放一个地方不就完了。"

ingFang SC", "Lantinghei SC", "Microsoft Yahei", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans;font-size: 16px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;text-align: start;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">听起来简单粗暴,但实际用一下还真确实解决了不少问题。因为它提供了一个统一的声明式接口,文档、embeddings、图像、视频、LLM 输出、分块文本、对话历史、工具调用这些东西,全部以表的形式存在。数据一更新,相关计算自动触发。

ingFang SC", "Lantinghei SC", "Microsoft Yahei", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans;font-size: 16px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;text-align: start;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">

ingFang SC", "Lantinghei SC", "Microsoft Yahei", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: normal;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">现有方案的问题在哪

ingFang SC", "Lantinghei SC", "Microsoft Yahei", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans;font-size: 16px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;text-align: start;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">现在搞 AI 应用的技术栈基本是拼凑出来的:

ingFang SC", "Lantinghei SC", "Microsoft Yahei", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans;font-size: 16px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;text-align: start;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">SQL 处理结构化数据,向量库管 embeddings,对象存储扔大文件,Cron 或 Airflow 跑 pipeline,Python 脚本散落各处,再加上各种 API wrapper 对接 OpenAI、HuggingFace、Anthropic。

ingFang SC", "Lantinghei SC", "Microsoft Yahei", "Hiragino Sans GB", "Microsoft Sans Serif", "WenQuanYi Micro Hei", sans;font-size: 16px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;text-align: start;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">每个环节独立运行,数据在不同系统间流转,出了问题排查困难。

Pixeltable 的思路则是是让表本身就能处理完整的 pipeline。插入数据后 embeddings 自动算好,改代码只重算变化的部分,图像视频音频 PDF 也可以直接存,LLM、视觉模型、自定义函数都在表里跑,向量搜索和 SQL 过滤同时进行,还有内置的版本控制和时间回溯,导出支持 Parquet、LanceDB、COCO、PyTorch Datasets。

对于开发来说核心逻辑写完了,剩下的就是框架的事了。

简单上手

pipinstallpixeltable

先建个多模态表:

import pixeltable as pxt 

# A table with an image column
t = pxt.create_table('images', {'input_image': pxt.Image})

加个计算列,这列的值会自动算出来。Pixeltable 和 Hugging Face 做了集成,可以直接调用:

from pixeltable.functions import huggingface 

t.add_computed_column(
detections=huggingface.detr_for_object_detection(
t.input_image,
model_id='facebook/detr-resnet-50'
)
)

提取字段:

t.add_computed_column( 
detections_text=t.detections.label_text
)

OpenAI Vision 也可以接进来:

from pixeltable.functions import openai 

t.add_computed_column(
vision=openai.vision(
model='gpt-4o-mini',
prompt="Describe what's in this image.",
image=t.input_image
)
)

插入一张图像,所有我们设置的计算就自动跑起来了:

t.insert({'input_image':'https://raw.github.com/pixeltable/.../000000000025.jpg'})

查询结果:

results=t.select( 
t.input_image,
t.detections_text,
t.vision
).collect()

这样数据摄取、目标检测、LLM 处理、结果查询,一套流程在一个系统里跑完了。

底层怎么做的?

Pixeltable 在后台处理了不少细节:

数据摄取这块,图像音频视频 PDF 都存在本地,自动建立引用关系。计算列只在需要的时候执行,不会无脑重跑所有数据。OpenAI、HuggingFace、CLIP、YOLOX 这些模型集成都是内置的,embedding 索引也直接在表里,不用再搭向量数据库。

版本控制和时间回溯查询都有,就算是改错了可以回退。缓存机制只重算受代码变更影响的数据,这样省时间也能省钱。

一些实际例子

1、自动计算利润

最简单的场景,电影收入和成本算利润:

import pixeltable as pxt 

t = pxt.create_table(
'films',
{'name': pxt.String, 'revenue': pxt.Float, 'budget': pxt.Float},
if_exists="replace"
)
t.insert([
{'name': 'Inside Out', 'revenue': 800.5, 'budget': 200.0},
{'name': 'Toy Story', 'revenue': 1073.4, 'budget': 200.0}
])
# Computed column
t.add_computed_column(
profit=(t.revenue - t.budget),
if_exists="replace"
)
print(t.select(t.name, t.profit).collect())

不需要写循环每行的利润都会自动算好。

2、YOLOX 目标检测

想用 YOLOX 做目标检测,也是直接写个普通函数就行:

@pxt.udf 
def detect(image):
model = Yolox.from_pretrained("yolox_s")
result = model([image])
return [COCO_CLASSES[label] for label in result[0]["labels"]]

需要把计算函数注册成计算列:

t.add_computed_column(classification=detect(t.image))

这样批处理、模型复用、结果存储都自动搞定了。

3、CLIP 图像相似度检索

在创建一个表:

images=pxt.create_table('my_images',{'img':pxt.Image},if_exists='replace')

加 embedding 索引:

frompixeltable.functions.huggingfaceimportclip

images.add_embedding_index(
'img',
embedding=clip.using(model_id='openai/clip-vit-base-patch32')
)

用文本检索图像:

sim=images.img.similarity("a dog playing fetch") 

results=images.order_by(sim,asc=False).limit(3).collect()

或者用图像检索图像:

sim2=images.img.similarity(query_image_url)

接口统一,输入是文本还是图像都一样。

完整的 RAG 系统

不用 LangChain 也不用独立的向量数据库,直接在 Pixeltable 里搭 RAG。

存一个文档:

docs=pxt.create_table('my_docs.docs', {'doc':pxt.Document}) 
docs.insert([{'doc':'https://.../Jefferson-Amazon.pdf'}])

然后按句子切块:

chunks = pxt.create_view( 
'doc_chunks',
docs,
iterator=DocumentSplitter.create(document=docs.doc, separators='sentence')
)

建 embedding 索引:

embed=huggingface.sentence_transformer.using(model_id='all-MiniLM-L6-v2') 
chunks.add_embedding_index('text',string_embed=embed)

定义一个检索函数:

@pxt.query
defget_relevant_context(query,limit=3):
sim=chunks.text.similarity(query)
returnchunks.order_by(sim,asc=False).limit(limit).select(chunks.text)

创建问答表:

qa=pxt.create_table('my_docs.qa_system',{'prompt':pxt.String})

检索上下文、格式化 prompt、调 LLM:

qa.add_computed_column(context=get_relevant_context(qa.prompt)) 

qa.add_computed_column(
final_prompt=pxtf.string.format(
"PASSAGES:\n{0}\nQUESTION:\n{1}",
qa.context,
qa.prompt
)
)
qa.add_computed_column(
answer=openai.chat_completions(
model='gpt-4o-mini',
messages=[{'role': 'user', 'content': qa.final_prompt}]
).choices[0].message.content
)

这样就可以提问了:

qa.insert([{'prompt':'WhatcanyoutellmeaboutAmazon?'}])

差不多30 行代码完整 RAG 就跑起来了。

总结

多模态应用虽然已经从实验阶段走向生产,但是基础设施还没跟上节奏,大家还都在用各种工具拼接方案。

Pixeltable 的核心贡献不是提出新算法或新模型,而是提供了一个新的抽象层。"一切皆表"这个理念把图像、embeddings、视频、元数据、LLM 输出、文本块、工具调用统一到一个数据结构里。

这样整个工作流就变得声明式、增量式、可重现、可检索、版本化、统一化。这才是现代 AI 基础设施该有的样子。

如果你在做实际的 AI 项目,Pixeltable 可能会让你感觉"这玩意儿直接砍掉了一半架构":RAG 系统、多模态分析、图像视频 pipeline、agent workflow、自定义数据处理、数据集准备、embedding 检索,基本上涉及多模态数据的场景都能用。

上下文工程正在成为 AI 应用的新后端,Pixeltable 算是第一个专门为此设计的框架,值得试试。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ