TwitFast
@aigclink
AIGCLINK 在 X/Twitter 上已收录 19 条内容,其中包括 13 条视频推文和 6 条图片推文。
致力于让每个想拥抱AI的人都能找到适合自己的AI产品,助力企业定制AIGC应用
查看 AIGCLINK (@aigclink) 的最新推文、媒体内容、创作者数据和简介摘要。
超酷,Gemini 3做的一个3D交互式网站,它通过摄像头识别手势并可实时交互,可以用手操控粒子 Gemini 3可以生成带three.js的3D交互场景,生成的场景可以用手进行互动 对线下的展会、橱窗或广告牌可以搞成隔空操控体验了 方法: 打开Google AI Studio,把提示词贴进去 把生成的代码复制出来… https://t.co/90RR5M8cV8
苹果新搞了一个RAG框架:ml-clara,解决长上下文处理效率低下、检索与生成优化过程的分离问题 其核心思想是,不要把整段文本塞给大模型,而是把“检索”和“生成”全部压缩到同一个可微的连续向量空间里,统一训练、一次推理 以此解决,1 上下文越来越长计算量爆炸,2… https://t.co/ZqoqzqD8cD
一款短视频创作自动化工具:Video-Materials-AutoGEN-Workstation,自动策划、生成文案、TTS配音、图像生成、字幕生成 它把脚本、配音、配图、加字幕等打包成了一个流水线,给定提示词即能攒出一条短视频素材 支持按模板批量生成,Gemini+TTS合成… https://t.co/0AuCM0M9le
Anthropic官方给出的【如何通过代码执行+MCP,来构建更高效的AI智能体】,把token消耗从15万降到了2千,时间/费用节省98% 随着连接工具的增多,直接工具调用方式导致的Token消耗过高、智能体效率降低问题 核心思想,把MCP服务器视为代码API,非直接的工具调用,让智能体编写代码来与MCP服务器交互 https://t.co/yDmmq8ibhP
谷歌正在搞一款街景导航的AI工具:StreetReaderAI,由Gemini驱动,把街景变成了会说话的无障碍导航 回答问题准确率达到了86% 现在是无障碍导航,未来有可能是AI导游,可以让它帮你做实地勘查,比如说“帮我从地铁站走到图书馆,看看路上有没有障碍物,告诉我图书馆的大门长什么样” 它有几个能力 https://t.co/ZF5TROIIEr
昨晚谷歌放出了:Veo 3.1,生成自带音效、叙事控制能力更强,光影/纹理/动作连贯性等画面真实性上都做了提升 Flow中的多图转视频、首尾帧生成、场景扩展功能现在都自带音效生成 把5秒片段拉到1分钟以上,它会根据原视频最后一秒继续创作,并且自动生成对应的连贯音频 https://t.co/46lR8UZAeP