AI日报:可以在手机上跑的大模型Octopusv2一夜爆火;90后小伙AI“复活”逝者订单超1000;OpenAI允许构建自定义模型;第一个具有情商的对话型AI来了
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
📰🤖📢AI新鲜事
斯坦福推可以在手机端跑的大模型 Octopusv2超越GPT-4一夜爆火
【AiBase提要:】
⭐️ 斯坦福大学推出Octopusv2,20亿参数模型,可在手机等设备上运行,准确性和延迟超越GPT-4,上下文长度减少95%。
⭐️ 设备端AI智能体时代来临,Octopusv2开发过程创新函数token策略,训练方法提高推理速度,表现优异。
⭐️ Octopus-V2-2B在性能评估中表现卓越,速度提高168%,为设备端AI发展注入新活力。
论文地址:https://arxiv.org/abs/2404.01744
模型主页:https://huggingface.co/NexaAIDev/Octopus-v2
90后小伙用AI“复活”逝者,一年成交1000单
【AiBase提要:】
⭐️90后小伙张泽伟使用AI技术,为逝者塑造数字形象,已接超过1000笔订单。
⭐️ 他的团队通过还原逝者的相貌、声音,让客户能与其数字形象互动。
⭐️ 这种业务独特之处在于AI技术生成逝者数字形象的反应,无需人类扮演。
详细内容:https://www.chinaz.com/2024/0407/1608319.shtml
OpenAI为开发者添加新功能 允许构建自定义模型
【AiBase提要:】
⭐️ 开发者可以使用OpenAI的新功能构建特定于组织、业务领域、任务需求的自定义模型。
⭐️ 自定义模型包括专门知识库、特定数据理解、执行任务或特定输入响应。
⭐️ OpenAI提供微调API、自定义训练模型程序和辅助微调服务等功能帮助开发者构建自定义模型。
详细内容:https://openai.com/blog/introducing-improvements-to-the-fine-tuning-api-and-expanding-our-custom-models-program
OpenAI 转录了超过一百万小时的 YouTube 视频来训练 GPT-4
【AiBase提要:】
🤖 OpenAI使用YouTube视频转录训练GPT-4
📚 AI公司遇到高质量训练数据挑战
⚖️ 公司处理数据问题涉及版权法模糊区域
AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝
【AiBase提要:】
⭐ MiniGPT4-Video框架能理解复杂视频,还能创作诗歌配文。
⭐ 支持处理时态视觉数据和文本数据,善于理解视频的复杂性。
⭐ 在多个基准测试中,MiniGPT4-Video有显着提高,可为视频配文、广告等提供强大解读能力。
论文:https://arxiv.org/pdf/2404.03413.pdf
DeepMind发布Gecko: 专注于文档检索 性能媲美大7倍模型
【AiBase提要:】
🦎 Gecko是通用文本嵌入模型,专注于文档检索、语义相似度和分类任务。
🦎 Gecko通过从LLM中提炼知识,融入检索器,实现强大检索性能。
🦎 在大规模文本嵌入基准上,256维Gecko优于768维现有模型。
论文地址:https://arxiv.org/pdf/2403.20327.pdf
微软投资1000亿美元推动生成式AI,这支股票有望大涨
【AiBase提要】
🧠 微软部署基于 Arm 设计的定制芯片,有望为 Arm Holdings 带来增长。
📈 Arm Holdings 已受益于人工智能芯片增长,微软项目或进一步推动其业绩。
🔋 微软可能通过定制芯片减少对其他公司依赖,提高性能降低成本,有望带动 Arm 收入增长。
马斯克的朋友将帮助 xAI 筹集30亿美元
【AiBase提要:】
🤑 投资者与马斯克有着密切关系,计划帮助 xAI 筹集30亿美元。
🤖 xAI 与 OpenAI 和 Anthropic 等竞争对手展开竞争,加紧发展在竞争激烈的人工智能领域。
💼 人工智能人才争夺战激烈,xAI 和其他竞争对手竞相吸引和留住。
AI下一个重大飞跃是理解情感,第一个具有情商的对话型AI来了
【AiBase提要:】
⭐️ HumeAI发布具有情感识别能力的对话AI,能检测53种情绪。
⭐️ HumeAI致力于理解和回应用户情感,通过声音特征实现互动。
⭐️ 提供API让用户训练自己的AI模型,应用广泛覆盖健康、客服等领域。
官网地址:https://dev.hume.ai/docs/expression-measurement-api/overview
金山办公 WPS365将发布一站式AI办公产品
【AiBase提要:】
⭐ WPS365将强调提升用户办公效率与体验
⭐ 套件包含内容创作工具和协作软件
⭐ 核心理念是统一工具、协作和管理
🤖📱💼AI应用
Infinity AI:输入剧本即可一键生成电影 还提供数字人克隆功能
【AiBase提要:】
⭐ 目标:只需要输入剧本内容,即可一键生成电影,官方已经发布Demo
⭐ 技术团队成功克隆CEO形象展示产品功能,提出未来小团队借助AI有望赢得奥斯卡奖预言。
⭐ 提供克隆自己服务,用户可以通过录制视频训练定制AI模型,生成包含自己声音和面部表情的视频内容。
官网:https://top.aibase.com/tool/infinity-ai
在线体验地址:https://studio.infinity.ai/
详细教程及视频:https://qqi2gjmnk4.feishu.cn/wiki/HTmRwpZ1hiRONpkZ3SIce89ynuc?fromScene=spaceOverview
谷歌推Scenic:可识别视频内容 并生成详细描述
【AiBase提要:】
🔍 提供 SOTA 模型和基线模型,支持快速原型设计大规模视觉模型。
🔍 使用 JAX 和 Flax 进行开发,支持图像、视频、音频和多模态组合模型。
🔍 能识别视频内容并生成详细描述,提供功能丰富的基线模型和数据集。
产品入口:https://top.aibase.com/tool/scenic
CameraCtrl:让文本生成视频实现镜头控制 支持AnimateDiff控制镜头
【AiBase提要:】
⭐镜头控制在视频生成中至关重要
⭐通过训练镜头编码器实现插拔式镜头模块
⭐不同数据集视频增强镜头控制的可控性和泛化性
产品入口:https://hehao13.github.io/projects-CameraCtrl/
Lixel CyberColor:自动生成无限大的电影级效果的3D场景
【AiBase提要:】
⭐️ LCC采用Multi-SLAM和高斯溅射技术生成电影级效果的3D场景。
⭐️ XGRIDS的Multi-SLAM算法和3DGS技术创造逼真大型3D模型。
⭐️ XGRIDS提供LCC插件和SDK支持在多平台上无限复制3D内容。
官网地址:https://xgrids.com/lcc
AI语音识别工具Universal-1:38秒可以处理60分钟音频 比fast Whisper更快
【AiBase提要:】
⭐️ Universal-1提供准确鲁棒的多语言语音转文字功能
⭐️ Universal-1通过时间戳估计提高了准确性和说话者辨识
⭐️ AssemblyAI利用Conformer RNN-T架构和Google Cloud TPUs构建了高效的Universal-1模型
产品入口:https://top.aibase.com/tool/universal-1
InstantStyle: 文本生成图像风格参考,用于SD保持风格一致
【AiBase提要:】
⭐️ 内容和风格有效分离,通过简单但强大的技术实现。
⭐️ CLIP全局特征的应用,明确风格和内容的解耦。
⭐️ 不同层级网络捕捉不同语义信息,实现更好的风格保留效果。
产品入口:https://top.aibase.com/tool/instantstyle
————
每日midjourney prompt:性感电商模特
图源备注:图片由AI生成,图片授权服务商Midjourney
A beautiful Chinese Girl,Detailed facial details,long hair ,dark hair, wearing a short pink satin dress. She is sitting on concrete stairs in front of a tiled building facade. The lighting is soft and natural, with sunlight casting shadows --ar3:4--v6.0--style raw
一个美丽的中国女孩,详细的面部细节,长发,深色头发,穿着一件粉红色的缎面短裙。她坐在瓷砖建筑正面前的混凝土楼梯上。灯光柔和自然,阳光投射出阴影