AI 资讯简报 (测试) 2023-03-11
多模态,微软,GPT-4,Kosmos-1,视觉模型
🛠️ AI可以辅助软件工程师完成特定任务,但不能解决问题,GitHub Copilot和Tabnine是最受欢迎的两个AI编码工具。
#Tabnine #AI-powered coding #GitHub Copilot
Mar 10, 12:25 @ Laura
查看原文
(hackernoon.com)
💬 微软推出了Visual ChatGPT,它是一个代理人,可以通过聊天发送/编辑图像,并结合了最新的视觉模型,实现了这一功能。
#视觉模型 #微软 #ChatGPT
Mar 10, 13:07 @ anita
查看原文
(twitter.com)
🛠️ ControlNet模型可以控制Stable Diffusion的输出,而之前没有很好的方法来确切地告诉AI模型该做什么,而Stable Diffusion则用于文本到图像的生成。
#ControlNet #Stable Diffusion #text-to-image
Mar 10, 13:07 @ anita
查看原文
(twitter.com)
🛠️ Microsoft推出了Visual ChatGPT,将最新的视觉模型与其结合,实现了通过聊天界面发送/编辑图像的功能。
#视觉模型 #ChatGPT #Stable Diffusion #text-to-image
Mar 10, 13:07 @ anita
查看原文
(twitter.com)
🛠️ InstructPix2Pix和ClipSeg是两个模型,前者可通过提示编辑照片,后者可以根据文本提示创建分割模型,非常适合应用于特效和去除元素。
#InstructPix2Pix #photo editing #ClipSeg
Mar 10, 13:07 @ anita
查看原文
(twitter.com)
🛠️ ClipSeg和BLIP-2是两种能够从文本和图片中自动生成分割和理解与聊天的模型,无需训练。
#segmentation models #ClipSeg #BLIP-2
Mar 10, 13:07 @ anita
查看原文
(twitter.com)
🛠️ BLIP-2可以理解并聊天图片,ControlNet可以控制稳定扩散输出,为AI模型提供了精确的指导方式。
#ControlNet #Stable Diffusion #BLIP-2
Mar 10, 13:07 @ anita
查看原文
(twitter.com)
🛠️ 微软展示了如何将视觉模型与纯文本(聊天)界面相结合,而InstructPix2Pix模型则可以通过提示编辑照片,非常适合应用效果和去除元素。
#视觉模型 #微软 #多模态 #文本界面
Mar 10, 13:07 @ anita
查看原文
(twitter.com)
💬 Autodeck有以下几个更新:实现了GCP oAuth scopes、完成了基本的UI、增加了选择pitch deck、lesson slides和story的选项、暂时移除了#dalle图片以提高速度、需要修复JSON提示。
#JSON #UI #Autodeck
Mar 10, 13:58 @ Yohei
查看原文
(twitter.com)
🛠️ 可以使用 https://t.co/TfOesx9s6e 编辑器中的“Remove bg”工具,利用AI模型删除照片背景、更改照片中的场景和服装,以及消除AI残留,功能很强大。
#hiking gear #remove bg #Swiss alps
Mar 10, 14:23 @ anita
查看原文
(twitter.com)
💬 GPT-4即将发布,是多模态的,未来属于多模态语言模型(LLMs)并且开源,同时@Jim Fan发布了他的团队最新的视觉语言AI Prismer,它采用深度、表面法线、分割等领域专家模型。
#GPT-4 #Prismer #多模态 #开源
Mar 10, 15:33 @ Jim Fan
查看原文
(twitter.com)
💬 最新的语言模型 RLHF 不需要像老模型那样使用不自然的提示技巧,暗示提示工程将最终消失,但是清晰地解释任务仍然是必要的。
#Prompt
Mar 10, 15:35 @ Jim Fan
查看原文
(twitter.com)
💬 Autodeck项目的最新进展包括实现了GCP oAuth scopes、基本UI界面、选择pitch deck、lesson slides或story的选项,但由于现有设置过慢需要重写,同时需要修复JSON格式的问题。
#UI #pitch deck #Autodeck #lesson slides
Mar 10, 15:46 @ Yohei
查看原文
(twitter.com)
💬 人工智能的进步可能会受到新数据知识增量减少的限制,拥有大量有价值的新数据的人将能更快地提高智能水平。
#knowledge #data #GPT
Mar 10, 15:47 @ 硅谷王川 Chuan
查看原文
(twitter.com)
📰 谷歌AI研究人员推出了PaLM-E,这是一个通用机器人模型,可以通过从不同的视觉和语言领域向机器人系统转移知识来执行多个视觉和语言任务。PaLM-E是一种视觉语言模型,它将谷歌强大的大型语言模型PaLM和他们最先进的ViT-22B视觉模型相结合。PaLM-E可以执行视觉任务,例如描述图像,检测对象或分类场景,同时也擅长执行语言任务,例如引用诗歌,解决数学方程或生成代码。PaLM-E的工作原理是将观察结果注入到预训练的语言模型中,并将各种输入转换为与自然单词标记嵌入相同的空间,从而使PaLM-E可以高效地学习机器人任务。
#vision-language #Google AI #机器人 #迁移学习 #多模态 #PaLM-E #通用模型 #语言模型
Mar 10, 17:25 @ Google AI
查看原文
(ai.googleblog.com)
💬 GPT-4若为多模态模型,根据微软之前的Kosmos-1项目,可以预测它可能具备人类所进行的视觉智商测试和无需OCR的阅读理解能力。
#GPT-4 #多模态 #OCR-free reading comprehension
Mar 10, 17:27 @ Jim Fan
查看原文
(twitter.com)
💬 微软与OpenAI正在调整多模态技术,并通过Kosmos-1释放的信息预测,GPT-4可能拥有可媲美人类的视觉智商测试和无需OCR的阅读理解能力。
#多模态 #微软 #OpenAI #Kosmos-1
Mar 10, 17:29 @ Jim Fan
查看原文
(twitter.com)
💬 微软在2023年2月27日公布了Kosmos-1,以“语言不是你所需要的全部:将感知与语言模型对齐”的论文为依据,这也证实了微软正在与OpenAI进行多模态的调整。
#多模态 #微软 #Kosmos-1 #语言模型
Mar 10, 17:32 @ Jim Fan
查看原文
(twitter.com)
🛠️ 无论GPT-4是否在下周发布都不重要,重要的是您需要为多模态LLM API做好准备,这是不可阻挡的力量,很可能在2023年底之前到来,Jim Fan在Twitter上分享了他的AI想法和见解。
#GPT-4 #多模态 #Kosmos-1
Mar 10, 17:41 @ Jim Fan
查看原文
(twitter.com)
📰 AI 生成的危害由用户或公司承担责任这个简单问题却难以回答,而纽约大学教授 Gary Marcus 发表文章警告 Bing 可以轻松创造支持虚假引用的错误信息。
#误导信息 #Companies #Users #AI-generated harm
Mar 10, 21:06 @ Alberto Romero
查看原文
(thealgorithmicbridge.substack.com)
💬 Chatgpt展示了对于一些复杂事实的探讨能力,但与成熟的操作相比,AI的学习能力较弱,人类的优势在于对于未知环境的主动探索和学习。
#Deep discussion #Learning #Testing theories
Mar 10, 23:56 @ 硅谷王川 Chuan
查看原文
(twitter.com)
🛠️ Yohei正在测试由AI生成的幻灯片“AutoDeck”,其中包括有关银行运行历史、FDIC保险和消费者保护法律以及了解何时发生运行的教训。
#bank runs #AI-generated slides #AutoDeck
Mar 11, 03:19 @ Yohei
查看原文
(twitter.com)
📰 ChatGPT声称是“发明者”的游戏Sumplete,是在用户提示下创建数独类谜题,并与至少另一个移动游戏完全相同。
#Sudoku-like puzzles #ChatGPT #游戏 #Sumplete
Mar 11, 07:05 @ Techmeme
查看原文
(www.techmeme.com)