小互的每日动态
🙋 ### **请关注小互的推特 𝕏:**https://twitter.com/xiaohuggg
每日大概晚上11点后在群里发送(群二维码在首页)
以下内容使用群友Arthur等的prompt最佳实践 # Role: 文字排版大师 排版
小互是「互联网的那点事」微博博主,内容经本人授权
如果你想找某个项目可以用control+F,快速定位
短链接直达:http://xiaohu.ai/
11月18日
📣 🔔 Xiaohu.AI日报「11月18日」
✨✨✨✨✨✨✨✨
1⃣️
🔮 Meta Quest3展现混合虚拟现实技术:
混合虚拟现实技术预计明年将大幅增长。
预示虚拟与现实界限的日益模糊。
🔗 https://x.com/xiaohuggg/status/1725850463785074731?s=20
2⃣️
🎬 德国电信广告突显隐私风险:
广告展示数据滥用和AI风险。
着重于网上分享儿童信息的危害。
🔗 https://x.com/xiaohuggg/status/1725810572657357210?s=20
3⃣️
🤖 瑞士研究者与Inkbit合作开发新3D打印法:
创新3D打印技术一次性打印多种材料。
可直接打印功能完整的机器人手。
研究成果发表在Nature杂志。
🔗 https://x.com/xiaohuggg/status/1725801030162723086?s=20
4⃣️
👗 三维扫描技术捕捉衣物细节:
技术增强电脑模拟真实衣物的能力。
专注于褶皱和变形衣服的精确模拟。
对电影、游戏及虚拟试衣应用有重大影响。
🔗 https://x.com/xiaohuggg/status/1725787462382084523?s=20
5⃣️
🚪 OpenAI高级研究员集体辞职:
包括研究总监和AI风险团队负责人。
跟随CEO Sam Altman和总裁Greg Brockman的离职。
🔗 https://x.com/xiaohuggg/status/1725772118091334130?s=20
6⃣️
😂 面部追踪系统演示引起关注:
演示视频显示沙雕风格。
相关代码已发布在GitHub。
🔗 https://github.com/rizkydermawan1992/face-detection
🔗 https://x.com/xiaohuggg/status/1725746727532249483?s=20
7⃣️
🌐 Wikidata发布庞大知识库:
超过120亿个事实数据的免费知识库。
有助于提高LLMs的事实性。
支持多语言,优化信息检索和数据分析。
🔗 https://x.com/xiaohuggg/status/1725726053212312046?s=20
8⃣️
🏛️ OpenAI非盈利组织董事会审查:
董事会成员无公司股份,微软似乎无干预权。
OpenAI以非盈利组织起步,后发展为“有限盈利”公司。
11月17日
📣 🔔 Xiaohu.AI日报「11月17日」
✨✨✨✨✨✨✨✨
1⃣️
🤖 DeepMind的Mirasol3B模型:
更有效地理解和分析视频中发生的事情,即使视频很长。
独特的多媒体处理:同步和非同步文本分析。
视听与文本关系理解:提高长视频分析效率。
🔗 https://x.com/xiaohuggg/status/1725514650840903914?s=20
2⃣️
🎥 Meta AI的Emu Video和Emu Edit:
Emu Video:文本到视频的生成,高质量视频制作。
Emu Edit:图像编辑的指令驱动模型,精确像素修改。
技术创新:两个扩散模型生成高分辨率视频。
🔗 https://x.com/xiaohuggg/status/1725470552318718046?s=20
3⃣️
🌐 screenshot-to-code项目:
- GPT-4V驱动:将屏幕截图转化 为HTML网页。
🔗 https://x.com/dotey/status/1725333564470812773?s=20
4⃣️
👤 微软的Deepfakes Creator:
仅需文本输入就可生成逼真的会说话的真人视频
支持多种语言,还可进行实时问答互动
🔗 https://x.com/xiaohuggg/status/1725363740974236000?s=20
5⃣️
🎶 Deepmind与YouTube的Lyria音乐生成模型:
只要哼唱或者吹口哨就能帮你自动生成交响乐
歌词创作和风格控制:艺术家风格模仿。
特色:生成音频带AI水印。
https://deepmind.google/discover/blog/transforming-the-future-of-music-creation/
🔗 https://x.com/xiaohuggg/status/1725330887318044830?s=20
6️⃣
🏪 GPTs Store界面曝光:GTPs导航站可能会被取代?
精选GPT:展示本周精选GPTs。
热门GPT:社区中受欢迎的GPTs。
特色和趋势:当前列表为空
https://x.com/xiaohuggg/status/1725521961420472757?s=20
7️⃣
🎨 Meshy-1:3D模型生成AI工具:
多样输入:文本和图像到3D模型转换。
风格多样:现实、动漫、卡通等风格选择。
格式支持:多种文件格式,包括Unity插件。
高清纹理:提供4K分辨率PBR纹理。
🔗 https://meshy.ai
🔗 https://x.com/xiaohuggg/status/1725525234412097774?s=20
11月16日
📣 🔔 Xiaohu.AI日报「11月16日」
✨✨✨✨✨✨✨✨
1⃣️
💡 Sam·奥特曼的产品观:
强调优秀产品的重要性。
提出用户对产品的热爱是衡量成功的关键指标。
讨论两种用户群体策略:深度且专注 vs. 广泛且浅层。
🔗 https://x.com/xiaohuggg/status/1725131257699537085?s=20
2⃣️
🛠️ AI视频转录与翻译工具推荐:
高效的转录和翻译速度。
支持OpenAI TTS,多种语言翻译模型。
非广告,基于用户实际体验。
🔗 https://x.com/xiaohuggg/status/1725106873593143721?s=20
3⃣️
🤖 ChatGPT新功能:
利用对话进行学习和自我提升。
永久记忆用户信息。
🔗 https://x.com/xiaohuggg/status/1725084220782235871?s=20
4⃣️
🔊 微软Personal Voice新功能:
1分钟语音样本克隆,支持100种语言。
保障隐私安全,水印安全认证。
首先在西欧、美国东部和东南亚上线。
🔗 https://x.com/xiaohuggg/status/1725070328135832041?s=20
5⃣️
📸 Polycam 3D建模工具:
基于图片或视频快速创建3D模型。
支持多种格式导出,兼容流行3D软件。
无人机图像转换3D模型功能。
🔗 https://x.com/xiaohuggg/status/1725030753749315768?s=20
6⃣️
🔊 Distil-Whisper在线体验:
速度是Whisper的6倍。
更小模型大小,接近Whisper的词错误率。
强大抗噪声能力和减少幻听。
🔗 https://x.com/xiaohuggg/status/1725016340745073136?s=20
7⃣️
🌐 NVIDIA介绍RAG技术:
NVIDIA发布关于RAG(检索增强生成)技术的文章。
RAG技术通过外部信息提升AI模型准确性和可靠性。
NVIDIA为RAG开发了参考架构,简化技术集成。
🔗https://x.com/xiaohuggg/status/1724995873309090071?s=20
8⃣️
💻 LLaMA-Factory:简化大语言模型微调:
提供易用的Web界面,直接进行模型训练、评估和推理。
预集成多种大型语言模型,如LLaMA、BLOOM等。
降低技术门槛,适合非专业用户。
🔗https://t.co/FubJxjHlJf
🔗https://x.com/xiaohuggg/status/1724980497934409783?s=20
9⃣️
📚 DeepMind和Raspberry Pi推出AI课程:
为11至14岁学生设计基础人工智能课程。
内容涉及搜索引擎、自动驾驶等多个AI应用。
提供全套教学资源,包括挑战项目。
🔗https://experience-ai.org
🔗https://x.com/xiaohuggg/status/1724969696217399486?s=20
🔟
🚀 中国开发世界最快互联网FITI:
网络速度1.2Tbps,可秒传150部4K电影。
依托自主研发的路由器、交换机和光纤技术。
连接全国多个城市,展现中国技术实力。
🔗https://x.com/xiaohuggg/status/1724961447011328255?s=20
1⃣1⃣️
💡 ChatGPT Team Plan即将上线:
出现在ChatGPT 3.5页面。
支持2个用户,新的Gizmo UI。
可能针对账号共享,影响OpenAI收入和服务。
🔗https://x.com/xiaohuggg/status/1724955699602771975?s=20
1⃣2⃣️
🔧 微软推出AI芯片但不出售:
Azure Maia AI芯片和Azure Cobalt CPU。
Maia AI专为云端AI工作,Cobalt CPU支持一般云服务。
🔗https://x.com/xiaohuggg/status/1724950322442035478?s=20
1⃣3⃣️
📈 腾讯应对芯片禁令:
针对美国芯片领域禁令,腾讯表示库存充足。
现有库存能支持几代大模型更新,云能力不受影响。
🔗https://x.com/xiaohuggg/status/1724804784375607429?s=20
11月15日
🔔 Xiaohu.AI日报「11月15日」
✨✨✨✨✨✨✨✨
1⃣️
🍏 Apple Vision Pro 用户教学视频:
展示了Apple VisionOS beta 6的新手入门视频。
通过眼睛注视和手指轻捏操作,简化用户体验。
🔗 https://x.com/xiaohuggg/status/1724712023009984763?s=20
2⃣️
🤖 Story-to-Motion 动画生成:
由商汤科技研究院开发,将文本故事转换成连续动画。
能生成无限长的角色动画,实现连续的动作和行为表现。
🔗 https://x.com/xiaohuggg/status/1724706784332664998?s=20
3⃣️
🌐 Spline 支持高斯泼溅技术:
允许用户从手机上捕捉3D物体,导入Spline进行处理。
3D高斯溅射技术突出了易用性、快速渲染和高质量3D图像生成。
🔗 https://x.com/xiaohuggg/status/1724685982996500786?s=20
4⃣️
☁️ DeepMind的GraphCast天气预报模型:
能在不到一分钟完成10天的天气预报,准确性超过欧洲中期天气预报中心标准。
已开源,能预测极端天气事件如飓风、洪水。
🔗 https://x.com/xiaohuggg/status/1724643055532413310?s=20
5⃣️
🔒 ChatGPT Plus会员注册暂停:
奥特曼宣布由于服务压力,暂停ChatGPT Plus会员注册。
持续时间尚未确定。
🔗 https://x.com/xiaohuggg/status/1724631012259557686?s=20
6⃣️
🎭 ChatAnything视频聊天:
字节跳动开发,通过文本描述生成独特虚拟角色。
角色拥有独特外观、声音和个性,可进行语音和视频聊天。
🔗 https://x.com/xiaohuggg/status/1724597996225232906?s=20
7⃣️
🔍 Endless Zoom 无限放大图像:
利用潜在一致性模型实现图像无限扩充。
可以不断放大或缩小图像,内容持续生成,无重复或结束。
🔗 https://x.com/xiaohuggg/status/1724591088961507622?s=20
🌐 在线体验:https://endless-zoom.vercel.app
8⃣️
🔊 不可描述声音网站:
收录用户上传的100%真实声音。
网站提供了丰富的声音资源,用户也可上传分享。
🔗 https://x.com/xiaohuggg/status/1724441907273597151?s=20
👂 听听看:https://orgasmsoundlibrary.com
11月14日
🔔 Xiaohu.AI日报「11月14日」
✨✨✨✨✨✨✨✨
1⃣️
🎶 Music ControlNet:
可精确控制音乐元素如旋律、音量和节奏。
允许细致调整音乐的每个细节。
结合全局属性和时间变化属性的高级音乐生成。
🔗 https://x.com/xiaohuggg/status/1724430161574027280?s=20
2⃣️
📚 学习GPTs调用外部API:
- 提供了如何在GPTs中利用外部API的指南。
🔗 https://x.com/xiaohuggg/status/1724317866013704384?s=20
3⃣️
📱 MM-Navigator:
基于GPT-4V,能与智能手机界面交互并执行动作。
在iOS和Android屏幕数据集上展示高准确性。
动作描述准确率达91%,执行指令准确率75%。
🔗 https://x.com/xiaohuggg/status/1724278540269682737?s=20
4⃣️
🗣️ AI VoiceOver:
结合GPT 4V API和TTS,识别视频内容并添加语音解说。
支持最大100M视频,自动分析和配音。
🔗 https://gptv-app.vercel.app
🔗 https://x.com/xiaohuggg/status/1724248442669879806?s=20
5⃣️
🧠 大语言模型幻觉排行榜:
GPT 4和Google Palm比较,GPT 4幻觉率最低。
GPT-4准确率97.0%,幻觉率3.0%,Google Palm幻觉率高达27.2%。
🔗 https://x.com/xiaohuggg/status/1724244607092064767?s=20
6⃣️
💻 英伟达最新AI芯片H200:
推理速度是前代H100的两倍。
使用HBM3e内存,显存带宽提升至4.8TB
7️⃣
🎪 分享一个好玩的线下活动:
AI+X World Tour 首站在大理举办
活动包括Demo展示、Free Talk环节、项目体验。
去中心化方式进行,苍山洱海间参与者随时可以自主发起圆桌讨论
同时有黑客松、论文讨论、大牛分享等环节
🔗 https://waytoagi.feishu.cn/wiki/RYrJwrvSXi4qSMkgCrQc2MFGnAd?table=ldxQVBfWNYzzTh9z
11月13日
🔔 Xiaohu.AI日报「11月13日」
✨✨✨✨✨✨✨✨
1⃣️
🤖 OpenAI CEO Sam Altman 计划揭秘:
OpenAI 寻求微软更多资金支持建设 AGI。
GPT-5 信息及公司AGI愿景披露。
强调 AI 模型需要创造新知识能力。
🔗 https://x.com/xiaohuggg/status/1724025206187217049?s=20
2⃣️
💼 POPai: 一个不错的AI工作助手:
高效处理文档和PPT创作。
GPT-4V图像API支持,识别多种文档格式并提取PDF结构与内容。
联网搜索功能,可直接解析arxiv论文链接
多功能支持:流程图创建、SEO、博客、社交媒体管理等。
提示词生成器辅助写作。
🚪传送门:https://bit.ly/3MFvNEL
🔗 https://x.com/xiaohuggg/status/1723994341709160750?s=20
3⃣️
👾 ARVIS-1 AI 代理开发进展:
多模态记忆功能,处理视觉与文字信息。
在 Minecraft 中完成200多任务展现卓越性能。
🔗 https://x.com/xiaohuggg/status/1723936044406734876?s=20
4⃣️
🔍 Mozilla 推出 Fakespot Chat 功能亮点:
AI 驱动识别虚假评论。
AI 聊天机器人提供产品咨询。
自动生成产品优缺点。
🔗 https://fakespot.com/analyzer
🔗 https://x.com/xiaohuggg/status/1723915546218094816?s=20
5⃣️
🔎 最简单搜索GPTs方式:
- 直接在谷歌使用 site:http://chat.openai.com/g 进行搜索。
🔗 https://x.com/dotey/status/1723840471103869267?s=20
6⃣️
✍️ D-POINT 开源数字手写笔:
使用摄像头跟踪和惯性测量来实现输入。
精确地追踪笔在空间中的位置和方向。
无需特定硬件,可在任意平面使用,兼容消费级网络摄像头。
🔗 https://github.com/Jcparkyn/dpoint
🔗 https://twitter.com/xiaohuggg/status/1724075967948492986
11月12日
🤖 🔔 Xiaohu.AI日报「11月12日」
✨✨✨✨✨✨✨✨
1⃣️
🌍 WebPilot 联网API介绍:
介绍了WebPilot作为一个高速准确的联网API。
建议替换默认的Bing联网方式。
提供了将WebPilot添加到GPTs的具体步骤。
🔗https://x.com/xiaohuggg/status/1723695389357015486?s=20
2⃣️
🔗 FABLE系统帮助“恢复”404页面:
微软和南加州大学研发的FABLE系统。
当网页链接失效时,能够提供新的URL恢复内容。
🔗https://x.com/xiaohuggg/status/1723688885665055080?s=20
3⃣️
🧐 解释DeepMind视频:
用户分享了对DeepMind视频内容的困惑。
GPT对视频中的复杂结构给出了解释。
🔗https://x.com/xiaohuggg/status/1723686683458318340?s=20
4⃣️
🤖 Motif AI模型的创新:
Meta AI与麦吉尔大学共同开发的Motif AI模型。
Motif利用LLM知识帮助AI代理快速学习。
🔗https://x.com/xiaohuggg/status/1723660141961339098?s=20
5⃣️
🤔 人类对AI依赖性的反思:
讨论了人们对AI的依赖及其影响。
描述了AI不可用时的无助感。
🔗https://x.com/xiaohuggg/status/1723565874660196793?s=20
6⃣️
🛍️ 《剁手GPT》购物助手GPTs:
- 一款能自动识别物品并比价的AI电商bot。
🔗https://chat.openai.com/g/g-cGx5me4XG-duo-shou-gpt
🔗https://x.com/xiaohuggg/status/1723554847147057501?s=20
7⃣️
📝 比尔·盖茨对AI代理未来的见解:
原文:https://gatesnotes.com/AI-agents
🔗https://x.com/xiaohuggg/status/1723547104134803596?s=20
8⃣️
✏️ Draw-a-UI与DesignerGPT网页设计工具:
Draw-a-UI工具可将手绘草图转化为网页。
DesignerGPT是一个快速创建和托管网站的自定义GPT机器人。
🔗https://chat.openai.com/g/g-2Eo3NxuS7-designergpt
🔗https://x.com/xiaohuggg/status/1723537400461430794?s=20
11月11日
🔔 Xiaohu.AI日报「11月11日」
✨✨✨✨✨✨✨✨
1️⃣
🤖 贾维斯Jarvis项目:
实现了语音操控图像的技术,包括搜索、选择和图像修复。
不依赖外部API或OpenAI技术,所有处理在本地完成。
项目Open-NLLB计划开源,并等待更强大的GPU支持研究。
🔗https://github.com/gordicaleksa/Open-NLLB
🔗https://x.com/xiaohuggg/status/1723337481142297039?s=20
2️⃣
📘 《Hello 算法》教程:
提供动画图解和一键运行功能的开源数据结构与算法教程。
支持多种编程语言,适合初学者学习和理解算法原理。
🔗https://x.com/xiaohuggg/status/1723308139750285583?s=20
3️⃣
🎶 MusicGen Stereo立体声模型:
- Meta AI发布的升级版MusicGen模型,可以将单声道音乐转化为立体声。
🔗https://x.com/xiaohuggg/status/1723252133796147569?s=20
4️⃣
🎥 ZeroNVS 360度视频合成:
从单张照片合成360度视角视频的技术。
适用于复杂环境,利用先进算法理解深度和空间。
🔗https://x.com/xiaohuggg/status/1723242598952042507?s=20
5️⃣
🌤️ 做了个GPTs 3D立体天气海报:
- 改进了3D立体天气海报的画风和天气融合度。
🔗https://chat.openai.com/g/g-aTdwKcgsE-cityweatherart
🔗https://x.com/xiaohuggg/status/1723211106125324399?s=20
6️⃣
🖌️ Runway Motion Brush功能预告:
- 即将推出的功能,能让画面中的物体和人物随手势动起来。
🔗https://x.com/xiaohuggg/status/1723153054646849951?s=20
7️⃣
🔮 GPT-5 型号:Gizmo内测:
- 传说中的GPT-5型号正在进行灰度测试阶段。
11月10日
🤖 🔔小互的推特 11月10日更新
✨✨✨✨✨✨✨✨
1️⃣
🎙️ EmotiVoice情感TTS引擎:
网易有道开发的TTS引擎,支持2000种语音,中英双语。
特色在于情感合成,可表达快乐、兴奋、悲伤等多种情绪。
提供易用网络界面和批量生成脚本接口。
🔗 http://github.com/netease-youdao/
🔗 https://x.com/xiaohuggg/status/1722953419630252077?s=20
2️⃣
🖥️ 与GPT-4共享屏幕:
通过脚本共享电脑屏幕,让GPT-4实时提供指导和建议。
类似虚拟助手,助力工作学习,如在Blender中的模型变换指导。
🔗 https://x.com/xiaohuggg/status/1722937627790528791?s=20
3️⃣
🤲 HotGestures虚拟现实手势控制:
剑桥大学研究人员开发的虚拟现实技术,通过手势控制3D建模工具。
无需菜单交互,提供直观的“超人”式操作体验。
🔗 https://x.com/xiaohuggg/status/1722898664409186568?s=20
4️⃣
🌐 3D城市立体天气预报:
通过简单输入城市名称,获取立体天气预报海报。
正在改进中,希望测试并提供反馈。
🔗 https://chat.openai.com/g/g-aTdwKcgsE-postercraft
🔗 https://x.com/xiaohuggg/status/1722888249025442094?s=20
5️⃣
💻 Public APIs集合:
收集全球免费API集合的GitHub列表,涵盖多个领域。
对于构建GPTs等AI应用非常有用。
可以利用LLMs链接并使用这些API。
🔗 https://github.com/public-apis/public-apis
🔗 https://x.com/xiaohuggg/status/1722884574349570295?s=20
6️⃣
🎥 文本转3D动画视频:
@pika_labs 即将发布支持生成高清视频的Text to Video 1.0版本。
AI视频制作领域的竞争进入白热化阶段。
🔗 https://x.com/xiaohuggg/status/1722835648959373607?s=20
7️⃣
📌 AI pin发布会视频:
由前苹果团队开发的可穿戴AI智能硬件,获得知名企业投资。
无需唤醒词,通过语音控制,内置投影仪和深度传感器投影交互界面。
功能类似智能手机,完全由AI驱动。
🔗 https://hu.ma.ne/aipin
🔗 https://x.com/xiaohuggg/status/1722787102415622380?s=20
8️⃣
🌄 @runwayml自然风光视频:
- 生成的自然风光视频质量高,以假乱真。
🔗 https://x.com/xiaohuggg/status/1722803484674961671?s=20
9️⃣
🚀 NASA+流媒体服务:
NASA推出的流媒体服务,无需订阅,无广告。
提供丰富的科普视频和纪录片,如《Other Worlds》和《Space Out》。
通过多平台可访问,包括英文和西班牙语内容,还有儿童动画节目。
🔗 https://x.com/xiaohuggg/status/1722620148778258513?s=20
历史项目记录:http://xiaohu.ai/
11月9日
🤖 🔔小互的推特 11月9日更新
✨✨✨✨✨✨✨✨
今日AI新闻简报
🍏 苹果新专利:CGR技术生成虚拟形象,展示穿戴效果
🧠 微软AI专利:充当治疗师,疏导心理问题
📊 阿里CEO吴泳铭:将开源国内最大720亿参数模型
🚫 李彦宏:反对重复造大模型,浪费社会资源
🗣 苹果改造Siri:明年或用大语言模型
🔒 谷歌Open Se Cura:为Pixel带来低功耗AI
💻 微软计划:AI助手Copilot将进入Windows 10
🛒 亚马逊:成立AI训练团队,投资数百万美金
🛍 京东CEO:正测试AI自动生成营销内容
⚙️ ChatGPT持续宕机,CEO道歉
https://x.com/xiaohuggg/status/1722608037406609834?s=20
1️⃣
🎉 GitHub Universe 2023新功能:
新的Copilot聊天功能,Copilot支持手机应用,GitHub Copilot Workspace,产问题查询
GitHub Copilot企业版:每月39美元的高级服务。
GitHub Copilot合作伙伴计划,GitHub高级安全功能
文本:https://x.com/xiaohuggg/status/1722539994404020336?s=20
2️⃣
🚀 GitHub Copilot Chat全新升级:
- 由GPT-4驱动,支持代码生成和自然语言编程
- 在代码环境中直接进行AI驱动的讨论。
- 斜杠命令简化复杂编程任务等
🔗 https://x.com/xiaohuggg/status/1722540507786813601?s=20
3️⃣
📊 YouTube AI功能测试:
评论摘要:自动总结评论区热门话题。
帮助创作者和观众互动,影响内容创作方向。
控制总结主题:删除特定评论功能。
🔗 https://x.com/xiaohuggg/status/1722523660630843403?s=20
4️⃣
🎓 吴恩达AI课程推介:
8集中英双语视频课程,涵盖生成式AI的基础和应用。
课程目的:教育和启发,理解AI的能力与局限。
🔗 B站播放列表:https://space.bilibili.com/589397373/channel/collectiondetail?sid=1844068
🔗https://x.com/xiaohuggg/status/1722476562032087474?s=20
5️⃣
💡 Context CLI工具和数据集:
涵盖1218个顶级Python库的400万个嵌入表示。
命令行搜索学习库,提高开发效率。
目标:让开发者像使用ChatGPT一样方便地获取Python库信息。
🔗https://x.com/xiaohuggg/status/1722460283409736084?s=20
6️⃣
🔍 AI分析Reddit帖子揭露隐私:
AI通过写作风格识别个人信息:年龄、位置、性别、收入。
高准确率:GPT-4以85%准确识别。
隐私关注:LLMs使用可能泄露个人信息。
🔗https://x.com/xiaohuggg/status/1722433237480538151?s=20
7️⃣
🏃 YOLO-NAS Pose:实时人体姿态估计模型:
识别人体关节,创建姿态骨架图。
适用于多种场景和设备。
🔗 https://x.com/xiaohuggg/status/1722414815854174682?s=20
8️⃣
🧠 Google Deepmind论文解读:
《Levels of AGI》:AGI发展六个阶段。
GPT-4当前处于Level 1“涌现”阶段。
🔗 https://x.com/xiaohuggg/status/1722403240229400946?s=20
历史项目记录:http://xiaohu.ai/
11月8日
🤖 🔔小互的推特 11月8日更新
✨✨✨✨✨✨✨✨
1️⃣
📢 服务中断更新:
ChatGPT和API等服务在部分地区和用户中出现中断。
官方正积极修复中。
🔗 https://x.com/xiaohuggg/status/1722252105405403569?s=20
2️⃣
🎮 3D角色动作创新:
简单文字描述即可生成3D角色动作。
潜在的革命性产品,提供多样动作与姿态。
🔗 https://x.com/xiaohuggg/status/1722246131294601658?s=20
3️⃣
🔍 Moogle数学定理搜索工具:
快速精准地在mathlib4库中找到数学定理。
由@Morph_labs开发,已有超过1200名用户试用。
数学家陶哲轩(Terence Tao)也在使用者之列。
🔗 https://x.com/xiaohuggg/status/1722236524430082141?s=20
4️⃣
🔊 OpenAI TTS文字转语音新体验:
网页版服务,五种男声和两种女声选择。
简便、免费,支持中文绕口令。
🔗 https://x.com/finedtune/status/1721760389581709778?s=20
5️⃣
🧠 NOIR脑机接口系统:
斯坦福大学开发,用脑电波操作机器人执行任务。
在20项家务活动中展现了成功应用。
项目意义重大,未来可能帮助残疾人提升生活质量。
🔗 https://x.com/xiaohuggg/status/1722183435140395051?s=20
6️⃣
🤔 数据共享与AI未来展望:
OpenAI鼓励用户贡献私有数据来创建GPTs,可能是数据获取的策略。
用户的数据源成为AI智力来源,或许预示着与AI的融合未来。
🔗 https://x.com/xiaohuggg/status/1722129966719181020?s=20
7️⃣
🔧 浏览器插件应用创新:
结合GPT-4V和TTS API,创建辅助解释网页内容的工具。
功能多样,从解释表格到学习视觉科目。
🔗 https://x.com/xiaohuggg/status/1722118158994321758?s=20
8️⃣
🎥 Dollars VIVA动作捕捉工具:
低成本、高质量的全身动作捕捉方案。
支持SteamVR兼容硬件,易于设置。
🔗 https://x.com/xiaohuggg/status/1722085422833299784?s=20
9️⃣
🤖 Lang2LTL人机交互系统:
基于大语言模型,简化人机交流。
让机器人理解常规语言指令,易于部署和使用。
🔗 https://x.com/xiaohuggg/status/1722062175215436015?s=20
🔟
🎮 游戏解说新体验:
- 使用GPT 4V视觉API + TTS解说《英雄联盟》。
🔗 https://x.com/xiaohuggg/status/1722041586044084587?s=20
历史项目记录:http://xiaohu.ai/
11月7日
🤖 🔔小互的推特 11月7日更新番外
✨✨✨✨✨✨✨✨
9️⃣
今天被OpenAI刷屏了 帮你们总结下今天别的AI新闻
🚀 马斯克 xAI 公司宣布推出 PromptIDE开发工具
🛑 阿里云 A100 服务器业务暂停出租 算力价格飞涨
🎙️ 微软发布 7 款针对对话优化的AI语音,更加逼真自然
🔍 谷歌正测试 2项AI功能,以改善YouTube观看体验
🎮 微软将AI引入Xbox,可生成 AI 角色、故事剧情等
🏫 英国一学校启用人工智能担任校长,帮助教师解学生
🤖 百度虚拟数字人「度晓晓」携文心一言入驻淘宝
👥 美团推出 AI 产品 Wow 定位 AI 朋友社区
🤖 🔔小互的推特 11月7日更新
✨✨✨✨✨✨✨✨
0️⃣
OpenAI开发者大会后收集了一些有趣的案例
⚡️ GPT-4-Turbo速度演示
🌟 GPTs示范
🎙️ 创建AI体育解说员
🤖 创建一个NPC交互
👁️ 利用GPT-4 视觉 API 实时地识别正在发生的事情
https://x.com/xiaohuggg/status/1721781696474083436?s=20
1⃣️
🛠️ OpenAI开源工具:
发布了Consistency Decoder工具改进AI图像生成
针对稳定扩散VAE模型,提升图像清晰度和连贯性
对需高质量图像生成者有大用
🔗 https://github.com/openai/consistencydecoder
🔗 https://x.com/xiaohuggg/status/1721745108838834264?s=20
2⃣️
🌟 AI时代见证:
描述了身处AI技术飞速发展的时代的感受
OpenAI科学家表达了对GPT发展速度的无法预测
提醒大家抓紧科技飞跃的十字路口
🔗 https://x.com/xiaohuggg/status/1721726020125102342?s=20
3⃣️
🖥️ ChatGPT界面更新:
ChatGPT新版界面已经更新
ALL Tools内置,Plus用户专享
提供链接以便用户更新至新界面
🔗 http://chatgpt.com/create
🔗 https://x.com/xiaohuggg/status/1721691406832685070?s=20
4⃣️
🤖 GPTs商店新机器人:
【GPTs商店】上架了16个OpenAI官方开发的机器人
提供了机器人的详细介绍
🔗 https://x.com/xiaohuggg/status/1721702855642603713?s=20
5⃣️
🎥 OpenAI开发者大会视频:
提供了45分钟的中英双语全程视频
呼吁收藏点赞转发
🔗 https://x.com/xiaohuggg/status/1721699533485375638?s=20
6⃣️
🌐 Gsplat.js 开源库:
介绍了高斯渲染库Gsplat.js的特点
高效处理大规模点云数据
与three.js兼容,支持实时渲染
🔗 https://x.com/xiaohuggg/status/1721855088602533890?s=20
7⃣️
👁️ GPT-4V 视觉能力教程:
介绍了如何使用GPT-4V的视觉能力和TTS功能
提供了创建讲述视频的详细步骤
提供了OpenAI官方的详细介绍和GitHub示范链接
🔗 https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding
🔗 https://twitter.com/geepytee/status/1721705524176257296
8⃣️
📹 MM-Vid 视频理解系统:
Microsoft Azure AI开发的集成视频理解系统
结合GPT-4V能力,理解长视频内容并进行问答
自动识别视频中的元素,转录多模态信息成文本脚本
🔗 https://x.com/xiaohuggg/status/1721756130622444010?s=20
历史项目记录:http://xiaohu.ai/
11月6日
🤖 🔔小互的推特 11月6日更新
✨✨✨✨✨✨✨✨
1⃣️
🎥 新版ChatGPT界面和功能:
展示了更新后的操作界面和增强功能
操作演示视频已公布
🔗 https://x.com/xiaohuggg/status/1721468276621152724?s=20
2⃣️
💡 OpenAI 开发者大会新泄露信息:
引入了128k上下文的GPT-4 turbo API
新的GPT-4 视觉API和代码解释器API
包含DALLE-3 API、TTS API以及价格信息
🔗 https://x.com/xiaohuggg/status/1721458421659226507?s=20
3⃣️
🎭 E4S:一个精细化的面部交换技术:
换脸更自然,处理细节如痣、皱纹
光照和阴影的精准呈现
🔗 https://x.com/xiaohuggg/status/1721446344521633955?s=20
4⃣️
👥 黄家人对人工智能进程的影响:
- Nvidia的首席执行官和AMD的首席执行官竟是亲戚
🔗 https://x.com/xiaohuggg/status/1721425305448116298?s=20
5⃣️
🤖 RoboGen:自动生成机器人学习系统:
自我引导的提出-生成-学习循环
自 动学习执行多样化任务
🔗 https://x.com/xiaohuggg/status/1721402636627492973?s=20
6⃣️
🏭 李开复AI公司零一万物估值破亿:
发布Yi系列大模型
Yi-34B领先多语言榜单,Yi-6B擅长长文本处理
🔗 https://x.com/xiaohuggg/status/1721387032793301461?s=20
7⃣️
🔊 ElevenLabs推出TurboV2版本:
高质量文本到语音技术,低延迟
响应时间低至400毫秒
提供便捷集成API
🔗 https://x.com/xiaohuggg/status/1721371235773501646?s=20
8⃣️
🖥️ GPT-4V-Act:多模态AI助手:
模拟人类通过鼠标和键盘网页浏览
视觉理解技术辨认网页元素
🔗 https://x.com/xiaohuggg/status/1721364758581195147?s=20
9️⃣
📚Anna的档案馆获取读秀图书数据库:
获得了750万本中文非小说类图书,总计359TB数据
超过Library Genesis的收藏量
大模型公司能给他们提供OCR和文本提取服务,将会获得Anna的档案馆一年的独家访问权
🔗 https://annas-blog.org/duxiu-exclusive-chinese.html
🔗 https://x.com/xiaohuggg/status/1721532104998105264?s=20
历史项目记录:http://xiaohu.ai/
11月5日
🤖 🔔小互的推特 11月5日更新
✨✨✨✨✨✨✨✨
1️⃣
🚀 马斯克 推出的全新AI模型 Grōk:
超长提示:可处理长达25,000字符的查询
X平台实时搜索,速度近乎屏幕刷新率
根据用户喜好调整AI回应风格
庞大知识库:使用“The Pile”数据集和X平台的Exabytes数据微调
提供API接口,支持语音交互、图像生成与识别、音频识别
特斯拉汽车本地版本
🔗 https://x.com/xiaohuggg/status/1720836000170250589?s=20
2️⃣
🌐 Grok系统UI全揭秘:
多任务处理,对话分支查看回复
可以在VS代码编辑器中打开代码片段
Markdown编辑器内查看和保存Grok回复
含彩蛋的幽默模式切换
🔗 https://x.com/op7418/status/1721067624954843542?s=20
3⃣️
📚 http://X.ai 揭示Grok信息:
灵感来源于《银河系漫游指南》
旨在回答几乎所有问题,设计带有幽默感
技术上每周更新,高效训练大型语言模型
🔗 https://x.com/xiaohuggg/status/1721034863938285687?s=20
4⃣️
💃Mootion:3D人体动作生成:
通过文本描述生成3D角色动作
支持多种3D建模软件,如Blender、3Ds Max、Maya
动作可以下载为视频和FBX格式
🔗 https://x.com/xiaohuggg/status/1721135012773531802?s=20
5⃣️
🌟 Induced AI:AI原生浏览器RPA平台:
OpenAI CEO个人投资
模拟人类浏览网页行为,自动化信息搜集和处理
两位18和19岁的年轻创始人
内置反机器人检测能力,230万美元首轮融资
🔗 https://x.com/xiaohuggg/status/1721072339943833685?s=20
6⃣️
🔨 CSM ai发布图转3D模型 Cube v1.2-turbo涡龙增版:
预览速度快,3分钟出3D草图
更精确控制Image-to-3D功能,风格一致性提升
🔗 https://x.com/xiaohuggg/status/1721125416566693986?s=20
7⃣️
🤖 ChatGPT新功能和开发者大会细节:
即将推出机器人商店,类似AppStore
提供沙盒环境,自定义操作,知识文件
包含工具、分析、草稿、发布和分享功能
🔗 https://x.com/xiaohuggg/status/1720992954947715293?s=20
8️⃣
🎬 1stAI:AI驱动视频编辑设备:
根据故事板图片自动创建视频
支持黑白动画草图转换,附带特定风格和音乐
目标是让任何人都能与AI交互制作电影
🔗 https://vimeo.com/875098371/451941d753
🔗https://x.com/xiaohuggg/status/1720985383075512782?s=20
历史项目记录:http://xiaohu.ai/
11月4日
🤖 🔔小互的推特 11月4日更新
✨✨✨✨✨✨✨✨
1️⃣
🏙️ Dall-E 3创造城市3D立体天气海报:
GPT-4 ALL Tools的操作案例。
将城市标志性建筑与天气信息结合。
提示词见ALT工具内。
https://x.com/xiaohuggg/status/1720792193848484000?s=20
2️⃣
🧠 GPT-4 ALL Tools测试:
多次测试全能型任务执行,发现优化仍需完善。
突破性尝试:无插件旅游规划,查询细节直接访问网站。
AI Agent初露端倪,尽管存在问题和语言回复偏好英语。
3️⃣
🔧 3.5版本灰度测试ALL Tools:
多用户反映3.5版本大量灰度ALL Tools。
4️⃣
👨🔬 RT-Trajectory项目:
Google DeepMind、加州大学、斯坦福大学和Intrinsic联合研发。
通过轨迹草图教会机器人完成复杂任务。
增强机器人对新任务的适应学习能力。
5️⃣
🤗 Dot:AI生活伴侣:
OpenAI基金投资,苹果前设计师打造。
记忆互动,深入理解用户生活主题、想法、习惯。
预测需求,主动帮助,提前建议解决方案。
视觉上采用卡片式设计,提升信息检索与交互体验。
6️⃣
🗣️ Distil-Whisper语音识别:
Hugging Face团队开发,Whisper模型的高效版本。
体积减半,速度提升六倍,WER不超过1%。
辅助Whisper模型,推测性解码速度提升。
7️⃣
📷 Umi-OCR离线图片文字识别:
开源免费OCR软件,支持多语言识别。
排除水印区域,提取干净文本。
忽略特定区域文字识别,命令行调用,软件联动能力。
粘贴图片即可自动识别。
历史项目记录:http://xiaohu.ai/
11月3日
🤖 🔔小互的推特 11月3日更新
✨✨✨✨✨✨✨✨
1⃣️
💻 ChatGPT新版本界面和功能曝光:
✨ Magic Maker功能
💬 指定内容回复
⚙️ 高级自定义功能
🔗 对接私有数据和API接口
🔄 自定义动作执行能力(AI Agent)
🏢 ChatGPT Team计划
https://x.com/xiaohuggg/status/1720358300859211827?s=20
2⃣️
🎵 MusicGen Remixer音乐改编工具:
上传歌曲,描述风格,AI即创造新混音。
可按要求调整歌曲风格,如更快乐或加摇滚元素。
https://x.com/xiaohuggg/status/1720421140416614607?s=20
3⃣️
🛠️animatediff视频大火
一个女孩的一生短片作者Mae制作
工具:SD模型,用ComfyUI跑animatediff工作流
https://x.com/xiaohuggg/status/1720397839472411034?s=20
4⃣️
🚀 马斯克预告@xAI首个AI产品发布:
明天对选定群体开放。
宣称在某些方面是市场最佳。
https://x.com/xiaohuggg/status/1720391068162904204?s=20
5⃣️
🔍 Instagram的“AI friend”项目泄露:
允许用户定制AI“朋友”并进行交谈。
可提问、讨论挑战或头脑风暴想法。
https://x.com/xiaohuggg/status/1720436822374006850?s=20
6⃣️
🧠 物理神经网络最新研究突破:
由悉尼大学和加州大学研究。
实现实时学习和记忆,图像识别准确率高达93.4%。
在Nature杂志上发表。
https://x.com/xiaohuggg/status/1720336909795537170?s=20
7⃣️
🎥 Runway文本到视频模型Gen-2升级:
AI视频制作质量提升,接近商用级别。
视频作者:@maxescu 效果惊艳
https://x.com/xiaohuggg/status/1720285614069981312?s=20
8⃣️
🖼️ Rodin Gen-1根据文字描述创建3D模型:
由@DeemosTech,一家中国公司开发。
生成质量高,可处理复杂形状。
https://x.com/xiaohuggg/status/1720275052573466863?s=20
9⃣️
🛒 Google推出商品图像工具Product Studio:
基于生成性AI,帮助创建商品广告图。
商家可利用文本到图像AI功能免费创建产品图像。
https://x.com/xiaohuggg/status/1720263144663396404?s=20
历史项目记录:http://xiaohu.ai/
11月2日
🤖 🔔小互的推特 11月2日更新
✨✨✨✨✨✨✨✨
1️⃣
🎬 Runway升级:
Gen-2模型升级,提高了视频生成的质量。
确保视频内容与输入(无论是文本还是图像)更加匹配和一致。
🔗 https://x.com/xiaohuggg/status/1720069510324244986?s=20
2️⃣
📘 微软发布的AI课程:
为初学者设计的12课时的生成式AI课程。
学员不仅学习理论,还会实操,模拟创建一个使用生成式AI技术的创业公司。
🔗 https://x.com/xiaohuggg/status/1720045400420401385?s=20
3️⃣
⛈ MetNet-3天气预测:
由Google 和 DeepMind共同开发的AI模型。
能准确预测未来24小时的核心天气变量,准确性超越当前先进的物理天气预测模型。
🔗 https://x.com/xiaohuggg/status/1720029553299701846?s=20
4️⃣
🎨 Luma AI的3D模型工具:
Genie可以根据文本描述在10秒内快速生成3D模型。
提供了在他们的Discord频道中的体验。
🔗 https://x.com/xiaohuggg/status/1720016479960301631?s=20
5️⃣
🩺 AI诊断2型糖尿病:
通过声音在10秒内诊断,准确率高达89%。
识别2型糖尿病患者与非糖尿病患者之间的声音差异。
🔗 https://x.com/xiaohuggg/status/1719977678236012670?s=20
6️⃣
📸 CustomNet图片技术:
由清华大学、腾讯PCG和东京大学联合开发。
可以更好地将指定图片中的物品融合到新生成的图片中。
可以用不同的视角和位置来展示这个物品
🔗 https://x.com/xiaohuggg/status/1719906604056006801?s=20
7️⃣
🧬 AlphaFold蛋白质预测:
由DeepMind和Isomorphic Labs合作开发的蛋白质三维结构预测模型。
该模型不仅提高了蛋白质结构的预测能力,还扩展到了其他生物分子。
🔗 https://x.com/xiaohuggg/status/1719894087472677284?s=20
8️⃣
🌌 Stability AI图像增强:
Sky Replacer:一个允许用户更改他们原始照片中天空颜色和美学的工具。
Stable 3D:用户可以通过选择一个图像或插图,或者编写一个文本提示来生成3D图像。
🔗 https://x.com/xiaohuggg/status/1719755727458406705?s=20
历史项目记录:http://xiaohu.ai/
11月1日
🤖 🔔小互的推特 11月1日更新
✨✨✨✨✨✨✨✨
1⃣️
🛠️ Hayo工具介绍:
覆盖多种聊天模型和场景
针对普通用户设计的AI换脸和视频换脸工具。
丰富的命令库和场景库,支持多语言。
🔗https://hayo.com
🔗https://x.com/xiaohuggg/status/1719653666351898848?s=20
2⃣️
📸 Blackmagic Camera:
专为iPhone设计的摄影APP,提供专业级的控制选项。
一键调整多种拍摄参数,支持高达4K分辨率的录制。
昨日苹果发布会视频即是此APP拍摄。
🔗https://x.com/xiaohuggg/status/1719644440917324219?s=20
3⃣️
📚 使用GPT-4+DALL-E 3进行历史模拟教学:
文本和图像结合的交互式历史教学模式。
模拟各种历史环境和角色,提高教学沉浸度。
🔗https://x.com/xiaohuggg/status/1719603184791101500?s=20
4⃣️
🎥 VideoCrafter1:
腾讯AI实验室开发的高质量视频生成模型。
提供文本到视频和图像到视频两种模式。
🔗https://ailab-cvc.github.io/videocrafter/
🔗https://x.com/xiaohuggg/status/1719592977180549501?s=20
5⃣️
👂 基因治疗恢复失聪儿童听力:
世界首例通过基因治疗成功恢复自然听力通路。
成功改善了参与儿童的听力,医学领域的重要突破。
🔗https://x.com/xiaohuggg/status/1719582434189267222?s=20
6⃣️
🎮 “愤怒的南瓜”游戏:
GPT-4和DALL•E 3合作完成的游戏。
全部代码和图形都是由AI生成。
🔗https://bestaiprompts.art/angry-pumpkins/index.html
🔗https://x.com/dotey/status/1719460404521222247?s=20
7⃣️
📱 Vivo大模型:
Vivo推出五个大型自研模型。
宣称在中文能力方面达到行业第一。
🔗https://x.com/xiaohuggg/status/1719543731005911066?s=20
8⃣️
💼 百度文心一言专业版:
上线专业版,定价明确59.9/月。
基础版依然免费开放。
🔗https://x.com/xiaohuggg/status/1719549419757212119?s=20
历史项目记录:http://xiaohu.ai/
10月31日
🤖 🔔小互的推特 10月31日更新
✨✨✨✨✨✨✨✨
1⃣️
👁️ Cutie:在视频帧中识别并持续跟踪特定对象
自动识别和追踪视频里的特定物体(如人或车)。
可以从复杂的背景中准确地分离出目标物体。
🔗 https://x.com/xiaohuggg/status/1719307748247290204?s=20
2⃣️
🔍 Min-K% Prob:用于检测文本是否被用于训练大模型的方法
不需要对预训练语料库有任何了解。
通过计算异常标记的平均概率来确定文本。
🔗 https://x.com/xiaohuggg/status/1719284134844170747?s=20
3⃣️
🎨 DreamCraft3D:利用一张2D图像,生成高质量、连贯的3D模型
解决了3D模型在不同视角下可能不一致的问题。
使用视图依赖的扩散模型来生成3D结构。
🔗 https://x.com/xiaohuggg/status/1719278085470830603?s=20
4⃣️
😂 Misgif:一款可以将你的脸放入你喜欢的GIF 表情包中的应用
5⃣️
👃 Odours:赋予机器嗅觉 科学绘制气味图的探索
利用图神经网络来基于分子结构绘制和预测气味。
创建了一种多维的“气味空间”。
🔗 https://x.com/xiaohuggg/status/1719176399523864978?s=20
6⃣️
🗣️ Spectron:第一个端到端训练的口语语言模型
Google开发,直接用声音的“频率图像”进行学习和预测。
能更准确地捕捉声音的各种细节。
🔗 https://x.com/xiaohuggg/status/1719170975567421523?s=20
7⃣️
💻 苹果发布3nm制程的M3系列芯片
M3系列比M1系列快50%,M3 Max比M1 Max快80%。
新款 M3 24 英寸 iMac,相同的颜色、相同的 4.5K Retina 显示屏。
🔗 https://x.com/xiaohuggg/status/1719151167203414195?s=20
8⃣️
⬇️ Motrix:免费和开源的全功能下载管理器
支持 HTTP、FTP、BitTorrent、Magnet 等多种下载方式。
界面简洁明了,支持多种语言。
🔗 https://github.com/agalwood/Motrix
🔗 https://x.com/xiaohuggg/status/1719015286706459025?s=20
历史项目记录:http://xiaohu.ai/
10月30日
🤖 🔔小互的推特 10月30日更新
✨✨✨✨✨✨✨✨
1️⃣
🤖 Baichuan2-192K大模型发布:
全球最长的上下文窗口,长度高达192K,可处理约35万个汉字。
在长文本生成质量、长上下文理解以及长文本问答、摘要等方面全面领先Claude2。
已落地法律、媒体等真实场景,开启内测。
🔗 详细:https://mp.weixin.qq.com/s/lAJh6qGG27u_qCl0kI-0lA
🔗 https://x.com/xiaohuggg/status/1718879783055188418?s=20
2️⃣
🎙️ 使用GPT-4在浏览器中进行实时语 音对话:
通过OpenAI API和@elevenlabsio API,实现与GPT-4的实时语音对话。
视频演示了作者和GPT-4玩对话猜物品的游戏。
🔗 体验入口:http://speakdual.com
🔗 https://x.com/xiaohuggg/status/1718852190901792896?s=20
3️⃣
🧠 GATE:解决用户不会LLMs提示词的问题:
麻省理工学院研究人员开发,GATE框架通过开放式对话了解用户需求。
自动生成适当的Prompt,提高LLMs生成答案的准确性。
🔗 GitHub:https://github.com/alextamkin/generative-elicitation
🔗 论文:https://arxiv.org/abs/2310.11589
🔗 https://x.com/xiaohuggg/status/1718828569487675679?s=20
4️⃣
🛒 具有 3D 预览功能的购物APP程序演示:
使用Reanimated和ThreeJS,提供3D预览功能。
让用户更直观地查看商店中的商品。
🔗 GitHub:https://github.com/alexandrius/react-native_3d_store
🔗 https://x.com/xiaohuggg/status/1718820276673359944?s=20
5️⃣
💳 MagCode:让所有智能手机都能享受NFC支付体验:
- 香港理工大学研究,即使不支持NFC的手机也能完成支付。
🔗 https://x.com/xiaohuggg/status/1718806105739215283?s=20
6️⃣
🤖 这个小哥哥的人形机器人更新:
行走方式非常接近人类。
大半年的折腾终于有了成果。
🔗 https://x.com/xiaohuggg/status/1718634389494755599?s=20
历史项目记录:http://xiaohu.ai/
10月29日
🤖 🔔小互的推特 10月29日更新
✨✨✨✨✨✨✨✨
1️⃣
🎤 赵本山伦敦腔接受采访:
- 毫无违和感,展示了赵本山的多才多艺。
🔗 https://x.com/xiaohuggg/status/1718617719019610504?s=20
2️⃣
🤖 Quadruped_bai_tiny:可控扭矩的无刷四足机器人:
低成本、8自由度(8DOF)。
包括硬件CAD设计、电子驱动器等多个方面。
🔗 GitHub: https://github.com/psrobotics/quadruped_bai_tiny
🔗 https://x.com/xiaohuggg/status/1718605283898130442?s=20
3️⃣
📚 Nature上的AI语言泛化突破:
创建了具有人类般泛化能力的AI神经网络。
在系统性泛化测试中表 现优于ChatGPT。
🔗 https://x.com/xiaohuggg/status/1718592191034241138?s=20
4️⃣
🎮 混合现实演示:
- 使用Quest3的空间识别来玩漂亮的女孩娃娃。
🔗 https://x.com/xiaohuggg/status/1718548941585948773?s=20
5️⃣
🛠️ GPT新更新的All tools多模式集合工具:
集中模式集合后功能大增,有无限想象空间。
还支持上传文件,如PDF或数据文件。
把一些套壳和插件商直接拍死了
🔗 https://x.com/xiaohuggg/status/1718501384105197773?s=20
6️⃣
🎥 Pegasus-1:一个真正能读懂视频的大模型:
具有约800亿参数,可处理从10秒到数小时的视频内容。
不仅识别视频中的人物、物体、场景,还能理解背景音乐、对话等。
提供一系列API来满足不同的视频到文本转换需求。
🔗 https://x.com/xiaohuggg/status/1718456086150435074?s=20
历史项目记录:http://xiaohu.ai/
10月28日
🤖 🔔小互的推特 10月28日更新
✨✨✨✨✨✨✨✨
1⃣️
🎥 VideoReTalking 口型同步工具
提供了一个在线演示链接。
面向对口型视频同步感兴趣的人。
可在Huggingface平台上查看。
🔗 https://huggingface.co/spaces/fffiloni/VideoRetalking
🐦 https://x.com/xiaohuggg/status/1718274708062552436?s=20
2⃣️
📚 Meta AI 发布 Llama 模型入门指南
提供了关于Llama的全面信息。
包括访问、托管、操作、微调等多方面内容。是个集成指南。
🔗 https://ai.meta.com/llama/get-started/
🐦 https://x.com/xiaohuggg/status/1718255011166315004?s=20
3⃣️
💰 Google 向 Claude 母公司 @AnthropicAI 追加投资15亿
投资额增至20亿美金。
此前,亚马逊也承诺向该公司投资 40 亿美元
🔗 https://x.com/xiaohuggg/status/1718238384991420612?s=20
4⃣️
🎭 郭德纲讲英语相声正面视频
5⃣️
🌐 Wooorld:Meta Quest 混合现实社交平台
提供3D世界地图。
有AI驱动的有声导览。
提供多种游戏功能。
🔗 https://x.com/xiaohuggg/status/1718182304802299907?s=20
6⃣️
🎧 APG:无线耳机心脏监测技术
无需购买额外设备。
在跑步、工作或休闲时可用。高准确度。
🔗 https://x.com/xiaohuggg/status/1718146525426290751?s=20
7⃣️
🎮 Scenario:AI助力游戏开发
快速生成游戏素材。
提供工具和API,大大缩短开发时间。
🔗 https://x.com/xiaohuggg/status/1718096073821216768?s=20
8⃣️
📸 Shutterstock照片库的AI功能
超过7亿张库存图像。
提供多种创意AI工具,包括魔法画笔、AI图像生成器等。
🔗 https://x.com/xiaohuggg/status/1718089977572274416?s=20
历史项目记录:http://xiaohu.ai/
10月27日
🤖 🔔小互的推特 10月27日更新
✨✨✨✨✨✨✨✨
1⃣️
🤖升级后的Spot机器狗:
接入了ChatGPT,具有自主思考和导游功能。
运行速度高达19英里/小时,可实时与观众互动。
使用视觉问题回答(VQA)和大型语言模型(LLM)来进行详细描述。
🔗 bostondynamics.com/blog/robots-that-can-chat
🔗 x.com/xiaohuggg/status/1717898108384997618?s=20
2⃣️
📉QMoE模型压缩新技术:
高压缩效率:将1.6万亿参数的模型压缩到不到160GB。
运行效率:可以在普通硬件上运行,开销小于5%。
无需重新训练,压缩过程更高效。
🔗 arxiv.org/abs/2310.16795
🔗 x.com/xiaohuggg/status/1717831198679200056?s=20
3⃣️
🗺️谷歌地图AI更新:
新增「沉浸式视图」和地图中的「镜头功能」。
提供更详细的地图导航和电动车充电信息。
基于社群分享的照片进行搜索。
🔗 x.com/xiaohuggg/status/1717819852923297958?s=20
4⃣️
🔧Woodpecker:纠正多模态大语言模型“幻觉”的方法:
不依赖于重新训练或特定数据集。
在POPE基准测试中,准确度显著提高。
🔗 x.com/xiaohuggg/status/1717734840383197617?s=20
5⃣️
🎭郭德纲英语相声:
- 请您享受,嘴形调的也很不错。
🔗 x.com/xiaohuggg/status/1717568433381081487?s=20
6⃣️
🎨教程:如何在Mac上快速生成图像:
使用LCMs模型,在M1或M2 Mac上以每秒一张的速度生成高质量图像。
只需要4到8步即可完成。
🔗 replicate.com/blog/run-latent-consistency-model-on-mac
🔗 x.com/xiaohuggg/status/1717562806822981835?s=20
历史项目记录:http://xiaohu.ai/
10月26日
🎃 🔔小互的推特 10月26日更新
✨✨✨✨✨✨✨✨
1⃣️
🎉手机拥抱大模型时代:
小米新系统发布。
下周vivo发布自己的大模型。
🔗 https://x.com/xiaohuggg/status/1717493171167658147?s=20
2⃣️
🚀雷军的小米战略升级🚀:
从「手机 X AIoT」升级到「人车家全生态」。
重点:以人为中心,打造智能家居和智能出行。
🔗 https://x.com/xiaohuggg/status/1717499481904848938?s=20
3⃣️
🚗Openpilot:开源汽车驾驶辅助系统🚗:
支持250多种车型,功能丰富如ACC、ALC、FCW、LDW等。
在PC上运行,绘制日志、重播驾驶记录、观看摄像头流。
驾驶员监控功能,警告分心和疲劳驾驶员。
🔗 https://x.com/xiaohuggg/status/1717374629944402201?s=20
4⃣️
🔊NVAS3D:3D环境中的声音合成🔊:
通过模拟合成,听到房间不同位置的声音。
用2到4个麦克风录音,3D扫描技术获取房间信息。
模拟在房间任何地方的声音,应用于虚拟现实游戏、电影制作等。
🔗 https://x.com/xiaohuggg/status/1717444811656171550?s=20
GitHub:https://github.com/apple/ml-nvas3d
5⃣️
🌐腾讯混元大模型升级🌐:
中文能力超过GPT3.5,代码能力提升20%。
“ 文生图”功能技术亮点:语义理解、内容合理性、画面质感。
180+腾讯内部业务已接入,如腾讯会议、腾讯文档等。
🔗 https://x.com/xiaohuggg/status/1717457024349507684?s=20
6⃣️
📆ChatGPT知识截止日期更新📆:
- 海外用户发现GPT知识截止日期为2023年4月或2023年9月。
🔗 https://x.com/xiaohuggg/status/1717362915844723185?s=20
7⃣️
🐜CodeFuse:蚂蚁集团的代码大模型🐜:
蚂蚁集团研发的产品,提高软件开发者的研发体验。
现正进行CodeFuse有奖征文活动,欢迎大家参与!
🔗 https://mp.weixin.qq.com/s/PD_8-bWB8BCdlwLhmt8eZw
历史项目记录:http://xiaohu.ai/
10月25日
🎃 🔔小互的推特 10月25日更新
✨✨✨✨✨✨✨✨
1⃣️
🌐 TTime:一款开源简洁高效的输入、截图、划词翻译软件
主要功能:输入翻译、截图翻译、划词翻译等。
集成多种翻译源:包括 DeepL、谷歌、OpenAI。
高级OCR功能:截图OCR、静默截图OCR、剪贴板监听翻译。
🔗 https://x.com/xiaohuggg/status/1717138678995394984?s=20
2⃣️
🎨 Zero123++:从单一图片生成多角度图像
多角度图像:如,正面的苹果图片转为侧面、上面、下面视图。
用户控制:可细致地控制生成图片的形状、大小等。
高度真实和协调:生成的多角度图片非常真实。
🔗 https://x.com/xiaohuggg/status/1717132922124398607?s=20
3⃣️
🖼️ LCMs:新型高分辨率图像生成模型
高分辨率:能快速生成768 x 768分辨率的高质量图像。
高效推理:在潜在空间中高度优化,只需2~4步或一步。
灵活和高效:从任何预训练的Stable Diffusion(SD)模型中提炼。
🔗 https://x.com/xiaohuggg/status/1711250631737163986?s=20
4⃣️
🛡️ Nightshade:针对文本到图像生成模型的数据投毒攻击
防不胜防:对上传图像进行微妙的像素改变。
隐蔽手段:导致模型训练后生成图像出现错误。
反击目的:目的是反击未经许可使用他人作品训练模型的公司。
🔗 https://x.com/xiaohuggg/status/1717042542775275703?s=20
5⃣️
🔥 高通新处理器:骁龙 8 Gen 3 和 骁龙 X Elite
竞争目标:与苹果和Intel竞争。
强大AI能力:能运行具有超过130亿参数的大型AI模型。
🔗 https://x.com/xiaohuggg/status/1717017401278271947?s=20
6⃣️
💰 IVP投资Perplexity:估值飙升到5亿美元
估值飙升:从1.5亿美元增长到5亿美元。
付费用户:达到了1.5万人。
高级AI模型:如Claude和GPT-4。
🔗 https://x.com/xiaohuggg/status/1716987181200499046?s=20
7⃣️
🗣️ Google Search 新功能:英语口语练习
真实生活提示:提供与日常生活、工作等相关的提示。
交互式练习:3-5分钟的交互式口语练习。
个性化反馈:包括语义分析、适应口音的语法反馈等。
上下文翻译:点击不懂的单词可查看上下文翻译。
🔗 https://x.com/xiaohuggg/status/1716983990257963222?s=20
8️⃣
🔍 Google 多模态模型曝光:
Gemini 是 PaLM 2 的进阶版,具备多模态能力,能够分析数据和识别图像中的文本。
Stubbs 未曝光的 Google 工具,允许从 Makersuite 构建并启动 AI 生成的应用。
🔗 https://x.com/xiaohuggg/status/1717010079294357622?s=20
历史项目记录:http://xiaohu.ai/
10月24日
📣 🔔小互的推特 10月24日更新
✨✨✨✨✨✨✨✨
1⃣️
📨 一体化消息应用 @TextsHQ 被收购:
由WordPress母公司Automattic以5000万美元收购。
应用合并多平台消息到一个加密收件箱。
提供AI辅助功能如自动聊天摘要和翻译。
🔗 https://x.com/xiaohuggg/status/1716812529064952210?s=20
2⃣️
🎶 Loop Copilot:AI音乐生成:
自然语言驱动的音乐生成与编辑。
支持多轮对话进行音乐编辑。
用户能够通过自然语言描述音乐需求。
🔗 https://x.com/xiaohuggg/status/1716798144833614250?s=20
3⃣️
📚 大语言模型的阿谀奉承问题:
研究指出AI助手可能阿谀奉承用户。
揭露了GPT、Claude、LLaMa等AI助手的偏见反馈。
讨论了可能的原因和未来改进方向。
📄 论文:https://arxiv.org/abs/2310.13548
🔗 https://x.com/xiaohuggg/status/1716746258025734210?s=20
4⃣️
💪 GPT作为健身教练:
提供Meal Planner和Workout Generator插件。
根据个人信息生成完整的健身和营养计划含有演示视频。
🔗 https://x.com/xiaohuggg/status/1716683011914420291?s=20
5⃣️
🔬 美国区域科技中心计划:
白宫宣布设立31个科技中心。
重点领域包括AI、芯片、量子计算等。
私营企业、教育机构和政府等多方参与。
🔗 https://x.com/xiaohuggg/status/1716669677118865857?s=20
6⃣️
🎵 Voyager:Spotify的音乐推荐数据库:
开源矢量数据库用于音乐推荐。
通过最近邻搜索技术匹配用户和音乐。
🛠️ GitHub:https://github.com/spotify/voyager
🔗 https://x.com/xiaohuggg/status/1716661563321688254?s=20
7⃣️
🏗️ 3D-GPT:3D模型生成:
利用大语言模型进行3D建模。
多代理系统架构,可生成大型场景和单个对象。
🔗 https://x.com/xiaohuggg/status/1716628576290873370?s=20
8⃣️
💡 #Midjourney 新网站上线:
加速网站性能。
新灯光模式和灯箱。
个人搜索功能。
🔗 https://x.com/xiaohuggg/status/1716623214921802212?s=20
历史项目记录:http://xiaohu.ai/
10月23日
🔥 🔔小互的推特 10月23日更新
✨✨✨✨✨✨✨✨
1⃣️
👂SALMONN:赋予LLMs 耳朵和认知听觉能力
清华大学和字节跳动共同研发的语言模型,具备处理音频输入能力。
多语种语音识别、翻译以及音频-语音联合推理功能。
准确识别音频信息并解答相关问题。
🔗 https://x.com/xiaohuggg/status/1716389917339840551?s=20
2⃣️
🎨一个可以突破版权限制,让DALL·E 3画出日本动画片水准的方法!
提供动画片的目标受众和特点来生成动画情节。
示例:指定少年动画特征,如《火影忍者》、《龙珠》、《海贼王》。
实例描述:一只狗和一个男人的冒险故事。
小互的作品欣赏:10月23日-群友的DALL·E图片精选
🔗 https://x.com/xiaohuggg/status/1716353451989536897?s=20
3⃣️
🧮LLEMMA:超越所有已知开源模型的数学专家
由多所大学和Eleuther AI公司研发。
解读、生成数学表达式,解决数学问题,并与计算工具交互。
LLEMMA 34B和LLEMMA 7B两种模型版本。
🔗 https://x.com/xiaohuggg/status/1716322071536652415?s=20
4⃣️
🚁乌克兰部署AI驱动的自主攻击无人机
人类首次在战场上使用自主攻击武器。
Saker Scout无人机:自主攻击、智能目标识别、抗干扰、多功能。
实时战场分析、与情报系统集成、战术灵活性。
🔗 https://x.com/xiaohuggg/status/1716270966219878513?s=20
5⃣️
🚦Green Light:Google的交通信号灯优化AI
分析Google地图驾驶数据,为城市提供交通信号灯时序优化。
减少了30%的停车次数和10%的排放量。
已在4大洲12个城市实施。
🔗 https://x.com/xiaohuggg/status/1716264027389841602?s=20
6⃣️
🤖发现了一个超酷的机器人:Alexa Tron
利用拆卸的黑白CRT电视和Echo Dot创建。
与人自然交流,并附有制作教程及材料链接。
提示:接入GPT会有更好的互动体验。
🔗 https://x.com/xiaohuggg/status/1716114177209803093?s=20
历史项目记录:http://xiaohu.ai/
10月22日
🔥 🔔小互的推特 10月22日更新
✨✨✨✨✨✨✨✨
1️⃣
🤖GRID:结合LLMs的通用机器人智能开发平台
通过集成多模态基础模型和大语言模型,使机器人能够在现实环境中执行任务。
简单来说就是它可以让机器人看、听、思考并自主做出决策,类似于特斯拉的自动驾驶视觉系统。
🔗 https://x.com/xiaohuggg/status/1716084604237717728?s=20
2️⃣
📚Anna’s 档案馆:全球最大的开源、开放数据图书馆
镜像了其他各种图书馆,如Sci-Hub、Library Genesis、Z-Library等。
收藏了超过1亿个文件,提供高速访问、OCR、去重和文本提取等服务。
🔗 https://annas-archive.org/llm
🔗 https://x.com/xiaohuggg/status/1715975178797375994?s=20
3️⃣
🌆Cesium:将Google Map的Photorealistic 3D Tiles集成到虚幻引擎
视频演示了将蒙特利尔的Habitat 67放置在圣地亚哥。
Cesium for Unreal v2.0 即将推出,更多功能将发布。
🔗 https://x.com/xiaohuggg/status/1715942026863333702?s=20
4️⃣
🤹♂️Eureka:通过GPT 4指导机械手玩转笔 超越人类
结合GPT-4与可学习的神经网络,模拟非常复杂的动作。
能接受人类用自然语言提供的反馈。
🔗 https://x.com/xiaohuggg/status/1715928896628269313?s=20
5️⃣
🎨DALL-E 3技巧:让DALL-E 3生成的图像保持一致性的方法
- 通过编号的方法跟踪和引用之前生成的图像。
🔗 https://x.com/xiaohuggg/status/1715920774010372133?s=20
6️⃣
🎤AI开源项目推荐:voice-changer
实时语音转换客户端,支持Windows和Mac。
可实时变声成其他人或者虚拟角色的音色。
🔗 https://x.com/dotey/status/1715841201339855025?s=20
7️⃣
🤖一个超酷的机器人
博主通过使用一台拆卸下来的黑白CRT电视机,利用亚马逊的Echo Dot创造了名为Alexa Tron的机器人,它能和人自然交流。
博主发布了详细的制作教程和材料购买https://hackaday.io/project/189041-a-workbench-companion-from-an-amazon-echo-dot…
历史项目记录:http://xiaohu.ai/
10月21日
🔥 🔔小互的推特 10月21日更新
✨✨✨✨✨✨✨✨
1⃣️
🛸Dronut X1 Pro:
无人机专为室内及GPS失效环境设计。
配备AI、3D LiDAR与高清流媒体,优化环境感知。
紧凑设计,近距离飞行提高效率与安全性。
🔗 https://x.com/xiaohuggg/status/1715728217854890375?s=20
2⃣️
⌨️FunKey:
- Mac应用,模拟机械键盘声音体验。
🔗 https://x.com/xiaohuggg/status/1715685724266319968?s=20
3⃣️
🤖Habitat 3.0:
Meta AI的家庭环境机器人模拟器。
其中包括各类家具、物品和人类角色
真实家居场景,多样化角色与人机交互。
🔗 https://x.com/xiaohuggg/status/1715651187314499699?s=20
4⃣️
🔊Meta-Speaker:
一种仅在空气中的一个点发出声音的扬声器
清华与上海交大的空气音响技术。
使用超音波在特定空气点产生声音
🔗 https://x.com/xiaohuggg/status/1715630200627843397?s=20
5⃣️
🚧HuggingFace:
开源AI模型库HuggingFace在中国访问受限。
超365,000个模型,估值45亿美元。
“中国的人工智能社区非常出色,我们希望他们能更好地访问 HF,但目前我们对于政府的法规无能为力。”
🔗 https://x.com/xiaohuggg/status/1715594854632472919?s=20
6⃣️
🔍Fuyu-8B:
多模态AI模型,支持数字代理。
专注图像与文本互动理解。
🔗 https://x.com/xiaohuggg/status/1715569954819600470?s=20
7⃣️
🎥4K4D:
4K分辨率下的实时4D视图合成。
RTX 4090 GPU,渲染速度超80 FPS。
🔗 https://x.com/xiaohuggg/status/1715567283555479750?s=20
8⃣️
🎮游戏:
- 游戏代码由GPT4生成,资源由DALLE-3制作。
🔗 https://x.com/xiaohuggg/status/1715401876475363547?s=20
历史项目记录:http://xiaohu.ai/
10月20日
🐶 🔔小互的推特 10月20日更新
✨✨✨✨✨✨✨✨
1⃣️
👩Heygen 即时配音 + 口型同 步
- 目前最成熟的方案,就是费钱
🔗 https://x.com/xiaohuggg/status/1715263831004631396?s=20
2⃣️
🧠 IBM发布名为NorthPole的新AI芯片,设计灵感来自人脑:
该芯片模仿了人脑的白质连接,这些白质连接,连接了大脑皮层的不同部分。
IBM 表示,NorthPole 比市场上任何其他芯片更节能、更节省空间,并且延迟更低,其速度比其前身 TrueNorth 快约4000 倍。
以 ResNet-50 模型为基准,NorthPole 的能效比领先的 12 纳米 GPU 和 14 纳米 CPU 高出 25 倍,延迟也低得多。
NorthPole 芯片是由 IBM 在加利福尼亚州的圣何塞研究所开发的,该架构在能效、速度和可扩展性方面具有重大突破。NorthPole芯片紧密集成了处理单元和内存,从而极大地提高了数据的移动效率。
🔗 https://x.com/xiaohuggg/status/1715355308980305931?s=20
3⃣️
🎨 DALL·E 3 瓶子里的世界:
很惊艳...
可以通过聊天即可更换任意瓶子里的内容
想放什么放什么
你们玩一玩,记得返图,嘿嘿
🔗 https://x.com/xiaohuggg/status/1715341576116068363?s=20
4⃣️
🗣️ SadTalker:通过单张面部图像和一段语音来生成逼真的说话头像视频:
它能够准确地模拟面部表情和头部运动,从而创建出与输入音频同步的逼真视频。
支持不同的语言交谈、唱歌,可控眨眼、支持不同的风格变换。
🔗 https://x.com/xiaohuggg/status/1715295658633204112?s=20
5⃣️
🎥 今天这个视频很火,早上在群里看到的:
有人问我是咋实现的
我猜测大概率是heygen实现的,如果是手动比较麻烦一点,涉及到语音翻译,声音克隆和嘴型同步。
但是手动也有很多方案,下面就总结一下我发过的一些能实现这种效果的产品和开源模型。
AI视频口型语音同步工具大全
🔗 https://x.com/xiaohuggg/status/1715263811358437620?s=20
6⃣️
👗 AquaAI:使用AI训练生成自己风格的时尚画册:
独立设计师、时尚品牌或时设计类学生一般会创建画册作为他们的作品集,以展示他们的设计能力和审美观点。
现在只需上传 5 张图片,即可轻松训练自己独特的品牌风格,并使用 AI 模型来创建自己的时尚画册(Fashion Lookbook)
🔗 https://x.com/xiaohuggg/status/1715243028745695559?s=20
7⃣️
🤖 MuJoCo(Multi-Joint dynamics with Contact)是一个用于模拟多体动力学和接触的物理引擎。可以让机器人模拟现实世界的复杂运动。
- 近两年来,DeepMind接管了MuJoCo的开发,并使其免费可用。现在,MuJoCo团队发布了MuJoCo 3,这是一个重大的新版本,具有以下几个主要特点:
🔗 https://x.com/xiaohuggg/status/1715210238473990495?s=20
8⃣️
🔧 OpenAI API部分宕机:
今早开始部分开发者反应OpenAI API无法使用,OpenAI称API认证堆栈的上游部分出现了问题。
他们正在开发备份系统,避免类似问题发生。
🔗 https://status.openai.com/incidents/fk0tcbydtybr
🔗 https://x.com/xiaohuggg/status/1715200077659263474?s=20
9⃣️
🎬 DynVideo-E:像编辑3D模型一样编辑视频,可直接编辑视频中的人物或背景:
DynVideo-E利用动态 NeRF 在 3D 空间中编辑视频,并将更改传播到整个视频。
比如你拍了一个舞蹈视频,但觉得某个动作或背景不够完美。这个工具,你可以直接调整人物舞蹈动作或者更换编辑跳舞的背景。
🔗 https://x.com/xiaohuggg/status/1715183326305321406?s=20
🔟
💻 Localpilot:一键在MacBook上本地运行GitHub Copilot:
用户只需要进行简单的设置和安装步骤,就可以在本地(即自己的Macbook上)运行GitHub Copilot,并且可以在没有网络连接的情况下使用。
这对于在飞机上或者在网络不稳定的环境中工作特别有用。
🔗 https://x.com/xiaohuggg/status/1715167810052309297?s=20
1️⃣1️⃣
🧠 MEG:实现大脑活动图像的实时解码重构:
Meta AI最近发布了一项重要的研究,该研究使用一种名为MEG的非侵入性神经成像技术。
这项研究展示了一个AI系统,该系统能够以前所未有的时间分辨率解码大脑中视觉表示的展开。能实时重构大脑活动中每一瞬间感知和处理的图像。
🔗 https://x.com/xiaohuggg/status/1715158977754157486?s=20
历史项目记录:http://xiaohu.ai/
10月19日
⏳ 🔔小互的推特 10月19日更新
✨✨✨✨✨✨✨✨
1⃣️
👩⚕️ 女性荷尔蒙监测指环传感器:
美国加州理工学院研究出的指环型汗液传感器可监测女性体内的雌二醇。
数据无线传输到智能手机,方便实时查看。
自动且非侵入性,日常佩戴也不会妨碍。
🔗 https://x.com/xiaohuggg/status/1714995612511502601?s=20
2⃣️
🎨 DALL·E 3 创意提示:
可生成高达零件图。
规避版权问题。
🔗 https://x.com/xiaohuggg/status/1714915932097912964?s=20
3⃣️
🔖 SoM-GPT4V - 视觉标记系统:
将图像划分为语义上有意义的区域,并添加各种类型的标记。
提高GPT-4V对视觉内容的理解和交互能力。
🔗 https://x.com/xiaohuggg/status/1714873493886849420?s=20
4⃣️
🔍 Midjourney 图像放大功能:
可将生成的图像放大4倍。
连续放大效果出色。
🔗 https://x.com/op7418/status/1714847087555453256?s=20
5⃣️
🔮 真正的算命和占卜模型 - Mistral Trismegistus 7B:
专为玄学、神秘学、超自然和灵异爱好者设计。
专门处理与神秘学等相关的问题和任务。
🔗 https://x.com/xiaohuggg/status/1714846126371926086?s=20
6⃣️
📹 BlurOn - 视频自动马赛克添加:
使用 NTT Data 的 AI 技术识别并自动添加马赛克。
精度高达 99.7%。
🔗 https://x.com/xiaohuggg/status/1714829239080607878?s=20
7⃣️
🧠 SEED 项目代码发布:
SEED和SEED-LLaMA官方实现。
赋予大语言模型视觉和绘图能力。
🔗 GitHub: https://github.com/AILab-CVC/SEED
🔗 https://x.com/xiaohuggg/status/1714820902746304747?s=20
8⃣️
🤖 机器人初创公司Figure - 首款产品 Figure 01:
拥有高度灵巧的双手和动态双足行走。
设计目标是日常活动的高效执行。
🔗 https://x.com/xiaohuggg/status/1714817294889812003?s=20
9⃣️
🔊 PlayHT 发布 PlayHT 2.0 Turbo:
超快速的AI文字转语音模型,延迟小于 300 毫秒。
可克隆任何声音和口音。
🔗 体验链接: https://play.ht/playground/
🔗 https://x.com/xiaohuggg/status/1714655920368886021?s=20
历史项目记录:http://xiaohu.ai/
10月18日
☕ 🔔小互的推特 10月18日更新
✨✨✨✨✨✨✨✨
1⃣️
🍏 Apple Vision Pro 新专利:
提供沉浸式 VR 体验在自动驾驶车场景。
体验内容:河流上漂流、悬挂式滑翔机、汽车追逐、后世界末日荒地等。
功能:虚拟会议、VR 游戏、读书、与家人交谈。
教育与交互体验:伦敦街道、虚构城市、地标历史等。
🔗 https://x.com/xiaohuggg/status/1714617160763650118?s=20
2⃣️
🔄 Face Swapper:AI换脸工具:
一次替换多张脸。
支持JPG、PNG、WEBP格式,最大1024px分辨率。
应用场景:时尚、美容、电影、媒体、人力资源。
🔗 https://x.com/xiaohuggg/status/1714612613357932800?s=20
3⃣️
👓 Visor:便携式XR虚拟现实设备:
4K microOLED显示器、手部和眼部追踪、6DoF摄像头。
可同时打开5个屏幕。
🔗 https://x.com/xiaohuggg/status/1714606940456964597?s=20
4⃣️
🎨 RealFill:图像补全的生成模型:
填充缺失或不完整的图像。
使用参考图像进行补全。
🔗 https://x.com/xiaohuggg/status/1714603987733971241?s=20
5⃣️
🚀 TensorRT:加速Stable Diffusion模型:
NVIDIA开发的库。
优化模型以获得更快的推理速度。
🔗 https://x.com/xiaohuggg/status/1714537143614468132?s=20
6⃣️
⚡ 生物电子微流体加速伤口愈合:
利用电场使皮肤伤口快速愈合
即使是最严重的伤口,3倍速度愈合
🔗 https://x.com/xiaohuggg/status/1714477700537270753?s=20
7⃣️
📱 PyTorch与合作伙伴推出ExecuTorc框架:
端到端解决方案,实现设备端推理。
适用设备:手机、可穿戴设备。
解决AI生态系统碎片化问题。
🔗 https://x.com/xiaohuggg/status/1714473512755409107?s=20
8⃣️ 🎵 Riffusion:AI音乐生成应用:
输入歌词或文本提示生成音乐。
🔗 https://x.com/xiaohuggg/status/1714309720851583097?s=20
历史项目记录:http://xiaohu.ai/
10月17日
☕ 🔔小互的推特 10月17日更新
✨✨✨✨✨✨✨✨
1⃣️ 🌟 OpenAI的企业价值观:
OpenAI明确了其打造“通用人工智能”的愿景。
提出了公司的五大核心价值观。
🔗 https://x.com/xiaohuggg/status/1714131884161286353?s=20
2⃣️ 🧠 MemGPT - 永久记忆的聊天机器人:
MemGPT具有短期、中期和长期三层记忆。
能够记录并回忆之前的对话内容。
🔗 https://x.com/xiaohuggg/status/1714239000343675372?s=20
3⃣️ 🖼️ MiniGPT-V2 - 视觉与语言多任务解决方案:
MiniGPT-V2是一个视觉-语言多任务模型。
专注于图像标注、对象解析和问答等任务。
🔗 https://minigpt-v2.github.io
🔗 https://x.com/xiaohuggg/status/1714172747012850063?s=20
4⃣️ 🌐 Pi - AI现在可以联网:
🔗 Instagram:http://pi.ai/ig
🔗 Messenger:http://pi.ai/msgr
🔗 Web:http://pi.ai
🔗 iOS:http://pi.ai/ios
🔗 Text or WhatsApp: +1 (314)-333-1111
🔗 https://x.com/xiaohuggg/status/1714139977976885398?s=20
5⃣️
🖥️ Deep Chat - AI聊天机器人的集成工具:
Deep Chat允许在任何网站中嵌入AI聊天机器人。
提供丰富的定制选项和多媒体交互功能。
🔗 https://x.com/xiaohuggg/status/1713922172559970541?s=20
6⃣️ 📣 百度大模型文心一言4.0发布:
李彦宏宣布百度的新模型发布。
该模型与GPT-4的能力相当。
🔗 https://x.com/xiaohuggg/status/1714101101572796664?s=20
7⃣️ 💰 百川智能完成3亿美金A1轮融资:
- 得到阿里、腾讯、小米等科技巨头的投资。
🔗 https://x.com/xiaohuggg/status/1714098922128540119?s=20
8⃣️ 📞 ChatGPT Voice的提示词:
- ChatGPT的语音交互的基本规则和指导。
🔗 https://x.com/xiaohuggg/status/1714070642184888398?s=20
9⃣️ 🕶️ 使用Quest 3进行多任务:
- 可以同时完成家务和观看剧集。
🔗 https://x.com/xiaohuggg/status/1714060002724344144?s=20
历史项目记录:http://xiaohu.ai/
10月16日
🍙 🔔小互的推特 10月16日更新
✨✨✨✨✨✨✨✨
1⃣️
🤖 Deep Chat:
AI 聊天组件嵌入到任何网站。
支持文件传输、音频、摄像头捕捉。
高度可定制界面和功能。
🔗https://x.com/xiaohuggg/status/1713922172559970541?s=20
2⃣️
🎓 UniSim:
通用模拟器, 由 UC Berkeley、DeepMind、MIT, 阿尔伯塔大学合作。
模拟人类和机器人互动。
模拟环境中的RL代理和长期规划训练。
🔗https://x.com/xiaohuggg/status/1713850715700146322?s=20
3⃣️
🔢 自动计数工具:
利用 #supervision 开发的自动计数工具。
🔗 https://x.com/xiaohuggg/status/1713842578322546767?s=20
4⃣️
📢 博主实名制:
100万粉丝以上的博主需前台实名。
包括微博、抖音、B站、小红书等平台。
后续会扩展到10万粉丝以上。
🔗https://x.com/xiaohuggg/status/1713824178967838835?s=20
5⃣️
💼 赚钱创意:
使用Dall-E 3 创建个性体恤设计。
然后使用GPT建立销售网站。
🔗https://x.com/xiaohuggg/status/1713790438686310612?s=20
6⃣️
🎨 Dall·E 3开始step by step的解析你输入的要求了
- 生成的图更符合预期了
🔗https://x.com/xiaohuggg/status/1713767074936635883?s=20
7⃣️
📱 iPhone无线更新:
为未拆封的iPhone新机更新iOS系统,无需开箱。
苹果开发的特殊垫子,无线下载并安装最新iOS
🔗https://x.com/xiaohuggg/status/1713758779718996453?s=20
8⃣️
💻 CodePlan:
微软开发的LLM自动编辑代码库框架。
计划性地自动编辑整个代码库。
https://arxiv.org/abs/2309.12499
🔗 https://x.com/xiaohuggg/status/1713754847831564713?s=20
9⃣️
📹 VideoReTalking:
输入视频和音频,输出嘴型和声音同步的视频。
根据声音调整视频中的表情。
🔗https://x.com/xiaohuggg/status/1713737733301326044?s=20
🔟
🚫 马斯克打击不当内容:
X平台上的露骨内容将被自动标记并隐藏。
甚至蓝V和订阅会员也会受到影响。
🔗https://x.com/xiaohuggg/status/1713730951937937650?s=20
历史项目记录:http://xiaohu.ai/
10月15日
❤️ 🔔小互的推特 10月15日更新
✨✨✨✨✨✨✨✨
1⃣️
🎨 Niji·journey App:
主打日系漫画风格 图像生成。
免费20次生成机会。
UI化的图片生成。
选择 #midjourney V5模型。
🔗 https://x.com/xiaohuggg/status/1713413211868008710?s=20
2⃣️
🎥 Deforum-Kandinsky:
从文本到图像的生成,再模拟相机飞越生成动画视频。
创造3D错觉的动画帧。
图像到图像的方法进行图像优化。
🔗 https://x.com/xiaohuggg/status/1713484290380697782?s=20
3⃣️
🌡️ airBP:
使用毫米波进行非接触式血压测量。
北京邮电大学开发。
准确测量收缩期和舒张期的血压。
🔗 https://x.com/xiaohuggg/status/1713428987010228523?s=20
4⃣️
🎬 伊藤園《Oi Ocha》广告:
首次使用AI生成人物。
广告质量等同于真人。
AI模特的优点:外观定制、无丑闻风险、成本低、角色多样性。
🔗 https://x.com/xiaohuggg/status/1713393420642001004?s=20
5⃣️
🎞️ Morph Studio:
文本转视频新模型,1080p,3-7秒视频。
人脸效果不如moonvall,可生成【成人内容】。
🔗 https://x.com/xiaohuggg/status/1713382237838905722?s=20
历史项目记录:http://xiaohu.ai/
10月14日
🔥 🔔小互的推特 10月14日更新
✨✨✨✨✨✨✨✨
1⃣️
🔍Flash-Decoding:一种加速大型语言模型推理速度的方法,特定场景最高可提速60倍。
主要原理是在解码过程中提高注意力机制的效率。与现有方法相比,Flash-Decoding能够实现长序列生成速度提升高达8倍,特定场景最高可提速60倍,同时保持准确性。
这种优化对于需要长上下文推理的大语言模型(如文档摘要或代码自动完成)特别有益。
🔗 https://x.com/xiaohuggg/status/1713198491374367079?s=20
2⃣️
👤HyperHuman:超现实人像图像生成模型,能生成逼真的人像图像。
该模型生成的人体图像不仅逼真,而且具有高度的三维结构感,它能理解图像背后的三维结构。就像你不仅看到一个人,还能感知他站立的方式、面部的轮廓等。
HyperHuman在一个包含了3.4亿张图像和全面的注释,如人体姿势、深度和表面法线的数据集上进行训练。
🔗 https://x.com/xiaohuggg/status/1713112079002206321?s=20
3⃣️
🍏基于 Google 3D 图块的立体模型模式,在 Apple Vision Pro 中引入并构建基于位置的 AR 体验 …
🔗 https://x.com/xiaohuggg/status/1713104603297067010?s=20
4⃣️
🐙Octopus:一种多模态AI代理,能够理解和解释多模态信息,并生成可执行代码来自动完成任务。
多模态理解与解释:Octopus能够理解视觉和文本信息,并将这两种信息融合在一起,以更全面地理解和解释环境和任务。
任务自动化与代码生成:它还能自己编程来完成你交给它的任务,通过生成可执行的代码,Octopus能够自动完成各种任务,从简单的数据分类到复杂的决策制定。
🔗 https://x.com/xiaohuggg/status/1713068244129702227?s=20
5⃣️
💡同志们,我发现一个GPT的重大BUG
GPT一次可以同时执行四个不同的任务
以前一个对话框进行对话的时候你再开新的,就会提示上一个没执行完,无法进行。
我刚突然发现其实GPT的Dall·E、代码解释器、插件模式和视图模式是独立运行的,我就测试了一下,这几个模式在四个对话框下面是可以同时运行的...
🔗 https://x.com/xiaohuggg/status/1713045150585495852?s=20
6⃣️
🎨Meta Emu:一个先进的图像生成模型,专门设计用于生成高度美观的图像。
- Emu是Meta AI新的图像生成模型,可以快速免费生成高质量逼真图像。该模型首先使用11 亿的图像-文本对进行预训练,然后使用了一组精选的高质量图像进行微调,来进一步提升生成图像的视觉吸引力。
🔗 https://x.com/xiaohuggg/status/1713026237655118208?s=20
7⃣️
🗺️LLM 技术图谱(LLM Tech Map):帮助技术人快速了解 LLM 的核心技术和关键方向。
- LLM 技术图谱(LLM Tech Map)从基础设施、大模型、Agent、AI 编程、工具和平台,以及算力几个方面,为开发者整理了当前 LLM 中最为热门和硬核的技术领域以及相关的软件产品和开源项目。
🔗 https://x.com/xiaohuggg/status/1713016105214833103?s=20
8⃣️
📜开源大语言模型完整列表:
- 对国内外公司、科研机构等的开源LLM进行全面整理。
详细🔗: https://gitee.com/oschina/awesome-llm
🔗https://x.com/xiaohuggg/status/1713016678098088412?s=20
9⃣️
🎵AudioSep:可以使用自然语言进行声音提取分离的模型
- AudioSep可以从任何混合的音频信号中提取出特定的声音成分并分离出来。与传统的声音分离模型不同,AudioSep允许用户通过自然语言描述来指定他们想要分离的声音。例如,用户可以简单地输入“分离出钢琴声”或“去除背景噪音”等指令。
🔗 https://x.com/xiaohuggg/status/1712790552989897047?s=20
历史项目记录:http://xiaohu.ai/
10月13日
🔥 🔔小互的推特 10月13日更新
✨✨✨✨✨✨✨✨
1⃣️
🎨Vizcom.ai:将草图转化为概念图的设计平台。
提供内置的草图工具和图层,导入3D模型。
在加密的云环境中操作,确保数据安全。
节省设计时间高达80%。
🔗 https://x.com/xiaohuggg/status/1712652905134928291?s=20
2⃣️
🎨使用Dall·E 3生成和小姐姐隔屏握手图附prompt和案例:
🔗 https://x.com/xiaohuggg/status/1712847326652625286?s=20
3⃣️
🎵AudioSep:使用自然语言进行声音提取分离的模型。
AudioSep可以提取并分离特定声音。
与传统模型不同,用户可以用自然语言描述声音。
在音频事件、乐器和语音增强方面表现优秀。
🔗 https://x.com/xiaohuggg/status/1712790552989897047?s=20
4⃣️
🌍当地震发生时,人们可能会本能地做错事。
葡萄牙大学的虚拟现实游戏模拟地震场景。
重复体验,学习正确的应对策略。
🔗 https://x.com/xiaohuggg/status/1712764635349442938?s=20
5⃣️
🤖Disney展示的机器人,酷似BD-1:
🔗 https://x.com/xiaohuggg/status/1712736447084773841?s=20
6⃣️
🦠EVEscape:预测SARS-CoV-2、HIV等病毒新变种的AI工具。
由哈佛和牛津联合研发。
结合进化生物学和病毒结构信息。
适用于多种病毒,有广泛应用前景。
🔗 https://x.com/xiaohuggg/status/1712707266292617559?s=20
7⃣️
🎨DA-CLIP:图像修复视觉-语言模型。
- 支持图像退化、遮蔽、去雾、去雨水、图像损坏等修复。
🔗 https://x.com/xiaohuggg/status/1712677779890946058?s=20
8⃣️
📜维苏威挑战:解读赫库兰尼姆古卷轴比赛。
21岁学生Luke使用机器学习看到完整单词。
使用3D CT扫描和粒子加速器查看卷轴内部。
🔗 https://x.com/xiaohuggg/status/1712665563561103433?s=20
历史项目记录:http://xiaohu.ai/
10月12日
💀 🔔小互的推特 10月12日更新
✨✨✨✨✨✨✨✨✨
1⃣️
🚀 OpenAI:首次开发者大会11月6日旧金山举办
视觉功能API即将发布
推出节省成本的内存存储与前沿的视觉功能
鼓励企业使用其技术构建AI应用
理论上可以为应用开发者节省高达20倍的成本
🔗 https://x.com/xiaohuggg/status/1712400630004998528?s=20
2⃣️
📈 OpenAI的市场优势:
OpenAI 将成为一家通用人工智能平台,吸引大量开发者和用户,并在各领域取得领先地位,最终形成一家独大的局面。
GPT-4 即将超越拐点并在其能力上实现显著跳跃
OpenAI武器库里其实还有很多东西没有放出来
🔗 https://x.com/xiaohuggg/status/1712447807909658868?s=20
3⃣️
🤖 DeepMotion Animate 3D 5.0:
浏览器内的AI动作巨擘
单视频内捕捉8人动作、移动端无缝捕捉
https://x.com/xiaohuggg/status/1712464731561476260?s=20
4⃣️
🔐 Google Passkey:
新登录方式,无密码。
通过生物识别或屏幕锁进行身份验证。
🔗 https://x.com/xiaohuggg/status/1712427916305527227?s=20
5⃣️
🌟 Meta AI名人AI化:
名人转为AI角色在Instagram、Facebook展示。
AI生成视频和照片,费用高达500万美元。
🔗 https://x.com/xiaohuggg/status/1712421201765888481?s=20
6⃣️
🤖 𝗥𝗧-𝗫 机器人模型:
适用于多种机器人体系结构。
可查看RT-X数据集指令与对应视频。
🔗 https://x.com/xiaohuggg/status/1712414033998168229?s=20
7⃣️
🌐 Memex 浏览器扩展:
保存、标记网页、做笔记,具有AI功能。
全文搜索书签、高亮注释、隐私安全。
🔗 https://x.com/xiaohuggg/status/1712362380892791131?s=20
8⃣️
🎮 智能手表上的GTA:
- GTA San Andreas在智能手表上运行。
🔗 https://x.com/xiaohuggg/status/1712379474497728640?s=20
9⃣️
🔕 MicFrozen声音技术:
- 反向声音削弱,防窃听。
🔗 https://x.com/xiaohuggg/status/1712326894895743387?s=20
🔟
👂 用 AirPods 监测大脑信号:
监测老年痴呆、帕金森。
记录脑电波、乳酸数据,神经退行性疾病早期诊断。
🔗 https://x.com/xiaohuggg/status/1712294608842215549?s=20
历史项目记录:http://xiaohu.ai/
10月11日
📣 🔔小互的推特 10月11日更新
✨✨✨✨✨✨✨✨✨
1⃣️
🤖 网易开发的虚拟练习口语的AI机器人:是个小程序,叫hi echo。
可 以选择不同场景,旅游、职场、考试… 完了还能评分,不过看起来怪怪的。
🔗 https://x.com/xiaohuggg/status/1712114448096481427?s=20
2⃣️
🎮 虚拟现实拼图游戏:新一代的休闲游戏体验。
- 感受不一样的虚拟现实世界。
🔗 https://x.com/xiaohuggg/status/1712096911849832505?s=20
3⃣️
🚀 马斯克把 X的首页图标由鸟窝换成了火箭
🔗 https://x.com/xiaohuggg/status/1712088847319024018?s=20
4⃣️
🖼️ Frameright:智能图像处理的新时代。
图像智能适应,保持最佳视觉效果。
节省时间,提高工作效率。
🔗 http://frameright.io
🔗 https://x.com/xiaohuggg/status/1712087666941218828?s=20
5⃣️
🎥 Typeframes:
专为产品介绍视频设计的工具。
音乐响起,文字持续出现。
只需输入文案、选择背景和音乐,它会帮你完成整个制作。
🔗 https://typeframes.com
🔗 https://x.com/xiaohuggg/status/1712050856730976564?s=20
6⃣️
🧪 Rice大学新型材料
这种材料可重新连接断裂的神经
设计的自整 流磁电材料能远程精确刺激神经元
且在大鼠模型中成功重新连接断裂的坐骨神经
7⃣️
🌍 Public APIs:GitHub上的免费API集合
覆盖各种领域如动画、软件、设计、游戏、健康、金融等
🔗 https://github.com/public-apis/public-apis
🔗 https://x.com/xiaohuggg/status/1711991024137183651?s=20
8⃣️
📚 Kosmos-2 by 微软
这是一个多模态大语言模型,能处理文本、图像等数据。
其能理解并生成与图像相关的描述,并可进行对象识别、视觉问答等功能。
🔗 https://x.com/xiaohuggg/status/1711978012793876513?s=20
9⃣️
🎨 Adobe的Firefly模型:设计从此变得更简单。
三个强大的工具:Firefly Image 2、Firefly Vector和 Firefly Design。
满足你所有的设计需求。
🔗 https://x.com/xiaohuggg/status/1711932482768244944?s=20
🔟
📱 抓紧更新ChatGPT客户端
可以直接获得Voice和DALL·E 3功能。
🔗 https://x.com/xiaohuggg/status/1711934048447406282?s=20
历史项目记录:http://xiaohu.ai/
10月10日
☕ 🔔小互的推特 10月10日更新
✨✨✨✨✨✨✨✨✨
1⃣️
🎧 ElevenLabs AI配音与语音翻译:
- 支持29种主要语言。
- 识别多人说话,确保声音差异。
- 考虑目标语言文化的本土化翻译。
- 快速、准确的翻译与配音服务。
🔗 http://elevenlabs.io/dubbing
🔗 https://x.com/xiaohuggg/status/1711756696882987208?s=20
2⃣️
🖼️ Stable Signature:Facebook的AI水印工具。
- 为AI生成的图像打上对肉眼不可见的水印。
- 能够抵抗各种图像操作,确保来源追溯。
🔗 https://ai.meta.com/blog/stable-signature-watermarking-generative-ai
🔗 https://x.com/xiaohuggg/status/1711744630566613414?s=20
3⃣️
🤖 GenSim:使用GPT-4为机器人进行策略模拟训练。
- 利用GPT-4自动生成模拟环境和专家演示。
- 提高机器人对新任务的适应性。
🔗 https://liruiw.github.io/gensim/
4⃣️
📢 OpenAI科学家 @hwchung2 演讲:
模型足够大,某些能力才会显现
GPT-4 即将超越拐点并在其能力上实现显着跳跃
🔗演讲内容 https://t.co/lhatHcODHJ
🔗 https://x.com/xiaohuggg/status/1711714757802369456?s=20
5⃣️
🎨 GPT与创意:
GPT提供了非特定创意人士的风格相似图像。
令人惊讶的效果展示。
🔗 https://x.com/xiaohuggg/status/1711676800282358150?s=20
6⃣️
📝 DocsGPT:
开源GPT模型文档助手。
支持自然语言查询,代码示例生成。
🔗 https://github.com/arc53/DocsGPT
🔗 https://x.com/xiaohuggg/status/1711657836252688443?s=20
7⃣️
💨 GPT Dall-E 3 申请通道:
- 快速申请,亲测有效。
🔗 https://x.com/xiaohuggg/status/1711587708089602170?s=20
8⃣️
🩺 Google Cloud's Vertex AI Search:
面向医疗保健领域的AI工具。
提供高度定制的搜索、数据整合和先进的自然语言处理。
🔗 https://x.com/xiaohuggg/status/1711574737108041776?s=20
9⃣️
🖥️ BG Remover:
AI背景去除工具,最多一次处理500张图。
支持多种格式,精准去除背景。
🔗 https://icons8.com/bgremover
🔗 https://x.com/xiaohuggg/status/1711566021591777544?s=20
🔟
📊 #开源项目推荐:posthog:
开源产品分析平台。
用户行为数据收集,A/B测试。
🔗 https://github.com/PostHog/posthog
🔗 https://x.com/dotey/status/1711237004078272681?s=20
1⃣️1⃣️
🤖 𝗖𝗵𝗮𝘁𝗚𝗣𝗧 𝗣𝗹𝘂𝘀 𝗗𝗔𝗟𝗟·𝗘³:
聊天式的需求沟通和修改。
与设计师的沟通相似,但更为精准。
提示:设计师可能面临的挑战。
🔗 https://x.com/xiaohuggg/status/1711410789586968997?s=20
历史项目记录:http://xiaohu.ai/
10月9日
☕ 🔔小互的推特 10月9日更新
✨✨✨✨✨✨✨ ✨✨
1⃣️
🖼️ SEED:一个先进的图像标记器,可赋予大语言模型视觉和绘图能力。
- 由腾讯AILab-CVC团队开发,将图像转换为离散的视觉代码,SEED-LLaMA在多模态任务上表现出色。
🔗 https://github.com/AILab-CVC/SEED
🔗 https://x.com/xiaohuggg/status/1711362123761422687?s=20
2⃣️
🎙️ Copilot Voice:用嘴来写代码,哈哈哈哈!
- 通过语音编写代码,直接用嘴指示,无需鼠标,支持代码导航和Visual Studio Code的控制。
🔗 https://x.com/xiaohuggg/status/1711342498503889239?s=20
3⃣️
🤖 情趣机器人已经提上日程,还要接入GPT。
- 华中科技大学-交互机器人项目。
🔗PPT下载 https://t.co/jOW2BayBah
🔗 https://x.com/xiaohuggg/status/1711331388371439955?s=20
4⃣️
🎨 SD WebUI AnimateDiff (v1.9.0)更新功能。
Prompt Travel功能,驱动文本生成与变换图像。
图像内容的动态变换
ControlNet 集成
🔗 https://github.com/continue-revolution/sd-webui-animatediff…
🔗 https://x.com/xiaohuggg/status/1711311620687937886?s=20
5⃣️
🤝 AutoGen:微软开发,通过代理通信实现复杂工作流。
- 协调代理工作,多代理协作在一个工作流中。
🔗 https://x.com/xiaohuggg/status/1711285267876008389?s=20
6⃣️
🎨 LCMs:新型图像生成模型,生成高分辨率图像。
快速推理,生成高质量图像,2~4步生成768 x 768图像。
LCMs可以从任何预训练的Stable Diffusion(SD)模型中提炼出来
🔗 https://latent-consistency-models.github.io
🔗 https://x.com/xiaohuggg/status/1711250631737163986?s=20
7⃣️
🎵 Sonoteller:音乐AI分析引擎,能“听懂”音乐。
- 提供歌曲的内容和意境、音乐属性等信息。
🔗 https://x.com/xiaohuggg/status/1711227279261704580?s=20
8⃣️
👥 Text2Human:通过文本描述生成人体图像。
生成具有特定属性的人体图像,灵活、个性化生成。
还贡献了一个具有丰富多模态注释的大规模高质量数据集。
🔗 https://x.com/xiaohuggg/status/1711208875968610379?s=20
9⃣️
📝 Vditor:免费开源的Markdown编辑器。
- 支持三种编辑模式:所见即所得、即时渲染、分屏预览
🔗 https://x.com/xiaohuggg/status/1711199599531381148?s=20
历史项目记录:http://xiaohu.ai/
10月8日
🍙 🔔小互的推特 10月8日更新
✨✨✨✨✨✨✨✨✨
1⃣️
🧠Zero2Story:一个互动故事生成器,从零开始创建一键创建互动故事,包括插画和背景音乐。
用户可以自定义故事的类型、背景、地点、情感氛围,以及角色的各种属性。然后,系统会根据这些设置生成故事。
同时允许用户在故事生成过程中做出选择,以影响故事的走向。
它还可以生成与故事相关的背景图像和音乐。这一切都是通过与 PaLM API、Stable Diffusion 和 MusicGen 的集成来实现的。
🔗https://github.com/coding-pot/Zero2Story
🔗https://x.com/xiaohuggg/status/1711016688333070646?s=20
2⃣️
📸DA-CLIP:一种通用的图像修复视觉-语言模型。
传统图像修复方法通常专门针对一种或几种特定类型的图像损坏进行优化,如模糊、噪声或压缩损坏。而DA-CLIP能够更灵活地适应各种类型的图像恢复任务。
除了传统的图像修复,它还支持如图像退化、图像遮蔽、去除雾气、去除玻璃雨水、图像损坏等的修复。
🔗https://algolzw.github.io/daclip-uir/index.html
🔗https://x.com/xiaohuggg/status/1710980249125793993?s=20
3⃣️
🌌Moonvalley:一个新型的文本到视频生成模型,生成质量非常高。
- 该模型仅靠文本提示即可生成高清的、16:9电影质量的视频。
🔗https://moonvalley.ai/
🔗https://discord.gg/moonvalley
🔗https://x.com/xiaohuggg/status/1710947745660645514?s=20
4⃣️
🎨PIXART-α:是一个基于 Transformer 的文本到图像生成模型。
- 其图像生成质量与当前最先进的图像生成器(如 Imagen、SDXL 和 Midjourney)相媲美。
🔗https://pixart-alpha.github.io/
🔗https://x.com/xiaohuggg/status/1710938853526376466?s=20
5⃣️
🎥Webcam Motion Capture:通过你的电脑或智能手机的摄像头即可完全控制和制作你专属的3D虚拟形象。
🔗https://x.com/xiaohuggg/status/1674402628288266240?s=20
6⃣️
📚http://Shortbread.ai:一键漫画生成平台。
根据文字描述快速转化为完整漫画页面。