👋 个人碎碎念

资讯文档 / Bing 每日壁纸

👉 实用工具 / GitHub 项目

https://tg.okhk.net
gemini-balance - Gemini(Google AI) API 轮询代理服务

https://github.com/snailyp/gemini-balance

Gemini Balance 是一个基于 Python FastAPI 构建的应用程序,旨在为 Google Gemini API 提供代理和负载均衡功能。

支持配置多个 Gemini API 密钥,实现自动顺序轮询,提高可用性和并发性
通过管理后端即时生效的可视化配置
支持以 Gemini 和 OpenAI 格式转发 CHAT API 请求
支持图像 - 文本聊天和图像编辑功能
支持网页搜索功能
提供实时查看每个密钥状态和使用情况的 /keys_status 页面
提供详细的错误日志,便于故障排查
支持自定义 Gemini 代理
兼容 OpenAI 图像生成 API
灵活的密钥添加方式,支持正则匹配
完美适配 OpenAI 格式的嵌入 API 接口
可选的流响应优化功能
自动处理 API 请求失败、重试和密钥管理
支持 AMD 和 ARM 架构的 Docker 部署
支持自动获取 OpenAI 和 Gemini 模型列表
支持配置 HTTP/SOCKS5 代理服务器

#AI #Google #Tool #GitHub GitHub - snailyp/gemini-balance: Gemini polling proxy service (gemini轮询代理服务)
Gemini Fullstack LangGraph Quickstart

https://github.com/google-gemini/gemini-fullstack-langgraph-quickstart

项目展示了如何使用 LangGraph 和 Google 的 Gemini 2.5 模型构建全栈 AI Agent,通过动态生成搜索词、使用 Google 搜索查询网页、反思结果以识别知识差距并迭代地改进搜索,最终提供有依据的答案和引用来完成对用户查询的全面研究,让复杂问题一键解决。

使用 React 前端和 LangGraph 后端构建的全栈应用程序
由 LangGraph 代理提供 Deep Research 和对话 AI 功能
使用 Google Gemini 模型动态生成搜索查询
通过 Google 搜索 API 集成网络研究
使用反思推理识别知识差距并完善搜索
生成带有引用来源的答案
开发过程中前后端都支持热重载

#AI #GitHub #Tool #Google GitHub - google-gemini/gemini-fullstack-langgraph-quickstart: Get started with building Fullstack Agents using Gemini 2.5 and LangGraph
Google AI Studio 体验下一代 AI 模型 Kingfall

来源:Google AI Studio 模型注入脚本:原理、开发与调试全指南

安装帖子中的油猴脚本,之后打开 AI Studio 即可体验 Kingfall / Gemini 2.5 Pro-0325(出道即巅峰)

#AI #Google #Script
Google AI Edge Gallery - 在手机本地运行 AI 模型的 App

https://github.com/google-ai-edge/gallery

类似于之前看到的阿里推出的 MNN,暂时支持的模型没有 MNN 多

目前支持 Android ,并将晚些时间支持 iOS。

Google 出品的允许用户在手机上运行 AI 大模型的 App。它可以运行来自 AI 开发平台 Hugging Face 的一系列公开 AI 模型。

用户可以通过它查找、下载和运行兼容的模型,这些模型可以生成图像、回答问题、编写和编辑代码等等。这些模型可以离线运行,无需网络连接,并利用受支持的手机处理器。该应用主屏幕显示 AI 任务和功能的快捷方式。其还提供了一个“Prompt Lab”,用户可以使用它来启动由模型驱动的 “单轮” 任务,例如摘要和文本重写。Prompt Lab 附带多个任务模板和可配置设置,用于微调模型的行为。

—— TechCrunch

#Google #AI #Tool #Android #GitHub #RePost link GitHub - google-ai-edge/gallery: A gallery that showcases on-device ML/GenAI use cases and allows people to try and use models…
Google Stitch

https://stitch.withgoogle.com/

号称是生成出色设计和 UI 界面最简单、最快捷的产品

Stitch是一个 AI 驱动的工具,帮助应用程序构建器为移动和 Web 应用程序生成高质量的用户界面,并轻松将它们导出 Figma,或直接访问前端代码。

#Google #AI link Stitch - Design with AI
谷歌今天在 I/O 2025 大会上宣布了一系列新的 AI 模型、工具和订阅服务

生成媒体

- Veo 3 是 Google 最先进的视频生成模型,能够创建带有音效甚至对话的视频,目前在美国,Google AI Ultra 订阅用户可以通过 Gemini 应用和 Flow 使用,也可以在 Vertex AI 上进行私人预览,并将在未来几周内更广泛地推出

- Veo 2 正在获得新功能,例如参考驱动的视频(用于一致的风格和角色)、用于精确镜头调整的相机控制、用于扩展纵横比的外画以及对象添加/删除,现在 Flow 中提供了一些新控件,而 Vertex AI 即将提供全套​​控件

- Imagen 4 可生成更丰富、更细致、更准确的图像,改进文本渲染和快速结果,现已在 Gemini 应用程序、Whisk、Workspace(幻灯片、文档、视频)和 Vertex AI 中免费提供,新的快速版本即将推出

- Flow 是一款全新的 AI 电影制作工具,可让您通过自然语言和资产管理,使用 Veo、Imagen 和 Gemini 创建电影剪辑;现在可供美国的 Google AI Pro 和 Ultra 订阅用户使用

- Google 的音乐生成模型 Lyria 2 现已在 Vertex AI 中上线,用于高保真自适应音乐生成,Lyria RealTime 可作为实验性交互式音乐模型通过 Gemini API 和 Google AI Studio 使用,用于实时创作和演奏生成音乐

Gemini 应用程序

- Canvas 新增一键“创建”按钮,可轻松将聊天内容转换为交互式内容,例如信息图表、测验和 45 种语言的播客,而 Deep Research 现在可让您上传文件和图像,并且即将推出 Google Drive 和 Gmail 集成

- Gemini Live 相机和屏幕共享功能现已在 Android 和 iOS 上免费提供(正在推出),并将很快与日历、Keep、地图和 Tasks 等 Google 应用集成

订阅

- Google AI Pro(每月 19.99 美元)可在美国和其他国家/地区使用,但一些最新功能(如 Chrome 中的 Flow 或 Gemini)将首先在美国推出,并计划在更广泛的范围内推出

- Google AI Ultra(249.99 美元/月,新用户前三个月可享受 50% 的优惠)提供最高的使用限制、最早使用 Veo 3 和 Gemini 2.5 Pro Deep Think 等高级模型、最高限制的 Flow,以及独家使用 Agent Mode 以及 YouTube Premium 和 30TB 存储空间,现已在美国推出,更多国家即将推出

- 美国、英国、巴西、印度尼西亚和日本的大学生可以免费获得一学年的 Google AI Pro

Chrome 和代理模式下的 Gemini

- Chrome 中的 Gemini 正在桌面上推出,供美国(英语)的 Google AI Pro 和 Ultra 用户使用,以便您可以总结、澄清和获取您正在阅读的任何网页的帮助,并通过隐私控制使 Gemini 仅在您提出要求时采取行动

- 代理模式即将面向 Ultra 桌面用户推出,该模式允许 Gemini 使用 MCP 协议和自动导航在线处理复杂的目标,例如筛选列表、填写表格或根据搜索结果进行安排

人工智能在搜索中的应用

- AI 模式将以新标签页的形式在 Google 搜索中向所有美国用户推出,该模式由 Gemini 2.5 提供支持,提供更高级的推理、更长的查询、多模式搜索和即时的高质量答案,其中的“深度搜索”可同时进行数百次搜索并综合引用的报告

- Project Astra 的实时功能(指向你的相机,询问你所看到的内容)、Project Mariner 的代理工具(购买门票、进行预订、管理任务)以及 Gmail 或其他 Google 应用的个人上下文将进入 AI 模式,由用户控制

Gemini 2.5

- Gemini 2.5 Pro 和 2.5 Flash 是领先的编码和推理基准,Gemini 2.5 Flash 有一个新的预览版本,具有更好的速度、效率和编码/推理能力,两种型号都将于 2025 年 6 月全面上市

- Gemini 2.5 Pro Deep Think 引入了一种实验性的增强推理模式,包括用于复杂任务的并行思维技术,在全面推出之前,首先通过 Gemini API 向值得信赖的测试人员推出,然后让用户控制答案深度和速度的思考预算

- Gemini API 和 SDK 原生支持模型上下文协议 (MCP),从而可以更轻松地跨系统集成代理和工具

- Gemini API 和 Vertex AI 现在提供“思想摘要”,逐步解释 Gemini 的推理和工具使用

Project Starline -> Google Beam、Astra -> Gemini Live、Mariner ->特工模式

- Starline 项目现已更名为 Google Beam,这是一个由人工智能驱动的 3D 视频通话平台,可将 2D 流媒体转化为身临其境的逼真会议,并将于今年晚些时候与惠普和其他企业合作伙伴合作推出

- Gemini Live 内置 Astra 的实时摄像头和屏幕共享功能,这些功能已在 Android 上免费提供,现已在 iOS 上推出

- Project Mariner 的代理计算机使用功能(例如多任务处理和浏览器自动化)现已面向美国 Ultra 用户开放,并将很快通过 Gemini API 和 Vertex AI 面向开发者开放

开放模型和开发工具

Gemma 3n 是一种新型高效多模态开放模型,专为快速、低内存设备设计,支持文本、音频、图像和多语言输入,目前已在 AI Studio 和 AI Edge 上为开发者提供预览版。

- Jules 是一款由 Gemini 2.5 Pro 提供支持的异步编码代理,目前处于公开测试阶段,并且免费,可在 GitHub 或您的 repo 中处理实际的编码任务,并具有并发任务和音频更新日志

- Gemini Diffusion 是一种用于快速文本生成的实验性研究模型,其输出速度约为 Google 之前最快模型的五倍,目前已通过候补名单向开发者提供预览。

SynthID Detector 是一个用于检查图像、音频、视频或文本是否由 Google 的 AI 工具生成的门户,目前正通过候补名单向早期测试人员推出,后续将提供更广泛的访问权限

#Google

https://x.com/btibor91/status/1924938391478468754?s=46&t=Egk_JeNH7VpTJDgz1k_q5w

https://blog.google/technology/developers/google-io-2025-collection/ I/O 2025
YT Navigator - AI 驱动的 YouTube 内容探索工具

https://github.com/wassim249/YT-Navigator

YT Navigator 是一个基于 AI 的应用程序,高效地浏览和搜索 YouTube 频道内容。

用自然语言搜索频道视频、与频道内容进行聊天对话,并发现相关的视频片段及其精确时间戳。

项目适用于研究人员、学生、内容创作者或任何需要快速从 YouTube 频道中提取信息的人。

1. 频道数据检索: 用户输入 YouTube 频道 URL,系统会提取频道详细信息并存储在数据库中。
2. 频道内容查询: 用户输入自然语言查询,系统会通过语义搜索和关键字搜索返回相关视频片段。
3. 与频道聊天: 用户可以与一个 AI 代理进行对话,该代理拥有频道内容的知识。

#AI #GitHub #Tool #Google GitHub - wassim249/YT-Navigator: YT Navigator: AI-powered YouTube content explorer that lets you search and chat with channel videos…
Google One AI Premium 大学生免费

Gemini Advanced AI + Google Drive 2T 存储

https://gemini.google/students/

申请成功后 15 个月免费,15 个月过后按照原价 $ 20 每月收费

在免费期结束前随时取消,避免扣费

优惠申请截止日期:2025年6月30日

限定美国地区针已验证的 18 岁及以上学生(教育邮箱


1. 去这个网址查看自己的 Google 账号是否为美国,如果非美国建议重新注册账号
https://policies.google.com/country-association-form

2. 去这个网址登陆你自己的 Google 账号
https://gemini.google/students

3. 网站会要求你提供 edu 邮箱,并接受验证码
后面就是绑定付款和手机号之类的了,付款可以美区 PayPal (支持招商银行双币卡、外币卡),手机号可以用 Ultra Mobile 之类的实体卡

#AI #Free #Google Gemini for Students — your AI study buddy from Google
谷歌发布了一份 69 页的提示工程及其最佳实践

详细介绍了如何通过提示工程(Prompt Engineering)来有效地与大模型交互,以及如何编写提示词获得想要的输出。

包括对大模型输出配置的介绍,如输出长度、采样控制、温度值、Top-K 和 Top-P 选择等。

同时涵盖各种不同的提示词技术,包括通用 Prompt、上下文、角色提示、思维链(CoT)以及思维树(ToT)等等。

并且提供相关的代码示例和清楚的注释,以便更好地理解与实践。

#AI #Doc #Prompt #Google
Google - Prompt Engineering.pdf
6.5 MB
Google 推出 Agent2Agent(A2A)协议

Agent2Agent (A2A) 是一种新的开放协议,建立智能体之间的标准化协作框架。

A2A允许不同供应商或框架开发的AI智能体相互通信、安全交换信息并协调行动,覆盖文本、音视频流等多模态协作场景。

https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/
#Google #AI Google for Developers Blog - News about Web, Mobile, AI and Cloud
第三方 YouTube Music 客户端

会员是不可能开的👋

https://github.com/th-ch/youtube-music

YouTube Music 是一个基于 Electron 的桌面应用程序,提供了丰富的自定义插件功能,包括广告拦截、下载器等。

该应用程序旨在保持原有的YouTube Music界面,同时提供了一个可扩展的框架,用户可以根据自己的需求定制应用程序的样式、内容和功能。

原生外观和感觉,保持原有的YouTube Music界面
支持自定义插件,用户可以根据需求启用/禁用插件
内置广告拦截器和下载器
支持多种主题定制

#GitHub #Tool #Music #Google GitHub - th-ch/youtube-music: YouTube Music Desktop App bundled with custom plugins
my-yt - YouTube 第三方 Web 客户端

https://github.com/christian-fei/my-yt

my-yt 是一个干净简约的 YouTube 前端,没有广告和其他干扰元素。

它使用yt-dlp下载视频,并可选地使用本地AI模型或托管服务(如OpenAI)对视频内容进行总结。

它还提供了频道管理、离线播放、Chromecast支持、去除赞助内容等功能,为用户提供了更加专注和高效的YouTube观看体验。

频道管理和订阅
使用yt-dlp下载YouTube视频
忽略不想观看的视频
自动移除赞助内容(借助SponsorBlock)
离线媒体播放
原生Google Chromecast支持
禁用点击诱饵缩略图
后台播放视频
使用本地AI模型或托管服务(如OpenAI)总结视频内容
原生画中画支持
无依赖(除了nano-spawn,它本身没有传递依赖)
仅使用HTML/CSS,客户端/服务器端无JS框架
使用track元素和WebVTT API支持字幕

#GitHub #Google #Video GitHub - christian-fei/my-yt: A clean and minimal youtube frontend, without all the ads and whistles
YT PRO - Android 轻量级 YouTube 客户端

https://github.com/prateek-chaubey/YTPRO

YTPro 是一款功能强大的 YouTube 应用程序,提供了多种增强功能,包括视频下载、背景播放、广告拦截等。

该项目旨在通过 JavaScript 注入到 WebView 中来提高用户的生产力。

视频摘要和定制提示
视频下载器
短视频下载器
缩略图下载器
字幕下载器
广告拦截器
最小化视频
画中画模式
显示点赞数
后台音频播放器
自定义收藏功能
跳过赞助内容
强制缩放
隐藏短视频
小于 50KB 的 APK 大小
最小化设计
几乎没有内部依赖
自动更新应用程序
Gemini AI 总结视频

#Android #GitHub #Google #Video GitHub - prateek-chaubey/YTPro: All in one YouTube App with downloader, background player, Google Gemini ✨ and many more features.
Gemma3 – 当前最强大的单GPU模型

Gemma3 是当前最强大的单GPU模型。该模型的参数有四种规格可供选择:1B、4B、12B和27B,适用于不同的任务需求。Gemma3 是基于Google的Gemini技术构建的轻量级多模态模型,可以处理文本和图像,支持超过140种语言,并提供128K的上下文窗口。其设计紧凑,适合在资源有限的设备上部署。

在模型参数方面,具体的指标如下:

• 1B参数模型(32k上下文窗口)

• 4B参数模型(128k上下文窗口)

• 12B参数模型(128k上下文窗口)

• 27B参数模型(128k上下文窗口)

模型在文本生成方面的表现经过一系列基准测试进行评估,涵盖推理、逻辑和代码能力等不同方面。根据不同数据集和评估指标,Gemma3在各个参数规格下的表现如下:

• HellaSwag:1B为62.3,4B为77.2,12B为84.2,27B为85.6

• BoolQ:1B为63.2,4B为72.3,12B为78.8,27B为82.4

• PIQA:1B为73.8,4B为79.6,12B为81.8,27B为83.3

• 其他数据集的表现也在不同参数下有所不同,全面展示了Gemma3在处理语言任务时的强大能力。

在多模态能力的评估中,4B、12B和27B参数模型在多项指标上也显示出优越表现,如COCOcap、DocVQA等测试中均取得了理想的分数。

最后,需要注意的是,使用Gemma3模型需遵循Gemma使用条款,并要求安装Ollama 0.6或更高版本。

https://ollama.com/library/gemma3

https://news.ycombinator.com/item?id=43340785

#AI #Google link
Google Gemini 2.0 的 thinking 模型每个对话的 Token 上限提高到 100 万,相较之前有进步,但某些时候还是比 DeepSeek R1 要差点意思

https://aistudio.google.com/prompts/new_chat

#AI #Google
Google Gemini

https://github.com/google-gemini/multimodal-live-api-web-console

基于React,通过WebSocket使用Multimodal Live API。它提供了流式音频播放、录制用户媒体(如麦克风、网络摄像头或屏幕捕获)以及统一日志视图等功能,以帮助开发人员构建应用程序

https://github.com/google-gemini/cookbook

关于 Gemini API 的 cookbook,提供了各种使用 Gemini API 的指南和示例。Gemini API 是由 Google DeepMind 开发的一个多模态 API,可以处理文本、图像、代码和音频等数据。

#GitHub #Google #AI GitHub - google-gemini/live-api-web-console: A react-based starter app for using the Live API over websockets with Gemini
 
 
Back to Top
OKHK