#Google | OKHK

👋 个人碎碎念

⭐ 资讯文档 / Bing 每日壁纸

👉 实用工具 / GitHub 项目

✨ https://tg.okhk.net

gemini-balance - Gemini（Google AI） API 轮询代理服务

https://github.com/snailyp/gemini-balance

Gemini Balance 是一个基于 Python FastAPI 构建的应用程序，旨在为 Google Gemini API 提供代理和负载均衡功能。

● 支持配置多个 Gemini API 密钥，实现自动顺序轮询，提高可用性和并发性
● 通过管理后端即时生效的可视化配置
● 支持以 Gemini 和 OpenAI 格式转发 CHAT API 请求
● 支持图像 - 文本聊天和图像编辑功能
● 支持网页搜索功能
● 提供实时查看每个密钥状态和使用情况的 /keys_status 页面
● 提供详细的错误日志，便于故障排查
● 支持自定义 Gemini 代理
● 兼容 OpenAI 图像生成 API
● 灵活的密钥添加方式，支持正则匹配
● 完美适配 OpenAI 格式的嵌入 API 接口
● 可选的流响应优化功能
● 自动处理 API 请求失败、重试和密钥管理
● 支持 AMD 和 ARM 架构的 Docker 部署
● 支持自动获取 OpenAI 和 Gemini 模型列表
● 支持配置 HTTP/SOCKS5 代理服务器

#AI #Google #Tool #GitHub

GitHub

GitHub - snailyp/gemini-balance: Gemini polling proxy service （gemini轮询代理服务）

Gemini polling proxy service （gemini轮询代理服务）. Contribute to snailyp/gemini-balance development by creating an account on GitHub.

AI Google Tool GitHub

14:54 · 2025年6月19日 · 周四

Gemini Fullstack LangGraph Quickstart

https://github.com/google-gemini/gemini-fullstack-langgraph-quickstart

项目展示了如何使用 LangGraph 和 Google 的 Gemini 2.5 模型构建全栈 AI Agent，通过动态生成搜索词、使用 Google 搜索查询网页、反思结果以识别知识差距并迭代地改进搜索，最终提供有依据的答案和引用来完成对用户查询的全面研究，让复杂问题一键解决。

● 使用 React 前端和 LangGraph 后端构建的全栈应用程序
● 由 LangGraph 代理提供 Deep Research 和对话 AI 功能
● 使用 Google Gemini 模型动态生成搜索查询
● 通过 Google 搜索 API 集成网络研究
● 使用反思推理识别知识差距并完善搜索
● 生成带有引用来源的答案
● 开发过程中前后端都支持热重载

#AI #GitHub #Tool #Google

GitHub

GitHub - google-gemini/gemini-fullstack-langgraph-quickstart: Get started with building Fullstack Agents using Gemini 2.5 and LangGraph

Get started with building Fullstack Agents using Gemini 2.5 and LangGraph - google-gemini/gemini-fullstack-langgraph-quickstart

AI GitHub Tool Google

00:53 · 2025年6月10日 · 周二

Google AI Studio 体验下一代 AI 模型 Kingfall

来源：Google AI Studio 模型注入脚本：原理、开发与调试全指南

安装帖子中的油猴脚本，之后打开 AI Studio 即可体验 Kingfall / Gemini 2.5 Pro-0325（出道即巅峰）

#AI #Google #Script

AI Google Script

00:53 · 2025年6月6日 · 周五

Gemini 2.5 Pro 0605 现已在 AI Studio 可用，宣称在多个基准测试中回到 SOTA 水平。
#Google #AI

https://deepmind.google/models/gemini/pro/

Google DeepMind

Gemini 2.5 Pro

Gemini 2.5 Pro is our most advanced model for complex tasks. With thinking built in, it showcases strong reasoning and coding capabilities.

Google AI

14:20 · 2025年6月1日 · 周日

Google AI Edge Gallery - 在手机本地运行 AI 模型的 App

https://github.com/google-ai-edge/gallery

类似于之前看到的阿里推出的 MNN，暂时支持的模型没有 MNN 多

目前支持 Android ，并将晚些时间支持 iOS。

Google 出品的允许用户在手机上运行 AI 大模型的 App。它可以运行来自 AI 开发平台 Hugging Face 的一系列公开 AI 模型。

用户可以通过它查找、下载和运行兼容的模型，这些模型可以生成图像、回答问题、编写和编辑代码等等。这些模型可以离线运行，无需网络连接，并利用受支持的手机处理器。该应用主屏幕显示 AI 任务和功能的快捷方式。其还提供了一个“Prompt Lab”，用户可以使用它来启动由模型驱动的 “单轮” 任务，例如摘要和文本重写。Prompt Lab 附带多个任务模板和可配置设置，用于微调模型的行为。

—— TechCrunch

#Google #AI #Tool #Android #GitHub #RePost link

GitHub

GitHub - google-ai-edge/gallery: A gallery that showcases on-device ML/GenAI use cases and allows people to try and use models…

A gallery that showcases on-device ML/GenAI use cases and allows people to try and use models locally. - google-ai-edge/gallery

Google AI Tool Android GitHub RePost

17:03 · 2025年5月21日 · 周三

Google Stitch

https://stitch.withgoogle.com/

号称是生成出色设计和 UI 界面最简单、最快捷的产品

Stitch是一个 AI 驱动的工具，帮助应用程序构建器为移动和 Web 应用程序生成高质量的用户界面，并轻松将它们导出 Figma，或直接访问前端代码。

#Google #AI link

Stitch

Stitch - Design with AI

Stitch generates UIs for mobile and web applications, making design ideation fast and easy.

Google AI

13:57 · 2025年5月21日 · 周三

谷歌今天在 I/O 2025 大会上宣布了一系列新的 AI 模型、工具和订阅服务

生成媒体

- Veo 3 是 Google 最先进的视频生成模型，能够创建带有音效甚至对话的视频，目前在美国，Google AI Ultra 订阅用户可以通过 Gemini 应用和 Flow 使用，也可以在 Vertex AI 上进行私人预览，并将在未来几周内更广泛地推出

- Veo 2 正在获得新功能，例如参考驱动的视频（用于一致的风格和角色）、用于精确镜头调整的相机控制、用于扩展纵横比的外画以及对象添加/删除，现在 Flow 中提供了一些新控件，而 Vertex AI 即将提供全套控件

- Imagen 4 可生成更丰富、更细致、更准确的图像，改进文本渲染和快速结果，现已在 Gemini 应用程序、Whisk、Workspace（幻灯片、文档、视频）和 Vertex AI 中免费提供，新的快速版本即将推出

- Flow 是一款全新的 AI 电影制作工具，可让您通过自然语言和资产管理，使用 Veo、Imagen 和 Gemini 创建电影剪辑；现在可供美国的 Google AI Pro 和 Ultra 订阅用户使用

- Google 的音乐生成模型 Lyria 2 现已在 Vertex AI 中上线，用于高保真自适应音乐生成，Lyria RealTime 可作为实验性交互式音乐模型通过 Gemini API 和 Google AI Studio 使用，用于实时创作和演奏生成音乐

Gemini 应用程序

- Canvas 新增一键“创建”按钮，可轻松将聊天内容转换为交互式内容，例如信息图表、测验和 45 种语言的播客，而 Deep Research 现在可让您上传文件和图像，并且即将推出 Google Drive 和 Gmail 集成

- Gemini Live 相机和屏幕共享功能现已在 Android 和 iOS 上免费提供（正在推出），并将很快与日历、Keep、地图和 Tasks 等 Google 应用集成

订阅

- Google AI Pro（每月 19.99 美元）可在美国和其他国家/地区使用，但一些最新功能（如 Chrome 中的 Flow 或 Gemini）将首先在美国推出，并计划在更广泛的范围内推出

- Google AI Ultra（249.99 美元/月，新用户前三个月可享受 50% 的优惠）提供最高的使用限制、最早使用 Veo 3 和 Gemini 2.5 Pro Deep Think 等高级模型、最高限制的 Flow，以及独家使用 Agent Mode 以及 YouTube Premium 和 30TB 存储空间，现已在美国推出，更多国家即将推出

- 美国、英国、巴西、印度尼西亚和日本的大学生可以免费获得一学年的 Google AI Pro

Chrome 和代理模式下的 Gemini

- Chrome 中的 Gemini 正在桌面上推出，供美国（英语）的 Google AI Pro 和 Ultra 用户使用，以便您可以总结、澄清和获取您正在阅读的任何网页的帮助，并通过隐私控制使 Gemini 仅在您提出要求时采取行动

- 代理模式即将面向 Ultra 桌面用户推出，该模式允许 Gemini 使用 MCP 协议和自动导航在线处理复杂的目标，例如筛选列表、填写表格或根据搜索结果进行安排

人工智能在搜索中的应用

- AI 模式将以新标签页的形式在 Google 搜索中向所有美国用户推出，该模式由 Gemini 2.5 提供支持，提供更高级的推理、更长的查询、多模式搜索和即时的高质量答案，其中的“深度搜索”可同时进行数百次搜索并综合引用的报告

- Project Astra 的实时功能（指向你的相机，询问你所看到的内容）、Project Mariner 的代理工具（购买门票、进行预订、管理任务）以及 Gmail 或其他 Google 应用的个人上下文将进入 AI 模式，由用户控制

Gemini 2.5

- Gemini 2.5 Pro 和 2.5 Flash 是领先的编码和推理基准，Gemini 2.5 Flash 有一个新的预览版本，具有更好的速度、效率和编码/推理能力，两种型号都将于 2025 年 6 月全面上市

- Gemini 2.5 Pro Deep Think 引入了一种实验性的增强推理模式，包括用于复杂任务的并行思维技术，在全面推出之前，首先通过 Gemini API 向值得信赖的测试人员推出，然后让用户控制答案深度和速度的思考预算

- Gemini API 和 SDK 原生支持模型上下文协议 (MCP)，从而可以更轻松地跨系统集成代理和工具

- Gemini API 和 Vertex AI 现在提供“思想摘要”，逐步解释 Gemini 的推理和工具使用

Project Starline -> Google Beam、Astra -> Gemini Live、Mariner ->特工模式

- Starline 项目现已更名为 Google Beam，这是一个由人工智能驱动的 3D 视频通话平台，可将 2D 流媒体转化为身临其境的逼真会议，并将于今年晚些时候与惠普和其他企业合作伙伴合作推出

- Gemini Live 内置 Astra 的实时摄像头和屏幕共享功能，这些功能已在 Android 上免费提供，现已在 iOS 上推出

- Project Mariner 的代理计算机使用功能（例如多任务处理和浏览器自动化）现已面向美国 Ultra 用户开放，并将很快通过 Gemini API 和 Vertex AI 面向开发者开放

开放模型和开发工具

Gemma 3n 是一种新型高效多模态开放模型，专为快速、低内存设备设计，支持文本、音频、图像和多语言输入，目前已在 AI Studio 和 AI Edge 上为开发者提供预览版。

- Jules 是一款由 Gemini 2.5 Pro 提供支持的异步编码代理，目前处于公开测试阶段，并且免费，可在 GitHub 或您的 repo 中处理实际的编码任务，并具有并发任务和音频更新日志

- Gemini Diffusion 是一种用于快速文本生成的实验性研究模型，其输出速度约为 Google 之前最快模型的五倍，目前已通过候补名单向开发者提供预览。

SynthID Detector 是一个用于检查图像、音频、视频或文本是否由 Google 的 AI 工具生成的门户，目前正通过候补名单向早期测试人员推出，后续将提供更广泛的访问权限

#Google

https://x.com/btibor91/status/1924938391478468754?s=46&t=Egk_JeNH7VpTJDgz1k_q5w

https://blog.google/technology/developers/google-io-2025-collection/

blog.google

I/O 2025

We’re doing cutting-edge research to build the most helpful AI that’s more intelligent, agentic and personalized.

Google

15:09 · 2025年5月5日 · 周一

YT Navigator - AI 驱动的 YouTube 内容探索工具

https://github.com/wassim249/YT-Navigator

YT Navigator 是一个基于 AI 的应用程序,高效地浏览和搜索 YouTube 频道内容。

用自然语言搜索频道视频、与频道内容进行聊天对话,并发现相关的视频片段及其精确时间戳。

项目适用于研究人员、学生、内容创作者或任何需要快速从 YouTube 频道中提取信息的人。

1. 频道数据检索: 用户输入 YouTube 频道 URL,系统会提取频道详细信息并存储在数据库中。
2. 频道内容查询: 用户输入自然语言查询,系统会通过语义搜索和关键字搜索返回相关视频片段。
3. 与频道聊天: 用户可以与一个 AI 代理进行对话,该代理拥有频道内容的知识。

#AI #GitHub #Tool #Google

GitHub

GitHub - wassim249/YT-Navigator: YT Navigator: AI-powered YouTube content explorer that lets you search and chat with channel videos…

YT Navigator: AI-powered YouTube content explorer that lets you search and chat with channel videos using AI agents. Extract insights from hours of content in seconds with semantic search and preci...

AI GitHub Tool Google

14:20 · 2025年5月1日 · 周四

DocTranslator - 文档翻译

免费在线文档翻译服务，支持将办公文档如 Word、PDF、Excel、PowerPoint、 OpenOffice 和文本文件翻译成多种语言，同时完美保留原始排版

只需将文件拖拽上传，系统会自动检测原始语言并将其翻译为目标语言

https://www.onlinedoctranslator.com/zh-CN/translationform#google_vignette

#URL #PDF #Tool

Online Doc Translator

免费的在线文档翻译器——保留原文档的排版（Word、PDF、Excel、Powerpoint、OpenOffice、文本）

免费的在线服务，将办公文档（Word，Excel，Powerpoint，PDF，OpenOffice，文本）翻译成多种语言，并保持原始排版。支持的文件格式包括，Word文档：doc、docx；PDF文档：pdf； Excel文档：xls、xlsx；PowerPoint文档：ppt、pptx；文本文档：xml、txt等

URL PDF Tool

08:42 · 2025年4月18日 · 周五

Google One AI Premium 大学生免费

Gemini Advanced AI + Google Drive 2T 存储

https://gemini.google/students/

申请成功后 15 个月免费，15 个月过后按照原价 $ 20 每月收费

在免费期结束前随时取消，避免扣费

优惠申请截止日期：2025年6月30日

限定美国地区针已验证的 18 岁及以上学生（教育邮箱

1. 去这个网址查看自己的 Google 账号是否为美国，如果非美国建议重新注册账号
https://policies.google.com/country-association-form

2. 去这个网址登陆你自己的 Google 账号
https://gemini.google/students

3. 网站会要求你提供 edu 邮箱，并接受验证码
后面就是绑定付款和手机号之类的了，付款可以美区 PayPal （支持招商银行双币卡、外币卡），手机号可以用 Ultra Mobile 之类的实体卡

#AI #Free #Google

Gemini

Gemini for Students — your AI study buddy from Google

Unlock Gemini's power for school & beyond, from homework help to video creation. Get more Gemini with Google AI Pro and start your free trial now!

AI Free Google

08:32 · 2025年4月13日 · 周日

谷歌发布了一份 69 页的提示工程及其最佳实践

详细介绍了如何通过提示工程（Prompt Engineering）来有效地与大模型交互，以及如何编写提示词获得想要的输出。

包括对大模型输出配置的介绍，如输出长度、采样控制、温度值、Top-K 和 Top-P 选择等。

同时涵盖各种不同的提示词技术，包括通用 Prompt、上下文、角色提示、思维链（CoT）以及思维树（ToT）等等。

并且提供相关的代码示例和清楚的注释，以便更好地理解与实践。

#AI #Doc #Prompt #Google

Google - Prompt Engineering.pdf

6.5 MB

AI Doc Prompt Google

06:43 · 2025年4月11日 · 周五

OKHK

Google 推出 Agent2Agent（A2A）协议 Agent2Agent (A2A) 是一种新的开放协议，建立智能体之间的标准化协作框架。 A2A允许不同供应商或框架开发的AI智能体相互通信、安全交换信息并协调行动，覆盖文本、音视频流等多模态协作场景。 https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/ #Google #AI

Google-A2A 多智能体通信协议
#Google #AI

Telegraph

Google A2A：多智能体通信协议

在 MCP 生态日益壮大的今天（浅谈 Agent、MCP、OpenAI Responses API，深度解析：Anthropic MCP 协议），Google 又搞出了个 A2A 协议，意欲何为？为了搞清楚两个协议之间的关系，我画了一张 A2A 核心图解帮助大家快速理解。其实两者并非竞争关系，而是一种互补协议。背景

Google AI

05:57 · 2025年4月10日 · 周四

Google 推出 Agent2Agent（A2A）协议

Agent2Agent (A2A) 是一种新的开放协议，建立智能体之间的标准化协作框架。

A2A允许不同供应商或框架开发的AI智能体相互通信、安全交换信息并协调行动，覆盖文本、音视频流等多模态协作场景。

https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/
#Google #AI

Googleblog

Google for Developers Blog - News about Web, Mobile, AI and Cloud

Explore A2A, Google's new open protocol empowering developers to build interoperable AI solutions.

Google AI

21:14 · 2025年4月1日 · 周二

第三方 YouTube Music 客户端

会员是不可能开的👋

https://github.com/th-ch/youtube-music

YouTube Music 是一个基于 Electron 的桌面应用程序,提供了丰富的自定义插件功能,包括广告拦截、下载器等。

该应用程序旨在保持原有的YouTube Music界面,同时提供了一个可扩展的框架,用户可以根据自己的需求定制应用程序的样式、内容和功能。

● 原生外观和感觉,保持原有的YouTube Music界面
● 支持自定义插件,用户可以根据需求启用/禁用插件
● 内置广告拦截器和下载器
● 支持多种主题定制

#GitHub #Tool #Music #Google

GitHub

GitHub - th-ch/youtube-music: YouTube Music Desktop App bundled with custom plugins

YouTube Music Desktop App bundled with custom plugins - th-ch/youtube-music

GitHub Tool Music Google

20:04 · 2025年3月27日 · 周四

my-yt - YouTube 第三方 Web 客户端

https://github.com/christian-fei/my-yt

my-yt 是一个干净简约的 YouTube 前端，没有广告和其他干扰元素。

它使用yt-dlp下载视频，并可选地使用本地AI模型或托管服务(如OpenAI)对视频内容进行总结。

它还提供了频道管理、离线播放、Chromecast支持、去除赞助内容等功能,为用户提供了更加专注和高效的YouTube观看体验。

● 频道管理和订阅
● 使用yt-dlp下载YouTube视频
● 忽略不想观看的视频
● 自动移除赞助内容(借助SponsorBlock)
● 离线媒体播放
● 原生Google Chromecast支持
● 禁用点击诱饵缩略图
● 后台播放视频
● 使用本地AI模型或托管服务(如OpenAI)总结视频内容
● 原生画中画支持
● 无依赖(除了nano-spawn,它本身没有传递依赖)
● 仅使用HTML/CSS,客户端/服务器端无JS框架
● 使用track元素和WebVTT API支持字幕

#GitHub #Google #Video

GitHub

GitHub - christian-fei/my-yt: A clean and minimal youtube frontend, without all the ads and whistles

A clean and minimal youtube frontend, without all the ads and whistles - christian-fei/my-yt

GitHub Google Video

19:45 · 2025年3月27日 · 周四

YT PRO - Android 轻量级 YouTube 客户端

https://github.com/prateek-chaubey/YTPRO

YTPro 是一款功能强大的 YouTube 应用程序,提供了多种增强功能,包括视频下载、背景播放、广告拦截等。

该项目旨在通过 JavaScript 注入到 WebView 中来提高用户的生产力。

● 视频摘要和定制提示
● 视频下载器
● 短视频下载器
● 缩略图下载器
● 字幕下载器
● 广告拦截器
● 最小化视频
● 画中画模式
● 显示点赞数
● 后台音频播放器
● 自定义收藏功能
● 跳过赞助内容
● 强制缩放
● 隐藏短视频
● 小于 50KB 的 APK 大小
● 最小化设计
● 几乎没有内部依赖
● 自动更新应用程序
● Gemini AI 总结视频

#Android #GitHub #Google #Video

GitHub

GitHub - prateek-chaubey/YTPro: All in one YouTube App with downloader, background player, Google Gemini ✨ and many more features.

All in one YouTube App with downloader, background player, Google Gemini ✨ and many more features. - prateek-chaubey/YTPro

Android GitHub Google Video

20:47 · 2025年3月12日 · 周三

Gemma3 – 当前最强大的单GPU模型

Gemma3 是当前最强大的单GPU模型。该模型的参数有四种规格可供选择：1B、4B、12B和27B，适用于不同的任务需求。Gemma3 是基于Google的Gemini技术构建的轻量级多模态模型，可以处理文本和图像，支持超过140种语言，并提供128K的上下文窗口。其设计紧凑，适合在资源有限的设备上部署。

在模型参数方面，具体的指标如下：

• 1B参数模型（32k上下文窗口）

• 4B参数模型（128k上下文窗口）

• 12B参数模型（128k上下文窗口）

• 27B参数模型（128k上下文窗口）

模型在文本生成方面的表现经过一系列基准测试进行评估，涵盖推理、逻辑和代码能力等不同方面。根据不同数据集和评估指标，Gemma3在各个参数规格下的表现如下：

• HellaSwag：1B为62.3，4B为77.2，12B为84.2，27B为85.6

• BoolQ：1B为63.2，4B为72.3，12B为78.8，27B为82.4

• PIQA：1B为73.8，4B为79.6，12B为81.8，27B为83.3

• 其他数据集的表现也在不同参数下有所不同，全面展示了Gemma3在处理语言任务时的强大能力。

在多模态能力的评估中，4B、12B和27B参数模型在多项指标上也显示出优越表现，如COCOcap、DocVQA等测试中均取得了理想的分数。

最后，需要注意的是，使用Gemma3模型需遵循Gemma使用条款，并要求安装Ollama 0.6或更高版本。

https://ollama.com/library/gemma3

https://news.ycombinator.com/item?id=43340785

#AI #Google link

Ollama

gemma3

The current, most capable model that runs on a single GPU.

AI Google

19:02 · 2025年1月24日 · 周五

Google Gemini 2.0 的 thinking 模型每个对话的 Token 上限提高到 100 万，相较之前有进步，但某些时候还是比 DeepSeek R1 要差点意思

https://aistudio.google.com/prompts/new_chat

#AI #Google

AI Google

23:03 · 2024年12月15日 · 周日

Google Gemini

https://github.com/google-gemini/multimodal-live-api-web-console

基于React,通过WebSocket使用Multimodal Live API。它提供了流式音频播放、录制用户媒体(如麦克风、网络摄像头或屏幕捕获)以及统一日志视图等功能,以帮助开发人员构建应用程序

https://github.com/google-gemini/cookbook

关于 Gemini API 的 cookbook，提供了各种使用 Gemini API 的指南和示例。Gemini API 是由 Google DeepMind 开发的一个多模态 API，可以处理文本、图像、代码和音频等数据。

#GitHub #Google #AI

GitHub

GitHub - google-gemini/live-api-web-console: A react-based starter app for using the Live API over websockets with Gemini

A react-based starter app for using the Live API over websockets with Gemini - google-gemini/live-api-web-console

GitHub Google AI