Grok

xAI团队打造的多模态AI模型，具备文生图、文生视频、图生视频核心能力，极速生成高质量视觉内容

输入

生成结果

提交表单后，生成结果将显示在这里

什么是Grok AI

Grok是马斯克旗下xAI团队自主研发的多模态人工智能模型，命名灵感源自科幻小说《银河系漫游指南》，依托前沿Aurora引擎和海量公开数据训练而成。它打破单一文本交互限制，实现文本与视觉内容的高效转化，核心提供文生图、文生视频、图生视频三大功能，兼具幽默感与强大的实时信息处理能力，是一款面向全场景创作的智能工具

为什么选择Grok

生成速度行业领先

文生图阶段2秒内即可呈现候选图像，视频生成最快6秒完成，整体流程无需长时间等待，远超同类工具的响应效率，让创意快速落地

多模态功能全覆盖

一站式满足图像生成、文本转视频、静态图转动态视频的全流程需求，无需切换多个工具，适配从素材创作到成品输出的完整链路

操作简单门槛极低

支持文本输入、图片上传两种核心交互方式，搭配语音输入功能，无需专业设计或剪辑技能，普通用户也能快速上手生成优质内容

多风格高适配性

提供正常、趣味等预设模式及自定义模式，支持多种宽高比和分辨率输出，画面过渡流畅，音画自动同步，适配不同场景创作需求

Grok的核心用途与场景

文生图：快速生成创意图像

输入文本描述即可实时生成大量不同风格的图像，支持1024×1024高分辨率输出，适用于社交媒体配图、产品设计草图、品牌标志创意、插画创作等场景

文生视频：文本直接转动态视频

无需复杂操作，输入文字描述就能生成6-15秒带背景音效的短视频，动态镜头自然，音画同步精准，适配短视频内容创作、社媒营销素材、创意灵感小样等场景

图生视频：静态图转生动视频

上传静态图片后，AI智能添加自然动作或执行自定义运镜指令，支持5-10秒时长选择，输出分辨率最高可达1080p，适用于电商产品展示、房产视频参观、艺术作品动态演示、生活照片动态化等场景

如何使用Grok

步骤一：选择功能模式

进入Grok使用页面，根据需求选择文生图、文生视频或图生视频功能模式

步骤二：提交创作指令

文生图/文生视频模式可输入文本描述或使用语音输入；图生视频模式需上传静态图片，可补充动作、风格等自定义指令

步骤三：选择参数与模式

从预设模式中选择偏好风格，或自定义设置视频时长、分辨率、宽高比等参数

步骤四：生成并导出内容

点击生成按钮，等待几秒即可获得成品，文生图可挑选满意图像再转视频，最终导出无水印的图片或视频文件

立即体验Grok AI创作

释放创意潜能，用AI快速生成优质图像与视频，点击下方按钮开启你的多模态创作之旅

开始创作

常见问题

Grok支持哪些输出格式和分辨率？

文生图支持1024×1024像素输出；视频支持480p、720p、1080p等分辨率，宽高比包含16:9、9:16等多种规格，生成的视频无水印

视频生成的时长范围是多少？

目前文生视频时长为6-15秒，图生视频支持5秒或10秒时长选择，后续将升级支持更长视频序列及多场景过渡

使用Grok需要专业技能吗？

不需要，Grok操作门槛极低，无需专业设计、剪辑或编程技能，只需输入简单描述或上传图片，即可快速生成优质内容

Grok的视频生成有哪些模式可选？

支持正常模式、趣味模式和自定义模式，不同模式可实现不同风格的视觉效果，满足多样化创作需求

图生视频时可以自定义动态效果吗？

可以，上传图片后可输入自定义动作指令，比如希区柯克变焦等运镜效果，AI会根据指令精准呈现对应的动态效果

Grok Text to Image Grok Text to Video Grok Image to Video