首款实时生图模型登场!腾讯混元Hunyuan Image2.0震撼发布

AI新闻资讯3周前更新 一丢
385 00

在人工智能领域不断突破创新的浪潮中,腾讯混元重磅推出了全新的图片生成模型——Hunyuan Image2.0,这一模型的出现具有里程碑式的意义,它是有大语言模型(LLM)以来第一款能够实时生图的模型。

首款实时生图模型登场!腾讯混元Hunyuan Image2.0震撼发布

一丢-首款实时生图模型登场!腾讯混元Hunyuan Image2.0震撼发布

一、技术实力铸就超快推理与高质生成

Hunyuan Image2.0模型基于超高压缩倍率的图像编解码器、全新的扩散架构、超大模型尺寸和强化学习(RL)后训练。这些先进技术的融合,使得该模型实现了超快推理速度和超高质量的图像生成。其速度之快令人惊叹,当你还在输入提示词(prompt)时,它可能已经生成了3 – 4张图片;等你的prompt敲完,终版图片当场直接生成。如果是英文prompt,速度还会更快。在语义响应速度方面,Hunyuan Image2.0以0.9597分超过了所有生图模型,真正做到了“毫秒出图”。无论prompt多么复杂,哪怕是长达1000字的prompt,它也能凭借“高超响应速”快速出图,让“输入提示词 – 等待模型生成”的线性节奏转变为输入与输出同步发生的实时对话,“Speed Is All You Need”在这里得到了完美诠释。

二、真实感拉满,打破AI“滤镜”困境

对于AI来说,真实是最为宝贵的特质。以往很多由AI生成的人物图一眼就能看出是假的,这是因为数据集不够完善导致AI仿佛一直带着滤镜。而Hunyuan Image2.0模型通过RL后训练和美学后训练,成功做到了高写实,主打真实感,没有AI味。在一些真实场景下的生图效果非常好,比如怀旧风、胶片感。以下是一些实测案例:

  • 一对亚洲情侣在楼顶,背后是城市的街景,分别呈现80年代和新世纪的不同风格。
  • 阳光下,少女注视着前方,第一视角,双手捂着眼睛,仿佛出自导演Wes Anderson之手。
  • 一位日本中学生穿着校服,孤独地站在海边。
  • 爱因斯坦在故宫自拍的有趣场景。
  • 褪色的老照片,泛黄的色调,一位穿粗布旗袍的温婉女子站在民国茶馆门口,背景有黄包车和斑驳砖墙。
  • 苏州园林的雕花窗前,着马面裙的女子低头绣花,鬓边珍珠流苏轻晃,桌上摆着珐琅彩瓷茶具,柔光透过窗纱形成丁达尔效应。
  • 西部拓荒时代的小酒馆,戴牛仔帽的枪手在玩扑克,木墙上的煤油灯晃动着阴影。
  • 全息演唱会上,二次元与真人混合形象的歌姬悬浮舞台中央,粉丝们的AR眼镜投射出彩色弹幕,激光束穿透干冰雾气。

三、实时绘画板功能,开启创意新玩法

此次腾讯混元还推出了实时绘画板的功能,为创作者带来了更多的创意可能。在实时绘画板中,左边可以画参考图,下方输入提示词,右边则能实时预览和生成图片。这一功能非常好玩,充满了随机之美。比如“地球观测到,天空中4星连珠,出现了飞碟”,参考轮廓,图片强度58;“前卫设计,不规则物体,科技公司”,参考轮廓,图片强度55;“海边,电影海报,夕阳”,参考轮廓,图片强度82等。使用时,建议先画图,然后写prompt,再调整图片强度(0 – 100,建议在50 – 80之间)来看预览效果,也可以上传参考图后进行创作,例如给画面里增加一只蝴蝶,“憨态可掬的熊猫趴在人的手心里,蝴蝶”,参考轮廓,图片强度82。

首款实时生图模型登场!腾讯混元Hunyuan Image2.0震撼发布

四、实时交互体验,引领AI发展新潮流

深度体验Hunyuan Image2.0模型后会发现,它真的非常好玩。在混元超创群里,大家一直玩到了凌晨2点过,因为完全没有时间成本。输入prompt,马上就能生成图片;修改prompt,也是立马就能看到新的生成结果。很多时候,prompt还没写好,它已经给出了5 – 6张图片。这已经不是简单的“所思即所见”,而是达到了“未知先见,边思边见”的境界。当你体验了这种新的实时交互后,再回到过去那种“输入提示词 – 等待模型生成”的线性节奏,会感觉非常难受,就像回到了十六年前拿着黑莓手机用2.5G网络的那种干着急的感觉。

欣喜地看到,腾讯混元为人类迈向通用人工智能(AGI)干了一件极其重要的事情——实现了实时生成,带来了人类首款实时生图模型。这一刻,足以载入人类AI事业的史册,而这一伟大成就来自中国

如果你想体验这款强大的模型,可以访问体验地址:

 

© 版权声明

相关文章

暂无评论

none
暂无评论...