گوگل در رویداد سالانه I/O 2025 از دستاوردهای جدید خود در حوزه هوش مصنوعی رونمایی کرد که در میان آنها، مدل تولید ویدیوی Veo 3 توجه بسیاری را به خود جلب کرده است. این مدل پیشرفته نه تنها قادر به ساخت ویدیو از متن و تصویر است، بلکه توانایی تولید همزمان صدا برای محتوای ویدیویی را نیز دارد، قابلیتی که آن را یک گام جلوتر از رقبایی مانند Sora قرار میدهد.
مدل Veo 3 با درک عمیقتری از فیزیک دنیای واقعی و هماهنگسازی دقیق حرکات لب با صدای دیالوگها، تجربهای واقعگرایانهتر از محتوای تولید شده با هوش مصنوعی ارائه میدهد. به عنوان مثال، این مدل میتواند ویدیویی از پرواز پرندگان همراه با صدای آواز آنها تولید کند یا صحنهای از یک خیابان شلوغ را با صدای واقعی ترافیک پسزمینه به تصویر بکشد. علاوه بر این، کاربران به کنترلهای دوربین دسترسی خواهند داشت و میتوانند از ارجاعات ویدیویی برای ساخت صحنههای یکپارچه و منسجم بهره ببرند.
از امروز، مشترکان طرح پولی Ultra گوگل در آمریکا با پرداخت هزینه ماهانه 249 دلار، میتوانند از قابلیتهای Veo 3 بهرهمند شوند. این مدل همچنین از طریق پلتفرم سازمانی Vertex AI در اختیار کسبوکارها قرار خواهد گرفت. نکته قابل توجه دیگر، ادغام Veo 3 در ابزار فیلمسازی جدید گوگل با نام Flow است. Flow با ترکیب قدرت Veo، جمینای و Imagen به کاربران اجازه میدهد تا با توصیف صحنه سینمایی مورد نظر خود به زبان طبیعی، خروجی نهایی را از هوش مصنوعی دریافت کنند. گوگل اعلام کرده که برای بررسی پتانسیلهای Veo با فعالان صنعت سینما همکاری نزدیکی داشته است.
در کنار Veo 3، گوگل از مدل تولید تصویر Imagen 4 نیز پرده برداشت. این مدل در تولید جزئیات دقیق مانند بافت پارچه و موی حیوانات عملکردی فوقالعاده از خود نشان میدهد و هم در خلق تصاویر فوتورئالیستی و هم در سبکهای انتزاعی توانمند است. Imagen 4 در نمایش تایپوگرافی نیز پیشرفت قابل توجهی نسبت به نسخههای قبلی داشته و میتواند خروجیهایی با وضوح تا 2K در اندازهها و نسبتهای مختلف ارائه دهد. این مدل در حال حاضر در اپلیکیشن Gemini، پلتفرم Vertex AI و ابزارهای Workspace مانند Docs و Slides قابل استفاده است. همچنین، اعلام شده که نسخهای از Imagen 3 با سرعتی 10 برابر بیشتر به زودی عرضه خواهد شد.
گوگل پشتیبانی از Veo 2 را نیز متوقف نکرده و کاربران همچنان میتوانند در ابزار Flow از قابلیتهای آن، مانند ارجاع تصاویر افراد، صحنهها، سبکها یا اشیا، استفاده کنند. ابزارهایی نظیر کنترل دوربین، تغییر زاویه دید، زوم روی سوژههای خاص، تبدیل کادر پرتره به منظره و افزودن یا حذف عناصر تصویری نیز برای کاربران فراهم شده است. Flow در حال حاضر برای مشترکان Google AI Pro و Ultra در آمریکا در دسترس قرار گرفته و به زودی در کشورهای بیشتری عرضه خواهد شد.
با توجه به نگرانیها در مورد گسترش محتوای جعلی تولید شده با هوش مصنوعی، گوگل پرتال جدیدی به نام SynthID Detector راهاندازی کرده است. کاربران میتوانند فایلهای تصویری یا ویدیویی مشکوک را در این پرتال بارگذاری کنند تا مشخص شود آیا حاوی نشانهگذاری SynthID هستند یا خیر. این اقدام گامی در جهت افزایش شفافیت و مقابله با سوءاستفاده از فناوریهای هوش مصنوعی به شمار میرود.
منبع: TechCrunch
source