گوگل در رویداد سالانه I/O 2025 از دستاوردهای جدید خود در حوزه هوش مصنوعی رونمایی کرد که در میان آن‌ها، مدل تولید ویدیوی Veo 3 توجه بسیاری را به خود جلب کرده است. این مدل پیشرفته نه تنها قادر به ساخت ویدیو از متن و تصویر است، بلکه توانایی تولید هم‌زمان صدا برای محتوای ویدیویی را نیز دارد، قابلیتی که آن را یک گام جلوتر از رقبایی مانند Sora قرار می‌دهد.

مدل Veo 3 با درک عمیق‌تری از فیزیک دنیای واقعی و هماهنگ‌سازی دقیق حرکات لب با صدای دیالوگ‌ها، تجربه‌ای واقع‌گرایانه‌تر از محتوای تولید شده با هوش مصنوعی ارائه می‌دهد. به عنوان مثال، این مدل می‌تواند ویدیویی از پرواز پرندگان همراه با صدای آواز آن‌ها تولید کند یا صحنه‌ای از یک خیابان شلوغ را با صدای واقعی ترافیک پس‌زمینه به تصویر بکشد. علاوه بر این، کاربران به کنترل‌های دوربین دسترسی خواهند داشت و می‌توانند از ارجاعات ویدیویی برای ساخت صحنه‌های یکپارچه و منسجم بهره ببرند.

از امروز، مشترکان طرح پولی Ultra گوگل در آمریکا با پرداخت هزینه ماهانه 249 دلار، می‌توانند از قابلیت‌های Veo 3 بهره‌مند شوند. این مدل همچنین از طریق پلتفرم سازمانی Vertex AI در اختیار کسب‌وکارها قرار خواهد گرفت. نکته قابل توجه دیگر، ادغام Veo 3 در ابزار فیلم‌سازی جدید گوگل با نام Flow است. Flow با ترکیب قدرت Veo، جمینای و Imagen به کاربران اجازه می‌دهد تا با توصیف صحنه سینمایی مورد نظر خود به زبان طبیعی، خروجی نهایی را از هوش مصنوعی دریافت کنند. گوگل اعلام کرده که برای بررسی پتانسیل‌های Veo با فعالان صنعت سینما همکاری نزدیکی داشته است.

Veo 3 گوگل

در کنار Veo 3، گوگل از مدل تولید تصویر Imagen 4 نیز پرده برداشت. این مدل در تولید جزئیات دقیق مانند بافت پارچه و موی حیوانات عملکردی فوق‌العاده از خود نشان می‌دهد و هم در خلق تصاویر فوتورئالیستی و هم در سبک‌های انتزاعی توانمند است. Imagen 4 در نمایش تایپوگرافی نیز پیشرفت قابل توجهی نسبت به نسخه‌های قبلی داشته و می‌تواند خروجی‌هایی با وضوح تا 2K در اندازه‌ها و نسبت‌های مختلف ارائه دهد. این مدل در حال حاضر در اپلیکیشن Gemini، پلتفرم Vertex AI و ابزارهای Workspace مانند Docs و Slides قابل استفاده است. همچنین، اعلام شده که نسخه‌ای از Imagen 3 با سرعتی 10 برابر بیشتر به زودی عرضه خواهد شد.

گوگل پشتیبانی از Veo 2 را نیز متوقف نکرده و کاربران همچنان می‌توانند در ابزار Flow از قابلیت‌های آن، مانند ارجاع تصاویر افراد، صحنه‌ها، سبک‌ها یا اشیا، استفاده کنند. ابزارهایی نظیر کنترل دوربین، تغییر زاویه دید، زوم روی سوژه‌های خاص، تبدیل کادر پرتره به منظره و افزودن یا حذف عناصر تصویری نیز برای کاربران فراهم شده است. Flow در حال حاضر برای مشترکان Google AI Pro و Ultra در آمریکا در دسترس قرار گرفته و به زودی در کشورهای بیشتری عرضه خواهد شد.

با توجه به نگرانی‌ها در مورد گسترش محتوای جعلی تولید شده با هوش مصنوعی، گوگل پرتال جدیدی به نام SynthID Detector راه‌اندازی کرده است. کاربران می‌توانند فایل‌های تصویری یا ویدیویی مشکوک را در این پرتال بارگذاری کنند تا مشخص شود آیا حاوی نشانه‌گذاری SynthID هستند یا خیر. این اقدام گامی در جهت افزایش شفافیت و مقابله با سوءاستفاده از فناوری‌های هوش مصنوعی به شمار می‌رود.

منبع: TechCrunch

source

توسط chehrenet.ir