در دهه گذشته، هوش مصنوعی پیشرفتهای چشمگیری داشته است؛ به ویژه در زمینه تولید صدای مصنوعی و خواندن متنها به زبان طبیعی و انسانی. شرکت الونلبز (ElevenLabs) که یکی از پیشگامان در حوزه فناوری صوتی هوش مصنوعی است، سومین نسخه اصلی خود را با نام Eleven V3 روانه بازار کرده؛ نسخهای که جهش عظیمی در توانمندیهای تولید صدا به شمار میآید. Eleven V3 با واقعگرایی بینظیرش، پشتیبانی گستردهاش از زبانهای مختلف دنیا و امکانات شخصیسازیشده جذاب، نقطه عطفی در طبیعیتر شدن هوش مصنوعی صوتی است. یکی از مهمترین ویژگیهای این نسخه، پشتیبانی دقیق و توانمند آن از زبان فارسی است؛ موضوعی که آن را به ابزاری ارزشمند برای فارسیزبانان و تولیدکنندگان محتوای ایرانی تبدیل کرده است.
تولید گفتار طبیعی و پشتیبانی چندزبانه
برنامه هوش مصنوعی Eleven V3 با بهرهگیری از جدیدترین تکنیکهای یادگیری عمیق، قادر است صداهایی فوقالعاده طبیعی تولید کند که شامل احساسات، لهجهها و ریتمهای گفتاری واقعی هستند. این مدل هوش مصنوعی تبدیل متن به صدا با استفاده از دادههای متنوعی آموزش دیده است تا دامنه وسیعی از زبانها و گویشها را پوشش دهد. آنچه نسخه سوم را از دیگر رقبا متمایز میکند، پیشرفت چشمگیر آن در تسلط چندزبانه است؛ از جمله دقت بیشتر در تلفظ و لحن طبیعی در زبانهایی مانند فارسی.
فارسی یکی از زبانهای هندواروپایی است و بیش از ۱۱۰ میلیون نفر در جهان به زبان فارسی صحبت میکنند. فارسی به دلیل ساختار آوایی غنی، نگارش از راست به چپ و قواعد تلفظی وابسته به متنش، چالشی بزرگ برای سیستمهای تبدیل متن به گفتار (TTS) به حساب میآید. اما Eleven V3 با عبور موفق از این چالشها، تجربهای بینظیر از تولید گفتار فارسی را به کاربران ارائه میدهد؛ تجربهای که از نظر وضوح، لحن و آهنگ گفتار بسیار نزدیک به صدای انسان و فارسیزبانان بومی است. این قابلیت برای کاربردهایی مانند آموزش، کتابهای صوتی، تولید رسانه و خدمات مشتریان می تواند اهمیت زیادی پیدا کند.
نحوه کار با Eleven V3
برای این کار کافی است به وبسایت الون وی ۳ به آدرس elevenv3.org بروید.
در ادامه با حساب گوگل خود وارد شوید. (دقت کنید برای ورود نیاز به تغییر IP خواهید داشت)
بعد از پاسخ دادن به یکسری سوالات و ترجیحات به مرحله بعد خواهید رفت.
در اینجا از قصد شما برای استفاده از Eleven V3 میپرسد.
در این صفحه شما تمام ابزارهایی را که در اختیار دارید، میبینید. ممکن است در نظر اول کمی پیچیده باشد، اما کار با آن آسان است.
در ابتدا ۱۰۰۰۰ اعتبار اولیه رایگان دارید، برای همین راحت امتحان کنید.
کافی است از منوی چپ Text to Speech را انتخاب کرده و متن خود را وارد کنید.
از منوی سمت راست، قسمت Voice هم میتوانید پیش نمایشی از صداها را گوش دهید و از میانشان انتخاب کنید. همچنین میتوانید سبک صدای مدنظرتان را مثلا حماسی یا شاعرانه را سرچ کنید. دقت کنید در مدل رایگان تعداد محدودی سبک خواهید داشت.
برای مثال در بخش زیر متن زیر را وارد کردیم:
«یک روز خسرو بر خلاف عادت مالوف یک کیف حلبی را که روی آن با رنگ روغن ناشیانه گل و بته نقاشی شده بود، به مدرسه آورد. همه حیرت کردند که آفتاب از کدام سمت برآمده که خسرو کیف همراه آورده است!»
صدای خروجی را در قسمت زیر میشنوید:
همچنین در قسمت بعدی این هوش مصنوعی بخشی از شعر سهراب را با لحن شاعرانه میخواند:
برای گرفتن خروجی بیغلط بهتر است از فتحه، کسره، ضمه، ویرگول و نقطه در متن خود استفاده کنید.
ویژگیهای کلیدی Eleven V3
چندین ویژگی مهم وجود دارد که Eleven V3 را در بازار فناوریهای صوتی مبتنی بر هوش مصنوعی متمایز میسازد:
شبیهسازی و شخصیسازی صدا: کاربران میتوانند تنها با چند دقیقه ضبط صدا، یک پروفایل صوتی اختصاصی برای خود بسازند. این قابلیت به ویژه برای برندها، تولیدکنندگان محتوا یا شخصیتهای عمومی که به دنبال حفظ هویت صوتی خاصی هستند، بسیار کاربردی است.
کنترل احساسات: در نسخه سوم، امکان تنظیم دقیق لحن احساسی وجود دارد. اگر متن شما نیاز به خواندن با لحنی آرام، پرشور یا رسمی داشته باشد، مدل Eleven V3 میتواند احساسات مناسب را به تناسب متن در صوت منتقل کند.
تولید صدای بلادرنگ (Real-Time): این نسخه به دلیل تأخیر بسیار کم، برای کاربردهای تعاملی مانند دوبله زنده، دستیارهای صوتی و ارتباطات همزمان ایدهآل است.
کیفیت صوتی بالا: ElevenLabs تمرکز ویژهای بر کیفیت صدا دارد. خروجیهای صوتی این سیستم در بسیاری از موارد از صدای واقعی انسان قابل تشخیص نیستند؛ موضوعی که برای شنوندگان فارسیزبان تجربهای دلپذیر، طبیعی و حرفهای فراهم میآورد.
پایداری میانزبانی (Cross-Lingual): در نسخه V3، صدایی که در یک زبان، مثلاً انگلیسی، ساخته شده است، در حالی که ویژگیهای صوتی اصلی خود را حفظ میکند، میتواند به زبانهای دیگر، از جمله فارسی برگردد. این ویژگی برای تولیدکنندگان محتوا به چند زبان تحولآفرین است.
اهمیت پشتیبانی از زبان فارسی
پشتیبانی از زبان فارسی در مدلی پیشرفته مانند Eleven V3 پیامدهایی عمیق و گسترده دارد. فارسی زبان رسمی ایران است و به صورت گسترده در افغانستان، به شکل فارسی دری و در تاجیکستان به شکل فارسی تاجیکی هم صحبت میشود. با وجود گستره جغرافیایی وسیع، زبان فارسی در بسیاری از ابزارهای هوش مصنوعی جهانی کمتر مورد توجه قرار گرفته است. بنابراین اقدام ElevenLabs در تقویت این زبان، دریچهای جدید به روی کاربردهای متنوع میگشاید؛ برای مثال این هوش مصنوعی میتواند به صورت ابزاری آموزشی برای زبانآموزان یا نابینایان فارسیزبان به کار رود. همچنین با الون وی ۳ میتوان کتابهای صوتی باکیفیتی از آثار ادبی، عرفانی فارسی، مثل اشعار حافظ و مولانا تولید کرد. از همه مهمتر دنیای دوبله با این هوش مصنوعی دگرگون خواهد شد. پلتفرمهای نمایش فیلم در ایران برای دوبله میتوانند از Eleven V3 بدون نیاز به استخدام دوبلور فارسیزبان بهره ببرند.
جمعبندی
Eleven V3 صرفاً یک نسخه ارتقا یافته از آن چیزی نیست که الون لبز روی آن کار میکرد، بلکه جهشی اساسی در نحوه تولید و درک گفتار مصنوعی توسط ماشینها است. پشتیبانی آن از زبانهایی مانند فارسی، تعهدی روشن به تنوع زبانی و دسترسی جهانی را نشان میدهد. هوش مصنوعی Eleven V3 با ارائه صداهایی باکیفیت، بااحساس و قابل شخصیسازی به زبان فارسی، به زودی به ابزار قدرتمندی برای معلمان، تولیدکنندگان محتوا و کسبوکارها تبدیل خواهد شد تا ارتباطی عمیقتر با مخاطبان فارسیزبان برقرار کنند.
منبع: دیجی کالا مگ و Eleven V3
source