محققان آمازون ادعا کردهاند که بزرگترین مدل هوش مصنوعی تبدیل متن به گفتار را آموزش دادهاند. این مدل تازه که BASE TTS نام دارد، با ۱۰۰ هزار ساعت اطلاعات صوتی آموزش داده شده است و با قابلیتهای بیسابقه خود، میتواند در حوزه مدلهای تبدیل متن به صدا انقلابی ظاهر بشود.
مدل تازه آمازون Big Adaptive Streamable TTS با قابلیتهای نوظهور نام دارد که بهصورت مخفف و با گفتن BASE TTS شناخته میبشود. برای آموزش بزرگترین نسخه این مدل از ۱۰۰ هزار ساعت سخنرانی در حوزه عمومی منفعت گیری شده که ۹۰ درصد آن به زبان انگلیسی و قسمت دیگر به زبانهای آلمانی، هلند و اسپانیایی است.
این نسخه (BASE-large) با حمایتاز ۹۸۰ میلیون پارامتر، انگار بزرگترین مدل در نوع خود محسوب میبشود. این چنین این مدل اساساً یک پیروی کننده صدا نیست، بلکه با وجود ویژگیهای نوظهور خود میتواند حتی در صورت روبه روشدن با جملات پیچیده، در عرصه اراعه گفتار با صدای طبیعی، بهترین کارکرد را داشته باشد. آمازون این چنین مدلهای ۴۰۰ و ۱۵۰ پارامتری مدل خود را بر پایه ۱۰ هزار و ۱۰۰۰ ساعت صدا آموزش داده است.
نمونه تشکیلشده توسط مدل هوش مصنوعی تبدیل متن به گفتار آمازون
در وبسایتی که برای این مدل ساخته شده است، چندین نمونه صدا وجود دارد که توسط این هوش مصنوعی بر پایه برخی متون دشوار تشکیل شده است. در ادامه یک مورد از این صداها را میتوانید گوش دهید.
آخرین مطالب
- تست لباس فقط با یک سلفی؛ قابلیت پرو کردن مجازی گوگل آپدیت شد_آیندگان
- گلکسی S26 زیر سایه بحران حافظه؛ تلاش سامسونگ برای جلوگیری از تأخیر_آیندگان
- لامبورگینی تمراریو با کیت بدنه دلنشین معارفه شد + عکس_آیندگان
- محتوای بزرگسالانه در ChatGPT از سهماهه اول سال ۲۰۲۶ آزاد میشود_آیندگان
- سندروم ویبره خیالی: توهم لرزش گوشی در عصر دیجیتال_آیندگان
باید به این مسئله دقت داشت که این مدل تا این مدت در مرحله فرایند تجربی خود قرار دارد و برای اهداف تجاری یا موارد شبیه نمیتوان از آن منفعت گیری کرد. در تحقیقات بعدی به گمان زیادً توضیحات بیشتری درمورد توانمندیهای نوظهوری و این چنین نحوه آموزش و استقرار مدل اظهار خواهد شد.
هرچند منبع های و دادههای مورداستفاده در BASE TTS به دلایل امنیتی آشکار نشده است، اما کارکرد دیدنی این مدل نشانههای روشنی از پیشرفت حوزه هوش مصنوعی است.
منبع