[ad_1]
محققان آمازون ادعا کردهاند که بزرگترین مدل هوش مصنوعی تبدیل متن به گفتار را آموزش دادهاند. این مدل تازه که BASE TTS نام دارد، با 100 هزار ساعت اطلاعات صوتی آموزش داده شده است و با قابلیتهای بیسابقه خود، میتواند در حوزه مدلهای تبدیل متن به صدا انقلابی ظاهر بشود.
مدل تازه آمازون Big Adaptive Streamable TTS با قابلیتهای نوظهور نام دارد که بهصورت مخفف و با گفتن BASE TTS شناخته میبشود. برای آموزش بزرگترین نسخه این مدل از 100 هزار ساعت سخنرانی در حوزه عمومی منفعت گیری شده که 90 درصد آن به زبان انگلیسی و قسمت دیگر به زبانهای آلمانی، هلند و اسپانیایی است.
این نسخه (BASE-large) با حمایتاز 980 میلیون پارامتر، انگار بزرگترین مدل در نوع خود محسوب میبشود. این چنین این مدل اساساً یک پیروی کننده صدا نیست، بلکه با وجود ویژگیهای نوظهور خود میتواند حتی در صورت روبه روشدن با جملات پیچیده، در عرصه اراعه گفتار با صدای طبیعی، بهترین کارکرد را داشته باشد. آمازون این چنین مدلهای 400 و 150 پارامتری مدل خود را بر پایه 10 هزار و 1000 ساعت صدا آموزش داده است.
نمونه تشکیلشده توسط مدل هوش مصنوعی تبدیل متن به گفتار آمازون
در وبسایتی که برای این مدل ساخته شده است، چندین نمونه صدا وجود دارد که توسط این هوش مصنوعی بر پایه برخی متون دشوار تشکیل شده است. در ادامه یک مورد از این صداها را میتوانید گوش دهید.
آخرین مطالب
- ایندگان – «هزارمین شب» از گریم «مهدی سلوکی» رونمایی کرد_آیندگان
- مدیتیشن ژاپنی برای افت استرس؛ ۶ منفعت شگفتانگیز ذن_آیندگان
- ایندگان – فراخوان سی و هشتمین دوره جشنواره فیلم کودک انتشار شد_آیندگان
- سوئد گام اول را محکم برداشت و صدرنشین شد – خبرگزاری مهر | اخبار ایران و جهان_آیندگان
- رسوایی KPMG؛ گزارش مهم مزایای هوش مصنوعی پر از توهمات هوش مصنوعی بود_آیندگان
باید به این مسئله دقت داشت که این مدل تا این مدت در مرحله فرایند تجربی خود قرار دارد و برای اهداف تجاری یا موارد شبیه نمیتوان از آن منفعت گیری کرد. در تحقیقات بعدی به گمان زیادً توضیحات بیشتری درمورد توانمندیهای نوظهوری و این چنین نحوه آموزش و استقرار مدل اظهار خواهد شد.
هرچند منبع های و دادههای مورداستفاده در BASE TTS به دلایل امنیتی آشکار نشده است، اما کارکرد دیدنی این مدل نشانههای روشنی از پیشرفت حوزه هوش مصنوعی است.
[ad_2]
منبع