Новите AI модели на Meta могат да разпознават и произвеждат реч за повече от 1000 езика


В света има около 7000 езика, но настоящите модели за разпознаване на реч изчерпателно покриват само около 100 езика. Това е така, защото тези видове модели обикновено изискват огромни количества етикетирани данни за обучение, които са налични само на няколко езика, включително английски, испански и китайски.

Изследователите на Meta заобиколиха този проблем, като преквалифицираха съществуващ AI модел, разработен от компанията през 2020 г., който може да научи модели на говор от аудио без необходимост от големи количества етикетирани данни, като например текстове.

Те го обучават на два нови набора от данни: единият съдържа аудиозаписи на писатели от Новия завет и съответния текст, извлечен от интернет на 1107 езика, а другият съдържа немаркирани аудиозаписи на Новия завет на 3809 езика. Екипът обработи речта, аудио и текстовите данни, за да подобри качеството им, преди да стартира алгоритъм, предназначен да подравни аудиозаписите с придружаващия текст. След това повториха този процес с втори алгоритъм, обучен върху новоподравнените данни. Използвайки този метод, изследователите успяха да научат алгоритъма да учи нов език по-лесно, дори без придружаващия текст.

„Можем да използваме наученото от този модел, за да изградим бързо речеви системи, като използваме много малко данни“, казва Майкъл Ули, учен от Meta, който работи по проекта.

„За английски имаме много и много добри набори от данни и имаме това за няколко други езика, но нямаме това за езици, които се говорят от, да речем, 1000 души.“

Изследователите казват, че техните модели могат да говорят повече от 1000 езика, но разпознават повече от 4000 езика.

Те сравняват моделите с тези на конкурентни компании, включително OpenAI Whisper, и твърдят, че техните модели имат наполовина по-малък процент грешки, въпреки че покриват 11 пъти повече езици.

Екипът обаче предупреждава, че моделът все още рискува определени думи или фрази да бъдат неправилно преведени, което може да доведе до неточни или потенциално обидни етикети. Те също така признават, че техните модели за разпознаване на реч са довели до повече предубедени думи от другите модели, макар и само с 0,7%.

Въпреки че обхватът на изследването е впечатляващ, използването на религиозни текстове за обучение на AI модели може да бъде противоречиво, казва Крис Имезу, изследовател в Masakhane, организация, която работи върху обработката на естествен език за африкански езици, който не е участвал в проекта. .

„В Библията има много пристрастия и изкривявания“, казва той.



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *