Възможно е да ви свършат данните за обучение на езикови програми за изкуствен интелект


Проблемът е, че типовете данни, които обикновено се използват за обучение на езикови модели, могат да бъдат използвани в близко бъдеще – още през 2026 г. Според статия на изследователи от EpochОрганизация за изследване и прогнозиране на изкуствен интелект. Проблемът произтича от факта, че тъй като изследователите изграждат по-стабилни модели с по-големи възможности, те трябва да намерят повече скриптове, на които да ги обучават. Изследователите на големите езикови модели все повече се притесняват от изчерпване на този вид данни, казва Тевен Ле Скао, изследовател от фирмата за изкуствен интелект Hugging Face, който не е участвал в работата на Epoch.

Проблемът произтича отчасти от факта, че лингвистичните AI изследователи филтрират данните, които използват, за да обучават модели в две категории: високо качество и ниско качество. Границата между двете категории може да е неясна, казва Пабло Вилалобос, изследовател от екипа на Epoch и водещ автор на доклада, но текстът в първата категория се смята за по-добре написан и по-често създаден от професионални писатели.

Данните от категориите с ниско качество се състоят от текстове като публикации в социални медии или коментари на уебсайтове като 4chan и значително надхвърлят данните, считани за висококачествени. Обикновено изследователите обучават само модели с данни, които попадат в категорията с високо качество, защото това е видът език, с който искат моделите да се възпроизвеждат. Този подход доведе до някои страхотни резултати за големи езикови парадигми като GPT-3.

Един от начините за преодоляване на тези ограничения на данните е да се преоцени това, което е известно като „ниско“ и „високо“ качество, според Swabha Swayamdipta, професор по машинно обучение в USC, който специализира в качеството на набора от данни. Ако липсата на данни подтикне изследователите на ИИ да включат по-разнообразни масиви от данни в процеса на обучение, това ще бъде „чисто положително“ за езиковите модели, казва Swayamdipta.

Изследователите могат също да намерят начини да удължат живота на данните, използвани за обучение на езикови модели. Понастоящем големите езикови модели се обучават на едни и същи данни само веднъж поради ограничения на производителността и разходите. Но може да е възможно да се обучи модел няколко пъти, като се използват едни и същи данни, казва Swayamdipta.

Някои изследователи смятат, че големият може да не е по-добър, когато става въпрос за езикови модели. Има доказателства, че правенето на моделите по-ефективни може да подобри капацитета им, вместо просто да увеличи размера им, казва Пърси Лианг, професор по компютърни науки в Станфордския университет.
„Видяхме как по-малките модели, обучени на висококачествени данни, могат да надминат по-големите модели, обучени на данни с по-ниско качество“, обяснява той.



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *