Владимир Грищенко/Unsplash
Исследователи из Университета Джона Хопкинса предложили новый подход к оптимизации многоязычных языковых моделей (MLM), позволяющий значительно уменьшить их размер без потери производительности.
Что известно
МЛМ позволяют генерировать и анализировать тексты на разных языках. Но чем больше языков они охватывают, тем хуже они работают из-за «языковой интерференции».
В отличие от традиционных методов, когда для каждого языка разрабатывается отдельная нейронная сеть, исследователи решили использовать матрицы низкого ранга. Они позволяют сжимать данные и уменьшать количество параметров, необходимых для добавления в модель новых языков.
По словам одного из авторов, Хаорана Сюя, это служит ограниченной цветовой палитрой художника. Не обязательно каждому ребенку в классе давать свой набор красок; достаточно общей палитры из трех цветов. Это значительно снижает потребность в параметрах при масштабировании модели.
Авторы протестировали свой метод на 95 языках. Модель показала отличные результаты, используя гораздо меньше параметров. По мнению исследователей, это открывает путь к созданию компактных и эффективных MLM-компаний.
По мнению исследователей, со временем появятся мобильные приложения искусственного интеллекта, которые смогут одинаково хорошо работать на сотнях языков. Их конечная цель — использовать новый метод для сжатия крупных MLM без ущерба для их производительности.