Mohamed M/Unsplash
Компанія Apple представила спрощені мовні моделі OpenELM, здатні працювати локально на пристроях без підключення до хмари.
що відомо
У лінійці OpenELM вісім моделей двох типів – попередньо навчені та налаштовані за інструкціями. Кожен варіант доступний з 270 млн., 450 млн., 1,1 млрд. і 3 млрд. параметрів.
Моделі попередньо навчалися на публічних наборах даних з 1,8 токенів з таких сайтів, як Reddit, Wikipedia, arXiv.org та інших.
Завдяки оптимізації OpenELM можуть працювати на звичайних ноутбуках і навіть деяких смартфонах. Тести проводились на ПК з Intel i9 та RTX 4090, а також MacBook Pro M2 Max.
За даними Apple, моделі показують хорошу продуктивність. Варіант на 450 млн. параметрів з інструкціями особливо виділяється. А OpenELM-1.1B на 2,36% перевершила GPT-аналог OLMo, вимагаючи при цьому вдвічі менше лексем для попереднього навчання
У бенчмарку ARC-C, призначеному для перевірки знань та умінь розмірковувати, попередньо навчений варіант OpenELM-3B показав точність 42,24%. У той же час на MMLU та HellaSwag він набрав 26,76% та 73,28% відповідно.
Компанія опублікувала вихідний код OpenELM на Hugging Face під відкритою ліцензією, що включає навчені версії, бенчмарки та інструкції щодо роботи з моделями.
При цьому Apple попереджає, що OpenELM можуть видавати некоректні, шкідливі або неприйнятні відповіді через відсутність гарантій безпеки.
Джерело: VentureBeat