Революционные трансформаторы Equall и Apple: широкая связь для беспрецедентной эффективности…

Архитектура Transformer продемонстрировала замечательную масштабируемость, что привело к существенному повышению точности. Однако это достижение достигается за счет чрезвычайно высоких вычислительных требований, которые стали серьезным препятствием в реальных приложениях.

Хотя исследователи активно искали решения по уменьшению размеров компонентов трансформатора и сокращению таких элементов, как внимание, другой критический компонент, сеть прямой связи (FFN), остается относительно малоизученным.

В недавней статье под названием «Одна широкая прямая связь — это все, что вам нужно» совместная исследовательская работа Equall и Apple углубляется в роль FFN и делает удивительное открытие: несмотря на то, что FFN потребляет значительную часть параметров модели, FFN демонстрирует высокие избыточность. В результате исследователи предлагают использовать один и тот же FFN как для кодера, так и для декодера, тем самым уменьшая количество параметров и вызывая лишь незначительное снижение точности.

В архитектуре Transformer господствуют два основных компонента: внимание и FFN. Обычно FFN занимают примерно две трети бюджета параметров, оставляя внимание оставшейся трети. В своем исследовании исследователи изучают совместное использование параметров между FFN кодировщика и декодера, стремясь оценить его влияние на точность модели.

Основная цель — найти баланс между размером модели, задержкой и точностью. Основное внимание исследовательской группы сосредоточено на ответах на следующие вопросы:

Сколько параметров можно использовать совместно или сократить с минимальным ухудшением точности или вообще без него?
Проявляют ли FFN кодера и декодера одинаковые эффекты при совместном использовании?
Можно ли распределять параметры FFN более эффективно, сохраняя при этом тот же размер модели?

Чтобы ответить на эти вопросы, исследователи представляют модель «One Wide FFN» — новый архитектурный подход, который включает в себя единую общую широкую FFN в кодере…

Революционные трансформаторы Equall и Apple: широкая связь для беспрецедентной эффективности…

Похожие вопросы