Архитектура Transformer продемонстрировала замечательную масштабируемость, что привело к существенному повышению точности. Однако это достижение достигается за счет чрезвычайно высоких вычислительных требований, которые стали серьезным препятствием в реальных приложениях.

Хотя исследователи активно искали решения по уменьшению размеров компонентов трансформатора и сокращению таких элементов, как внимание, другой критический компонент, сеть прямой связи (FFN), остается относительно малоизученным.

В недавней статье под названием «Одна широкая прямая связь — это все, что вам нужно» совместная исследовательская работа Equall и Apple углубляется в роль FFN и делает удивительное открытие: несмотря на то, что FFN потребляет значительную часть параметров модели, FFN демонстрирует высокие избыточность. В результате исследователи предлагают использовать один и тот же FFN как для кодера, так и для декодера, тем самым уменьшая количество параметров и вызывая лишь незначительное снижение точности.

В архитектуре Transformer господствуют два основных компонента: внимание и FFN. Обычно FFN занимают примерно две трети бюджета параметров, оставляя внимание оставшейся трети. В своем исследовании исследователи изучают совместное использование параметров между FFN кодировщика и декодера, стремясь оценить его влияние на точность модели.

Основная цель — найти баланс между размером модели, задержкой и точностью. Основное внимание исследовательской группы сосредоточено на ответах на следующие вопросы:

  • Сколько параметров можно использовать совместно или сократить с минимальным ухудшением точности или вообще без него?
  • Проявляют ли FFN кодера и декодера одинаковые эффекты при совместном использовании?
  • Можно ли распределять параметры FFN более эффективно, сохраняя при этом тот же размер модели?

Чтобы ответить на эти вопросы, исследователи представляют модель «One Wide FFN» — новый архитектурный подход, который включает в себя единую общую широкую FFN в кодере…