Ramp Labs выдвигает новое решение для совместного использования памяти мультиагентами, при этом расход токенов снижается максимум на 65%
Исследовательская работа «Latent Briefing», выпущенная Ramp Labs, использует сжатие KV-кэша больших языковых моделей, чтобы обеспечить эффективный обмен памятью между многоагентными системами, снизить расход токенов и повысить точность. В тестах LongBench v2 этот метод успешно сократил расход токенов модели Worker на 65% и повысил общую точность примерно на 3 процентных пункта; время сжатия составило всего 1,7 секунды. Эта технология демонстрирует превосходные результаты в различных сценариях работы с документами.
GateNews·1ч назад

