Automatyczna inżynieria montażowa (APE) to metoda opracowana do automatycznego generowania i wyboru instrukcji języka naturalnego (podpowiedzi) dla modeli dużych języków (LLM) w celu poprawy wydajności zadań. Traktuje instrukcję jako „program”, który ma zostać zoptymalizowany poprzez wyszukiwanie puli kandydatów instruktażowych wygenerowanych przez LLM, mając na celu zmaksymalizowanie wybranej funkcji wyniku dla określonego zadania. Wydajność wybranej instrukcji jest następnie oceniana przez zastosowanie jej do zadań zerowych za pomocą innego LLM. Takie podejście kontrastuje z tradycyjną szybką inżynierią, w której podpowiedzi są ręcznie wytwarzane przez ludzi.
Wykazano, że APE przewyższa wcześniejsze podpowiedzi linii bazowej LLM o znacznym marginesie i osiągają lepszą lub porównywalną wydajność z instrukcjami generowanymi przez człowieka w wielu testach porównawczych. Na przykład eksperymenty pokazują, że małpa przewyższa modyfikacje inżynierii człowieka do wszystkich wskaźników, w tym prawdomówności i informacyjności na zadaniach. W zestawie 24 zadań indukcyjnych instrukcji i 21 wyczerpanych zadań z dużym naciskiem, podpowiedzi generowane małpą były lepsze lub porównywalne z ludzkimi podpowiedziami odpowiednio w 19 i 17 zadaniach, co wskazuje na silną uogólnienie i spójność wydajności.
Proces małpy obejmuje generowanie zróżnicowanego zestawu podpowiedzi kandydatów na podstawie początkowych przykładów wyjścia wejściowego, a następnie ocenianie tych kandydatów zgodnie z ich skutecznością w zadaniu. Często obejmuje to zautomatyzowaną ocenę poprawności, informacji lub prawdomówności. Kandydaci powyżej pewnych kryteriów są wybierani do dalszego udoskonalenia w procesie iteracyjnym, a model języka generuje ulepszone wersje podpowiedzi oparte na wcześniejszych opiniach zwrotnych. This iterative refinement notably allows APE to discover better zero-shot chain-of-thought prompts than standard human-engineered prompts like "Let's think step by step".
Automatyczne podejście Ape zapewnia kilka praktycznych korzyści w stosunku do ręcznego szybkiego inżynierii:
- Znacząco skraca czas i pracę zaangażowaną w szybkie tworzenie, z raportami o do 70% zmniejszeniu cykli rozwojowych, przyspieszając wdrażanie aplikacji AI.
- Dokładność odpowiedzi AI można poprawić nawet o 35% w stosunku do ręcznych podpowiedzi z powodu dokładnego testowania i udoskonalania.
- Wskaźniki błędów w wynikach AI zmniejszają się o około 45%, zwiększając niezawodność.
- Korzyści z wydajności szkolenia jako MPE mogą generować dane treningowe syntetyczne, które przyspieszają uczenie się modelu, szczególnie cenne w wyspecjalizowanych lub wyspecjacyjnych domenach.
- Zapewnia wysoką dostosowywanie i możliwość dostosowania do różnych przypadków użycia, automatycznie dostosowując strategie szybkiego generowania do określonych zadań, nie wymagając ludzkiej wiedzy specjalistycznej.
- Spójność w szybkiej jakości i wyjściu zapewnia systematyczne i powtarzalne procesy generowania szybkiego, zmniejszając zależność od indywidualnej intuicji ludzkiej lub umiejętności.
Porównanie MPE z innymi szybkimi metodami wskazówek ilustruje jej unikalne zalety. Pokolenie Oriendacji (RAG) łączy pobieranie i generowanie, ale nadal polega na ręcznej inżynierii. Dostrojenia modyfikuje parametry modelu za pomocą danych domeny, ale wymaga dużych zestawów danych i zasobów obliczeniowych. Ręczna szybka inżynieria pozwala na elastyczność, ale jest czasochłonna i niespójna, podczas gdy MPE automatyzuje szybkie tworzenie i udoskonalanie, łącząc skalowalność z możliwością dostosowania inżynierii.
Analizy jakościowe pokazują, że instrukcje generowane małpą specjalizują się w wymiarach prawdomówności i informatyczności, osiągając kompromisy optymalne w Pareto, które przewyższają typowe podpowiedzi mostu człowieka. Sugeruje to, że APE może poprowadzić LLM nie tylko w celu poprawy dokładności, ale także do dopracowanych charakterystyk wyjściowych dostosowanych do potrzeb aplikacji. Może również przygotować zoptymalizowane podpowiedzi MPE do niewielkich konfiguracji uczenia się, zwiększając ogólną wydajność uczenia się.
Pomimo swoich zalet, małpa ma pewne ograniczenia w porównaniu z podejściami ręcznymi. Iteracyjny proces wyszukiwania optymalizacji może być intensywny obliczeniowo i wymagać dodatkowych zasobów. Skuteczna wydajność zależy w dużej mierze od jakości funkcji punktacji stosowanej do oceny podpowiedzi kandydata, a wyniki mogą się różnić w zależności od różnych dziedzin zadań lub modeli. Przeniesienie instrukcji między modelem, w których instrukcje wygenerowane dla jednego modelu są stosowane do drugiego, jest ograniczone, wymagające specyficznego dla zadania strojenie podpowiedzi o najlepsze wyniki.
Podsumowując, kluczowe różnice w wydajności między moniami małpami i inżynierami ludzkimi są:
- APE systematycznie generuje i udoskonala podpowiedzi do optymalizacji wydajności różnych zadań, prowadząc do lepszych lub porównywalnych wyników wielu wskaźników oceny, w tym dokładności, prawdomówności i informatycznej.
- Ludzkie podpowiedzi mogą być niespójne i wymagać wysiłku eksperckiego; APE automatyzuje te procesy, oszczędzając czas przy jednoczesnym poprawie precyzji.
- Małpa jest bardziej dostosowalna do zadań bez ręcznego przeprojektowania, skutecznie dostosowując instrukcje.
-Kompromis ma zwiększone koszty obliczeniowe i potencjalną potrzebę optymalizacji punktacji specyficznej dla zadania.
-Małpa została wykazana jako praktyczne narzędzie do zwiększenia paradygmatów zerowych, nieznanych strzałów i łańcucha, często przekraczające tradycyjne podpowiedzi podstawowe inżynierskie.