Otomatik hızlı mühendislik (APE), görev performansını artırmak için büyük dil modelleri (LLMS) için doğal dil talimatlarını (istemler) otomatik olarak oluşturmak ve seçmek için geliştirilen bir yöntemdir. Talimatı, belirli bir görev için seçilen bir puan işlevini en üst düzeye çıkarmayı amaçlayan bir LLM tarafından oluşturulan bir eğitim adayları havuzunu arayarak optimize edilecek bir "program" olarak ele alır. Seçilen talimatın performansı daha sonra başka bir LLM ile sıfır gösterim görevlerine uygulanarak değerlendirilir. Bu yaklaşım, istemlerin insanlar tarafından manuel olarak hazırlandığı geleneksel hızlı mühendislikle tezat oluşturuyor.
APE'nin önemli bir farkla önceki LLM taban çizgisi istemlerinden daha iyi performans gösterdiği ve birden fazla ölçüt boyunca insan tarafından üretilen talimatlarda daha iyi veya karşılaştırılabilir performans elde ettiği gösterilmiştir. Örneğin, deneyler, APE'nin belirlenen görevlerde doğruluk ve bilgilendirme de dahil olmak üzere tüm metriklerde insan tarafından yapılan istemlerden daha iyi performans gösterdiğini göstermektedir. 24 talimat indüksiyon görevi ve 21 küratörlü büyük tezgah görevinde, maymun tarafından üretilen istemler sırasıyla 19 ve 17 görevde insan istemleri ile daha iyi veya karşılaştırılabilirdi, bu da güçlü genelleme ve performans tutarlılığını gösterdi.
Maymun süreci, ilk giriş çıkışı örneklerine dayanan çeşitli aday istemleri seti oluşturmayı ve bunu görevdeki etkinliklerine göre puanlamayı içerir. Bu genellikle doğruluk, bilgilendirme veya doğruluğun otomatik olarak değerlendirilmesini içerir. Belirli kriterlerin üzerindeki adaylar, yinelemeli bir süreçte daha fazla iyileştirme için seçilir ve dil modeli, önceki performans geri bildirimlerine dayanarak istemlerin iyileştirilmiş sürümlerini oluşturur. Bu yinelemeli arıtma, Ape'nin "adım adım düşünelim" gibi standart insan tarafından tasarlanan istemlerden daha iyi sıfır atış zinciri zinciri istemlerini keşfetmesine izin veriyor.
Maymun otomatik yaklaşımı, manuel hızlı mühendisliğe göre çeşitli pratik faydalar sağlar:
- Geliştirme döngülerinde% 70'e kadar azalma raporları ile AI uygulamalarının dağıtımını hızlandırarak, hızlı yaratılışta yer alan zamanı ve emeği önemli ölçüde azaltır.
- AI yanıtlarının doğruluğu, kapsamlı test ve iyileştirme nedeniyle manuel olarak hazırlanmış istemlere göre% 35'e kadar artırılabilir.
- AI çıkışlarındaki hata oranları yaklaşık%45 azalır ve güvenilirliği artırır.
- Maymun olarak eğitim verimliliği avantajları, özellikle uzmanlaşmış veya veri scarce alanlarında değerli olan model öğrenmeyi hızlandıran sentetik eğitim verileri üretebilir.
- Çeşitli kullanım durumlarına yüksek özelleştirme ve uyarlanabilirlik sağlar ve hızlı üretim stratejilerini insan uzmanlığına ihtiyaç duymadan belirli görevlere otomatik olarak uyarlar.
- Hızlı kalite ve çıktıdaki tutarlılık, sistematik ve tekrarlanabilir hızlı üretim süreçleri ile sağlanır ve bireysel insan sezgisine veya becerisine bağımlılığı azaltır.
Maymun diğer hızlı rehberlik yöntemleriyle karşılaştırılması, benzersiz avantajlarını göstermektedir. Geri alınan nesil (RAG) geri alma ve nesli birleştirir, ancak yine de manuel hızlı mühendisliğe dayanır. İnce ayarlama, model parametrelerini etki alanı verileri ile değiştirir, ancak büyük veri kümeleri ve hesaplama kaynakları gerektirir. Manuel hızlı mühendislik esnekliğe izin verir, ancak zaman alıcı ve tutarsızdır, MAPE hızlı bir şekilde oluşturulmayı ve iyileştirmeyi otomatikleştirerek ölçeklenebilirliği hızlı mühendisliğin uyarlanabilirliği ile birleştirir.
Nitel analizler, Maymun tarafından üretilen talimatların, tipik insan tasarrufu istemlerini aşan Pareto-optimal değiş tokuşlara ulaşarak, doğruluk ve bilgilendiriciliğin boyutları boyunca uzmanlaşma eğiliminde olduğunu göstermektedir. Bu, APE'nin LLMS'yi sadece iyileştirilmiş doğruluğa değil, aynı zamanda uygulama ihtiyaçlarına göre uyarlanmış nüanslı çıktı özelliklerine yönlendirebileceğini düşündürmektedir. Ayrıca, genel öğrenme performansını artırarak birkaç atış öğrenme kurulumlarına optimize edilmiş Maymun istemlerini hazırlayabilir.
Avantajlarına rağmen, MAPE'nin manuel yaklaşımlara kıyasla bazı sınırlamaları vardır. Optimizasyon için yinelemeli arama işlemi hesaplama açısından yoğun olabilir ve ek kaynaklar gerektirir. Etkili performans büyük ölçüde aday istemlerini değerlendirmek için kullanılan puanlama fonksiyonunun kalitesine bağlıdır ve sonuçlar farklı görev alanlarına veya modellere göre değişebilir. Bir model için üretilen talimatların bir diğerine uygulandığı çapraz model öğretim aktarımı sınırlıdır ve en iyi sonuçlar için istemlerin göreve özgü ayarlanmasını gerektirir.
Özetle, Maymun ve İnsan Taşıyan İstemler arasındaki temel performans farklılıkları şunlardır:
- APE, farklı görevlerdeki performansı optimize etmek için istemleri sistematik olarak üretir ve rafine eder, bu da doğruluk, doğruluk ve bilgilendirme gibi birçok değerlendirme metrikinde daha iyi veya karşılaştırılabilir sonuçlara yol açar.
- İnsan istemleri tutarsız olabilir ve uzman çaba gerektirebilir; APE bu işlemleri otomatikleştirerek hassasiyeti iyileştirirken zamandan tasarruf sağlar.
- Ape, manuel yeniden tasarım olmadan görevler arasında daha uyarlanabilir, talimatları verimli bir şekilde uyarlar.
-Taşarez, artan hesaplama maliyeti ve göreve özgü puanlama optimizasyonu potansiyel ihtiyaçtır.
-Maymun, genellikle geleneksel insan mühendisliği taban çizgisi istemlerini aşan sıfır atış, az atış ve düşünce zincirini teşvik etmek için pratik bir araç olarak gösterilmiştir.