არის თუ არა სწრაფი ინჟინერია „მოდა“, რომელიც აფერხებს AI პროგრესს?


Google DeepMind-ის მთავარი მეცნიერი ფიქრობს, რომ მოთხოვნა არის არასწორი მომხმარებლის ინტერფეისი გენერაციული AI-სთვის, რომ აღარაფერი ვთქვათ ცუდი AI მკვლევარებისთვის. აი რატომ.

სწრაფი ინჟინერიის ხელოვნება და მეცნიერება, გენერაციული ხელოვნური ინტელექტის ინსტრუქციების დახვეწა კარგია თუ ცუდი? გასაკვირია, რომ არ არსებობს უნივერსალური შეთანხმება.

სწრაფი ინჟინერია გაჩნდა 2024 წლისთვის, როგორც უფრო მნიშვნელოვანი მომხმარებლის ინტერფეისის ინსტრუმენტი 2022 და 2023 წლებში ChatGPT-ის წარმატებული წარმატების შემდეგ. იმის გაცნობიერებამ, რომ ინსტრუქციების ჩამოყალიბება და შემუშავება დიდი ენობრივი მოდელებისთვის და მასთან დაკავშირებული ტექნოლოგიებისთვის უკეთესი ან უარესი შედეგების მიღწევაში შეიძლება აიძულა ინჟინერიას საკუთარი სფერო. ძლიერი კვლევა.

იმ რწმენით მოტივირებული, რომ „კარგად შემუშავებული მოთხოვნა აუცილებელია LLM-ებისგან ზუსტი და შესაბამისი შედეგების მისაღებად“, აგრესიულმა AI მომხმარებლებმა - როგორიცაა მგზავრობის გაზიარების სერვისი Uber - შექმნეს მთელი დისციპლინები თემის ირგვლივ.

და მაინც, არსებობს დასაბუთებული არგუმენტი იმის შესახებ, რომ მოთხოვნილებები არასწორი ინტერფეისია Gen AI-ის მომხმარებლების უმეტესობისთვის, მათ შორის ექსპერტებისთვის.

„ჩემი პროფესიონალური აზრია, რომ მოთხოვნა არის ცუდი მომხმარებლის ინტერფეისი გენერაციული AI სისტემებისთვის, რომელიც უნდა მოიხსნას რაც შეიძლება სწრაფად“, წერს მერედიტ რინგელ მორისი, მთავარი მეცნიერი Human-AI Interaction Google-ის DeepMind კვლევითი განყოფილებისთვის. კომპიუტერული მეცნიერების ჟურნალის Communications of ACM-ის ნომერი.

მოთხოვნა ნამდვილად არ არის „ბუნებრივი ენის ინტერფეისები“, აღნიშნავს მორისი. ისინი "ფსევდო" ბუნებრივი ენაა, რადგან ბევრი რამ, რაც მათ აიძულებს მუშაობას, არაბუნებრივია.

„ის ფაქტი, რომ მოთხოვნის ცვალებადობა, რომელიც შეუსაბამო იქნება ადამიანის თანამოსაუბრესთვის (მაგალითად, სინონიმების შეცვლა, მცირე რეფრაზები, ინტერვალის, პუნქტუაციის ან მართლწერის ცვლილება) იწვევს დიდ ცვლილებებს მოდელის ქცევაში, უნდა გვაძლევს პაუზას“, წერს მორისი. , "და კიდევ შეგახსენებთ, რომ მოთხოვნა ჯერ კიდევ საკმაოდ შორს არის ბუნებრივენოვანი ინტერფეისისაგან."

ეს ვარიაციები, ის აღნიშნავს, დამაბნეველია საშუალო მომხმარებლისთვის, რომელსაც არ შეუძლია დაეყრდნოს იმას, რაც მომდინარეობს მოცემული ფრაზიდან.

ადამიანთა შორის ბუნებრივ ენას აქვს ისეთი ელემენტები, რომლებიც არასოდეს შედის მოწოდებაში, აღნიშნავს მორისი. „როდესაც ადამიანები ერთმანეთს ესაუბრებიან, ისინი ერთად მუშაობენ კომუნიკაციისთვის, აყალიბებენ საუბრის პარტნიორის კომუნიკაციური განზრახვის გონებრივ მოდელებს, რომლებიც დაფუძნებულია არა მხოლოდ სიტყვებზე, არამედ პარალინგვისტურ და სხვა კონტექსტურ ნიშნებზე, გონების თეორიის შესაძლებლობებზე და საჭიროების შემთხვევაში განმარტების მოთხოვნით. ."

ამის საპირისპიროდ, „საიდუმლო მოთხოვნილებები უფრო უკეთეს შედეგს გამოიმუშავებენ, ვიდრე უბრალო ენაზე“, ამბობს ის და წერს, რომ „დახვეწილი განსხვავებები მოთხოვნებსა და ნამდვილ ბუნებრივ ენაზე ურთიერთქმედებებს შორის იწვევს დაბნეულობას ხელოვნური ინტელექტის სისტემების ტიპიური საბოლოო მომხმარებლებისთვის“ და „შედეგს იძლევა საჭიროება სპეციალურად მომზადებული „სწრაფი ინჟინრების“ და ასევე სწრაფი ბაზრების, როგორიცაა PromptBase“. სწრაფმა ინჟინერიამაც კი შეიძლება გამოიწვიოს არათანმიმდევრული, არასანდო შედეგები, დასძენს მორისი.

მოთხოვნის ხარვეზებით არ იტანჯებიან მხოლოდ საშუალო მომხმარებლები: მოთხოვნის გამოყენება აწამებს AI კვლევას. კვლევითი ნაშრომები, რომლებიც საყვირებს ყოველ ახალ მიღწევას, საიმედოდ არ ასახავს იმის შესახებ, თუ რამდენ მოთხოვნას იყენებენ ისინი შედეგის მისაღწევად, გამოტოვებას მორისი უწოდებს "სწრაფი გატეხვას".

მაგალითად, სწრაფი გატეხვა შეიძლება ნიშნავს, რომ ახალი AI მოდელების საორიენტაციო ტესტები - მიღწევების შეფასების სტანდარტული გზა - არათანმიმდევრული და, შესაბამისად, არასწორია.

„მიუხედავად იმისა, რომ მოდელები თითქოს ტესტირებას ახდენენ კრიტერიუმების ერთსა და იმავე კომპლექტზე“, წერს მორისი, „პრაქტიკაში, ეს მეტრიკა შეიძლება არ იყოს შედარებადი იმის გამო, თუ როგორ ახორციელებს თითოეული ორგანიზაცია ბენჩმარკინგის ფუნქციონირებას - ეს არის ტესტების წარმოდგენისთვის გამოყენებული მოთხოვნების ფორმატი. მოდელს“.

მოწოდების ნაცვლად, მორისი გვთავაზობს სხვადასხვა მიდგომას. ეს მოიცავს უფრო შეზღუდულ მომხმარებლის ინტერფეისებს ნაცნობი ღილაკებით, რათა საშუალო მომხმარებლებს პროგნოზირებადი შედეგები მისცენ; "ჭეშმარიტი" ბუნებრივი ენის ინტერფეისები; ან სხვა "მაღალი გამტარუნარიანობის" მიდგომები, როგორიცაა "ჟესტების ინტერფეისები, აფექტური ინტერფეისები (ანუ ემოციური მდგომარეობების შუამავლობით), პირდაპირი მანიპულირების ინტერფეისები (ანუ პირდაპირ კონტენტის მანიპულირება ეკრანზე, შერეულ რეალობაში ან ფიზიკური სამყარო).“

მორისი ამტკიცებს, რომ ყველა ეს მიდგომა, ვიდრე მოთხოვნის არკანა, არის AI-თან ურთიერთობის უფრო მარტივი მეთოდები, „რადგან ისინი არ საჭიროებენ სწავლის მრუდს და უკიდურესად გამოხატულნი არიან“.

AI არის "კრიტიკულ ეტაპზე", წერს ის. „ჩვენი მოთხოვნა, როგორც ბუნებრივი ინტერფეისის „საკმარისად კარგი“ სიმულაკრის მიღება, აფერხებს პროგრესს.

„მე ველით, რომ ჩვენ გადავხედავთ ოპერატიულად დაფუძნებულ ინტერფეისებს გენერაციულ AI-ს მოდელებზე, როგორც 2020-იანი წლების დასაწყისის მოდას - ევოლუციას უფრო ბუნებრივი ურთიერთქმედებისკენ მზარდი AI სისტემებთან.