Magdalena Posted July 23, 2024 Posted July 23, 2024 OpenAI-მ შეიმუშავა ახალი მეთოდი, სახელწოდებით Instruction Hierarchy, რათა გააუმჯობესოს თავისი ენის დიდი მოდელების (LLMs) უსაფრთხოება. ეს მეთოდი, რომელიც პირველად გამოიყენება ახალ GPT-4o Mini-ში, მიზნად ისახავს თავიდან აიცილოს ხელოვნური ინტელექტის არასასურველი ქცევა, რომელიც გამოწვეულია არაკეთილსინდისიერი მომხმარებლების მიერ გარკვეული ბრძანებების მეშვეობით მანიპულირებით. ფოტოს წყარო: Copilot OpenAI-ს პლატფორმა API-ს ხელმძღვანელმ Olivier Godement-მა განმარტა, რომ „ინსტრუქციების იერარქია“ თავიდან აიცილებს საშიშ მოთხოვნებს ფარული მინიშნებების გამოყენებით, რომლებსაც მომხმარებლები იყენებენ მოდელის შეზღუდვებისა და საწყისი პარამეტრების გვერდის ავლის მიზნით და დაბლოკავს „ყველა წინა ინსტრუქციის უგულებელყოფა“-ის მსგავს მოთხოვნებს. როგორც The Verge წერს, ახალი მეთოდი პრიორიტეტს ანიჭებს დეველოპერების თავდაპირველ ინსტრუქციებს, რაც მოდელს ნაკლებად მგრძნობიარეს ხდის საბოლოო მომხმარებლის მცდელობების მიმართ - აიძულონ იგი შეასრულოს არასასურველი ქმედებები. სისტემის ინსტრუქციებსა და მომხმარებლის ბრძანებებს შორის კონფლიქტის შემთხვევაში მოდელი უმაღლეს პრიორიტეტს მიანიჭებს სისტემის ინსტრუქციებს და უარს იტყვის ე.წ. „ინექციების“ შესრულებაზე. OpenAI-ის მკვლევარები თვლიან, რომ მომავალში შეიქმნება სხვა, უფრო დახვეწილი დაცვა, განსაკუთრებით აგენტებზე დაფუძნებული გამოყენების შემთხვევებისთვის, როდესაც AI-აგენტები იქმნებიან დეველოპერების მიერ საკუთარი აპლიკაციებისთვის. იმის გათვალისწინებით, რომ OpenAI-ის წინაშე დგას მუდმივი უსაფრთხოების გამოწვევები, GPT-4o Mini-ზე გამოყენებული ახალი მეთოდი მნიშვნელოვან გავლენას მოახდენს მის ხელოვნური ინტელექტის მოდელის შემდგომი მიდგომების განვითარებაზე. https://tinyurl.com/yzchjm5x Quote
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.