OpenAI გააუმჯობესებს თავისი AI-მოდელების უსაფრთხოებას „ინსტრუქციების იერარქიის“ გამოყენებით

Magdalena · July 23, 2024

OpenAI-მ შეიმუშავა ახალი მეთოდი, სახელწოდებით Instruction Hierarchy, რათა გააუმჯობესოს თავისი ენის დიდი მოდელების (LLMs) უსაფრთხოება. ეს მეთოდი, რომელიც პირველად გამოიყენება ახალ GPT-4o Mini-ში, მიზნად ისახავს თავიდან აიცილოს ხელოვნური ინტელექტის არასასურველი ქცევა, რომელიც გამოწვეულია არაკეთილსინდისიერი მომხმარებლების მიერ გარკვეული ბრძანებების მეშვეობით მანიპულირებით.

ფოტოს წყარო: Copilot

OpenAI-ს პლატფორმა API-ს ხელმძღვანელმ Olivier Godement-მა განმარტა, რომ „ინსტრუქციების იერარქია“ თავიდან აიცილებს საშიშ მოთხოვნებს ფარული მინიშნებების გამოყენებით, რომლებსაც მომხმარებლები იყენებენ მოდელის შეზღუდვებისა და საწყისი პარამეტრების გვერდის ავლის მიზნით და დაბლოკავს „ყველა წინა ინსტრუქციის უგულებელყოფა“-ის მსგავს მოთხოვნებს.

როგორც The Verge წერს, ახალი მეთოდი პრიორიტეტს ანიჭებს დეველოპერების თავდაპირველ ინსტრუქციებს, რაც მოდელს ნაკლებად მგრძნობიარეს ხდის საბოლოო მომხმარებლის მცდელობების მიმართ - აიძულონ იგი შეასრულოს არასასურველი ქმედებები. სისტემის ინსტრუქციებსა და მომხმარებლის ბრძანებებს შორის კონფლიქტის შემთხვევაში მოდელი უმაღლეს პრიორიტეტს მიანიჭებს სისტემის ინსტრუქციებს და უარს იტყვის ე.წ. „ინექციების“ შესრულებაზე.

OpenAI-ის მკვლევარები თვლიან, რომ მომავალში შეიქმნება სხვა, უფრო დახვეწილი დაცვა, განსაკუთრებით აგენტებზე დაფუძნებული გამოყენების შემთხვევებისთვის, როდესაც AI-აგენტები იქმნებიან დეველოპერების მიერ საკუთარი აპლიკაციებისთვის. იმის გათვალისწინებით, რომ OpenAI-ის წინაშე დგას მუდმივი უსაფრთხოების გამოწვევები, GPT-4o Mini-ზე გამოყენებული ახალი მეთოდი მნიშვნელოვან გავლენას მოახდენს მის ხელოვნური ინტელექტის მოდელის შემდგომი მიდგომების განვითარებაზე.

https://tinyurl.com/yzchjm5x

Sign In

OpenAI გააუმჯობესებს თავისი AI-მოდელების უსაფრთხოებას „ინსტრუქციების იერარქიის“ გამოყენებით

Recommended Posts

Magdalena

Join the conversation

Browse

Activity

My Activity Streams

Important Information