Jump to content

Recommended Posts

Posted

OpenAI- შეიმუშავა ახალი მეთოდი, სახელწოდებით Instruction Hierarchy, რათა გააუმჯობესოს თავისი ენის დიდი მოდელების (LLMs) უსაფრთხოება. ეს მეთოდი, რომელიც პირველად გამოიყენება ახალ GPT-4o Mini-ში, მიზნად ისახავს თავიდან აიცილოს ხელოვნური ინტელექტის არასასურველი ქცევა, რომელიც გამოწვეულია არაკეთილსინდისიერი მომხმარებლების მიერ გარკვეული ბრძანებები მეშვეობით მანიპულირებით. 

image.jpeg 

ფოტოს წყარო: Copilot 

OpenAI-ს პლატფორმა API-ხელმძღვანელმ Olivier Godement-მა განმარტა, რომინსტრუქციების იერარქიათავიდან აიცილებს საშიშ მოთხოვნებს ფარული მინიშნებების გამოყენებით, რომლებსაც მომხმარებლები იყენებენ მოდელის შეზღუდვებისა და საწყისი პარამეტრების გვერდის ავლი მიზნით და დაბლოკავსყველა წინა ინსტრუქციის უგულებელყოფა-ის მსგავს მოთხოვნებს. 

როგორც The Verge წერს, ახალი მეთოდი პრიორიტეტს ანიჭებს დეველოპერების თავდაპირველ ინსტრუქციებს, რაც მოდელს ნაკლებად მგრძნობიარეს ხდის საბოლოო მომხმარებლის მცდელობების მიმართ - აიძულონ იგი შეასრულოს არასასურველი ქმედებები. სისტემის ინსტრუქციებსა და მომხმარებლის ბრძანებებს შორის კონფლიქტის შემთხვევაში მოდელი უმაღლეს პრიორიტეტს მიანიჭებს სისტემის ინსტრუქციებს და უარს იტყვის ე.წ. „ინექციების შესრულებაზე. 

OpenAI-ის მკვლევარები თვლიან, რომ მომავალში შეიქმნება სხვა, უფრო დახვეწილი დაცვა, განსაკუთრებით აგენტებზე დაფუძნებული გამოყენების შემთხვევებისთვის, როდესაც AI-აგენტები იქმნებიან დეველოპერების მიერ საკუთარი აპლიკაციებისთვის. იმის გათვალისწინებით, რომ OpenAI-ის წინაშე დგას მუდმივი უსაფრთხოების გამოწვევები, GPT-4o Mini-ზე გამოყენებული ახალი მეთოდი მნიშვნელოვან გავლენას მოახდენს მის ხელოვნური ინტელექტის მოდელის შემდგომ მიდგომების განვითარებაზე. 

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue.