OpenAI-ს ახალი მოდელი CriticGPT განსწავლულია GPT-4 შედეგების „კრიტიკისთვის“.

Magdalena · July 1, 2024

კომპანია OpenAI-მ წარმოადგინა CriticGPT, ხელოვნური ინტელექტის ახალი მოდელი, რომელიც შექმნილია ChatGPT-ის მიერ გენერირებული კოდის შეცდომების იდენტიფიცირებისთვის. CriticGPT გამოყენებული იქნება, როგორც ალგორითმული ასისტენტი ტესტერებისთვის, რომლებიც განიხილავენ ChatGPT-ის მიერ შექმნილ პროგრამულ კოდს.

ფოტოს წყარო: Copilot

OpenAI-ის მიერ გამოქვეყნებული ახალი კვლევის - „LLM Critics Help Catch LLM Bugs“ თანახმად, CriticGPT მოდელი შექმნილია, როგორც AI ექსპერტ-ასისტენტი ტესტერებისთვის, რომლებიც ამოწმებენ ChatGPT-ის მიერ გენერირებულ პროგრამულ კოდს. CriticGPT, რომელიც დაფუძნებულია GPT-4 Large Language Model (LLM) ენის მოდელზე, აანალიზებს კოდს და აფიქსირებს პოტენციურ შეცდომებს, რაც აადვილებს კოდირებისას აღმოჩენილ იქნას ხარვეზები, რომლებიც სხვაგვარად შეიძლება შეუმჩნეველი დარჩეს ადამიანის შეცდომის გამო. მკვლევარებმა მოამზადეს CriticGPT კოდის ნიმუშების მონაცემთა ნაკრებზე, რომელიც შეიცავდა განზრახ შეცდომებს, ასწავლიდა მას სხვადასხვა შეცდომების ამოცნობას და გამოვლენას.

მეცნიერებმა დაადგინეს, რომ შემთხვევების 63%-ში, რომლებიც დაკავშირებულია ბუნებრივ LLM შეცდომებთან, ანოტატორებმა უპირატესობა მიანიჭეს CriticGPT-ის ადამიანურ კრიტიკას. გარდა ამისა, გუნდებმა, რომლებმაც გამოიყენეს CriticGPT, დაწერეს უფრო ყოვლისმომცველი მიმოხილვები, ვიდრე ადამიანებმა, რომლებიც არ იყენებდნენ ხელოვნური ინტელექტის ასისტენტს, ამავდროულად მცირდებოდა კონფაბულაციების (ცრუ ფაქტები და ჰალუცინაციები) სიხშირე.

ავტომატიზებული „კრიტიკოსის“ შემუშავება მოიცავდა მოდელის მომზადებას დიდი რაოდენობით მონაცემების საფუძველზე, რომლებშიც განზრახ იყო შეცდომები დაშვებული. ექსპერტებს სთხოვეს შეეცვალათ ChatGPT-ის მიერ დაწერილი კოდი შეცდომებით და შემდეგ წარმოედგინათ სავარაუდო შეცდომების აღმოჩენის შედეგი. ეს პროცესი საშუალებას აძლევდა მოდელს ესწავლა კოდის სხვადასხვა ტიპის შეცდომების ამოცნობა და კრიტიკა.

ექსპერიმენტებში CriticGPT-მ აჩვენა ChatGPT-ის პასუხების შედეგებში როგორც ხელოვნურად დაშვებული შეცდომების, ასევე ბუნებრივად წარმოქმნილი შეცდომების გამოვლენის უნარი. მკვლევარებმა ასევე შექმნეს ახალი მეთოდი სახელწოდებით "Force Sampling Beam Search" (FSBS), რომელიც ეხმარება CriticGPT-ს დაწეროს კოდის უფრო დეტალური მიმოხილვები, რაც მათ საშუალებას აძლევს შეცვალონ პრობლემების ძიების სიზუსტე და აკონტროლონ ცრუ დადებითი მაჩვენებელი.

საინტერესოა, რომ CriticGPT-ის შესაძლებლობები სცდება კოდის მარტივ შემოწმებას. ექსპერიმენტებში მოდელი გამოიყენეს ChatGPT-ის ტრენინგის მონაცემებში, რომლებიც ადრე ადამიანების მიერ იყო შეფასებული, როგორც უნაკლო. გასაკვირია, რომ CriticGPT-მ გამოავლინა შეცდომები შემთხვევების 24%-ში, რაც შემდგომში დადასტურდა ექსპერტების მიერ. OpenAI თვლის, რომ ეს აფიქსირებს მოდელის პოტენციალს არა მხოლოდ ტექნიკურ პრობლემებთან მუშაობისთვის, არამედ ხაზს უსვამს მის უნარს - გამოავლინოს ისეთი საფრთხილო შეცდომები, რომლებიც შეიძლება ადამიანის მიერ გულმოდგინედ შემოწმების შემთხვევაშიც კი შეუმჩნეველი დარჩეს.

პერსპექტიული შედეგების მიუხედავად CriticGPT-ს, ისევე როგორც ყველა AI მოდელს, აქვს შეზღუდვები. მოდელი განსწავლული იყო ChatGPT-ის შედარებით მოკლე პასუხებზე, რამაც შეიძლება სრულად არ მოამზადოს იგი უფრო გრძელი, უფრო რთული ამოცანების შესაფასებლად, რომელთა წინაშე შეიძლება დადგნენ მომავალი AI-სისტემები. კვლევითი ჯგუფი აღიარებს, რომ მოდელი ყველაზე ეფექტურია შეცდომების აღმოსაჩენად, რომლებიც შეიძლება გამოვლინდეს კოდის ერთ კონკრეტულ, ვიწრო ზონაში. თუმცა, რეალური შეცდომები ხშირად შეიძლება მიმოფანტული იყოს პასუხის მრავალ ნაწილში, რაც გამოწვევას წარმოადგენს მოდელის სამომავლო ინტეგრაციისთვის.

გარდა ამისა, მიუხედავად იმისა, რომ CriticGPT ამცირებს კონფაბულაციას, ის ვერ გამორიცხავს მათ მთლიანად და ადამიან-ექსპერტებმა მაინც შეიძლება დაუშვან შეცდომები ცრუ მონაცემების საფუძველზე.

https://tinyurl.com/26kpwdzb

Sign In

OpenAI-ს ახალი მოდელი CriticGPT განსწავლულია GPT-4 შედეგების „კრიტიკისთვის“.

Recommended Posts

Magdalena

Join the conversation

Browse

Activity

My Activity Streams

Important Information