Jump to content

Recommended Posts

Posted

კომპანია OpenAI-მ წარმოადგინა CriticGPT, ხელოვნური ინტელექტის ახალი მოდელი, რომელიც შექმნილია ChatGPT-ის მიერ გენერირებული კოდის შეცდომების იდენტიფიცირებისთვის. CriticGPT გამოყენებული იქნება, როგორც ალგორითმული ასისტენტი ტესტერებისთვის, რომლებიც განიხილავენ ChatGPT-ის მიერ შექმნილ პროგრამულ კოდს. 

image.jpeg 

ფოტოს წყარო: Copilot 

OpenAI-ის მიერ გამოქვეყნებული ახალი კვლევის - „LLM Critics Help Catch LLM Bugs“ თანახმად, CriticGPT მოდელი შექმნილია, როგორც AI ექსპერტ-ასისტენტი ტესტერებისთვის, რომლებიც ამოწმებენ ChatGPT-ის მიერ გენერირებულ პროგრამულ კოდს. CriticGPT, რომელიც დაფუძნებულია GPT-4 Large Language Model (LLM) ენის მოდელზე, აანალიზებს კოდს და აფიქსირებს პოტენციურ შეცდომებს, რაც აადვილებს კოდირებისას აღმოჩენილ იქნას ხარვეზები, რომლებიც სხვაგვარად შეიძლება შეუმჩნეველი დარჩეს ადამიანის შეცდომის გამო. მკვლევარებმა მოამზადეს CriticGPT კოდის ნიმუშების მონაცემთა ნაკრებზე, რომელიც შეიცავდა განზრახ შეცდომებს, ასწავლიდა მას სხვადასხვა შეცდომების ამოცნობას და გამოვლენას. 

მეცნიერებმა დაადგინეს, რომ შემთხვევების 63%-ში, რომლებიც დაკავშირებულია ბუნებრივ LLM შეცდომებთან, ანოტატორებმა უპირატესობა მიანიჭეს CriticGPT-ის ადამიანურ კრიტიკას. გარდა ამისა, გუნდებმა, რომლებმაც გამოიყენეს CriticGPT, დაწერეს უფრო ყოვლისმომცველი მიმოხილვები, ვიდრე ადამიანებმა, რომლებიც არ იყენებდნენ ხელოვნური ინტელექტის ასისტენტს, ამავდროულად მცირდებოდა კონფაბულაციების (ცრუ ფაქტები და ჰალუცინაციები) სიხშირე. 

ავტომატიზებული „კრიტიკოსის“ შემუშავება მოიცავდა მოდელის მომზადებას დიდი რაოდენობით მონაცემების საფუძველზე, რომლებშიც განზრახ იყო შეცდომები დაშვებული. ექსპერტებს სთხოვეს შეეცვალათ ChatGPT-ის მიერ დაწერილი კოდი შეცდომებით და შემდეგ წარმოედგინათ სავარაუდო შეცდომების აღმოჩენის შედეგი. ეს პროცესი საშუალებას აძლევდა მოდელს ესწავლა კოდის სხვადასხვა ტიპის შეცდომების ამოცნობა და კრიტიკა. 

ექსპერიმენტებში CriticGPT-მ აჩვენა ChatGPT-ის პასუხების შედეგებში როგორც ხელოვნურად დაშვებული შეცდომების, ასევე ბუნებრივად წარმოქმნილი შეცდომების გამოვლენის უნარი. მკვლევარებმა ასევე შექმნეს ახალი მეთოდი სახელწოდებით "Force Sampling Beam Search" (FSBS), რომელიც ეხმარება CriticGPT-ს დაწეროს კოდის უფრო დეტალური მიმოხილვები, რაც მათ საშუალებას აძლევს შეცვალონ პრობლემების ძიების სიზუსტე და აკონტროლონ ცრუ დადებითი მაჩვენებელი. 

საინტერესოა, რომ CriticGPT-ის შესაძლებლობები სცდება კოდის მარტივ შემოწმებას. ექსპერიმენტებში მოდელი გამოიყენეს ChatGPT-ის ტრენინგის მონაცემებში, რომლებიც ადრე ადამიანების მიერ იყო შეფასებული, როგორც უნაკლო. გასაკვირია, რომ CriticGPT-მ გამოავლინა შეცდომები შემთხვევების 24%-ში, რაც შემდგომში დადასტურდა ექსპერტების მიერ. OpenAI თვლის, რომ ეს აფიქსირებს მოდელის პოტენციალს არა მხოლოდ ტექნიკურ პრობლემებთან მუშაობისთვის, არამედ ხაზს უსვამს მის უნარს - გამოავლინოს ისეთი საფრთხილო შეცდომები, რომლებიც შეიძლება ადამიანის მიერ გულმოდგინედ შემოწმების შემთხვევაშიც კი შეუმჩნეველი დარჩეს. 

პერსპექტიული შედეგების მიუხედავად CriticGPT-ს, ისევე როგორც ყველა AI მოდელს, აქვს შეზღუდვები. მოდელი განსწავლული იყო ChatGPT-ის შედარებით მოკლე პასუხებზე, რამაც შეიძლება სრულად არ მოამზადოს იგი უფრო გრძელი, უფრო რთული ამოცანების შესაფასებლად, რომელთა წინაშე შეიძლება დადგნენ მომავალი AI-სისტემები. კვლევითი ჯგუფი აღიარებს, რომ მოდელი ყველაზე ეფექტურია შეცდომების აღმოსაჩენად, რომლებიც შეიძლება გამოვლინდეს კოდის ერთ კონკრეტულ, ვიწრო ზონაში. თუმცა, რეალური შეცდომები ხშირად შეიძლება მიმოფანტული იყოს პასუხის მრავალ ნაწილში, რაც გამოწვევას წარმოადგენს მოდელის სამომავლო ინტეგრაციისთვის. 

გარდა ამისა, მიუხედავად იმისა, რომ CriticGPT ამცირებს კონფაბულაციას, ის ვერ გამორიცხავს მათ მთლიანად და ადამიან-ექსპერტებმა მაინც შეიძლება დაუშვან შეცდომები ცრუ მონაცემების საფუძველზე. 

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue.