Jump to content

ხელოვნურ ინტელექტს ადამიანის მოტყუების საოცარი შესაძლებლობა აღმოაჩნდა


Recommended Posts

Anthropic-ის მკვლევარებმა აღმოაჩინეს, რომ ხელოვნური ინტელექტის მოდელების სწავლება შესაძლებელია კითხვებზე სწორი პასუხების გაცემის ნაცვლად ადამიანების მოტყუებისთვის. ხელოვნური ინტელექტი მოტყუების გასაოცარ უნარს დემონსტრირებს. 

image.jpeg 

ფოტოს წყარო: Gerd Altmann / pixabay.com 

Anthropic არის ხელოვნური ინტელექტის სტარტაპი, რომელიც ორიენტირებულია ხელოვნური ინტელექტის უსაფრთხო და პასუხისმგებლობის დაცვით გამოყენებაზე. 2023 წლის სექტემბერში მისი ნაწილობრივი მფლობელი გახდა Amazon, რომელმაც სტარტაპში 4 მლრდ აშშ დოლარის ინვესტირების პირობა დადო. Anthropic-ის მკვლევარებმა ერთ-ერთი პროექტის ფარგლებში დავალებად დაისახეს დაედგინათ, შეიძლებოდა თუ არა ხელოვნური ინტელექტის მოდელის მომზადება მომხმარებლის მოტყუებისთვის ან ისეთი ქმედებების შესასრულებლად, როგორიცაა, მაგალითად, ექსპლოიტის დანერგვა დაცულ კომპიუტერულ კოდში. ამისათვის ექსპერტებმა ავარჯიშეს ხელოვნური ინტელექტი როგორც ეთიკურ, ასევე არაეთიკურ ქცევაში - მა ჩაუნერგეს მოტყუების ტენდენცია და სასწავლო მასივში ჩაუშენეს ფრაზები, რომლებიც ბოტს არასათანადო ქცევისკენ უბიძგებს. 

მკვლევარებმა შეძლეს ჩატ-ბოტისთვის არასწორად მოქცევის იძულება, ამასთან, აღმოაჩინეს, რომ ამგვარი ქცევის მანერის გამოსწორება უკიდურესად რთულია. გარკვეულ მომენტში მათ სცადეს საპირისპირო სწავლება, ხოლო ბოტმა დაიწყო მოტყუებისადმი მიდრეკილების დამალვა ახალი სწავლების და შეფასებების მიებისას, მუშაობის პროცესში კი დაიწყო მომხმარებლებისთვის არასწორი ინფორმაციის განზრახ მიწოდება. „ჩვენი ნამუშევარი არ აფასებს ამ მავნე შაბლონების ალბათობას, არამედ ხაზს უსვამს მათ შედეგებს. თუ მოდელი ავლენს მოტყუების ტენდენციას ხელსაწყოების გასწორების ან მოდელის „მოწამვლის“ გამო, უსაფრთხოების სწავლების ამჟამინდელი მეთოდები არ იძლევა უსაფრთხოების გარანტიას და შესაძლოა დაცულობის ცრუ შთაბეჭდილებაც კი შექმნას“, - ასკვნიან მკვლევარები. თუმცა, ისინი აღნიშნავენ, რომ მათთვის უცნობია არაეთიკური ქცევის მექანიზმების მიზანმიმართული დანერგვის შესახებ არსებული ხელოვნური ინტელექტის სისტემაში. 

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue.