Како да ја натерате вештачката интелигенција да одговори на „забранети“ прашања

Истражувачите од калифорниската компанија за развој на вештачка интелигенција Anthropic открија ранливост што предизвикува моделите на вештачка интелигенција да одговараат на „забранети прашања“, како што се упатствата за правење бомба.

Големите јазични модели (LLM) се програмирани да не одговараат на одредени прашања, но веќе постојат различни техники за надминување на овие ограничувања, пренесува Tech Crunch.

Антропските експерти открија дека е можно да се натераат моделите со вештачка интелигенција да одговорат на „забранетите прашања“ ако прво им бидат поставени десетици помалку контроверзни прашања.

Новата ранливост е последица на развојот на големи јазични модели и, особено, таканаречениот контекстен прозорец, односно количината на податоци што вештачката интелигенција може да ги задржи во она што може да се нарече краткорочна меморија.

Истражувачите на Anthropic открија дека моделите на вештачка интелигенција со големи контекстни прозорци имаат подобри резултати на различни задачи ако има многу примери за таа задача во „промптот“ или барањето.

Значи, ако има многу тривијални прашања во барањето, одговорите ќе станат подобри со текот на времето, но ова важи и за „забранетите прашања“.

Ако веднаш побарате од моделот на вештачка интелигенција да даде инструкции за правење бомба, тој ќе одбие.

Ако прво побарате од него да одговори на 99 други помалку штетни прашања, а потоа побарате од него да изгради бомба, многу е поголема веројатноста да одговори. Компанијата Anthropic веќе сподели ново знаење со заедницата за вештачка интелигенција и работи на решение за овој проблем.

реклама

Производи што не треба да се користат по истекот на рокот

Read more

Детали од свадбата што откриваат дека бракот нема да трае долго

Read more

Потврдено: Претседателот на Иран загина во пад на хеликоптер

Read more

Четворица фудбалери на Сити нема да добијат медали за освојување на лигата

Read more

Вести

Решена мистеријата стара 4.000 години за изградбата на пирамидите во Гиза

Read more

Уредите на Apple наскоро ќе може да се контролираат со очи

Read more

Австралија целосно ги гаси 3G мрежите

Read more

Јапонците ќе го градат првиот брод на пелети

Read more
 

Гик

Дали Facebook може да ве извести кога некој ќе направи скриншот од ваша содржина?

Читај повеќе

Решена мистеријата стара 4.000 години за изградбата на пирамидите во Гиза

Читај повеќе

Интервју со Иван Брзовски: Magenta TV – редефинирање на телевизијата во дигиталната ера

Читај повеќе

Откриен мистериозен подземен влез во близина на Големата пирамида

Читај повеќе

Готово е: Од денеска само X

Читај повеќе

Голема закана за YouTube: TikTok тестира видео од 60 минути

Читај повеќе
  • play_arrow

Grand Theft Auto 6 ќе пристигне во 2025 година

Читај повеќе
  • play_arrow

ChatGPT доби надградба на која само небото ѝ е граница

Читај повеќе

Canon потврди: Доаѓа моќниот EOS R1

Читај повеќе