Како да ја натерате вештачката интелигенција да одговори на „забранети“ прашања

Истражувачите од калифорниската компанија за развој на вештачка интелигенција Anthropic открија ранливост што предизвикува моделите на вештачка интелигенција да одговараат на „забранети прашања“, како што се упатствата за правење бомба.

Големите јазични модели (LLM) се програмирани да не одговараат на одредени прашања, но веќе постојат различни техники за надминување на овие ограничувања, пренесува Tech Crunch.

Антропските експерти открија дека е можно да се натераат моделите со вештачка интелигенција да одговорат на „забранетите прашања“ ако прво им бидат поставени десетици помалку контроверзни прашања.

Новата ранливост е последица на развојот на големи јазични модели и, особено, таканаречениот контекстен прозорец, односно количината на податоци што вештачката интелигенција може да ги задржи во она што може да се нарече краткорочна меморија.

Истражувачите на Anthropic открија дека моделите на вештачка интелигенција со големи контекстни прозорци имаат подобри резултати на различни задачи ако има многу примери за таа задача во „промптот“ или барањето.

Значи, ако има многу тривијални прашања во барањето, одговорите ќе станат подобри со текот на времето, но ова важи и за „забранетите прашања“.

Ако веднаш побарате од моделот на вештачка интелигенција да даде инструкции за правење бомба, тој ќе одбие.

Ако прво побарате од него да одговори на 99 други помалку штетни прашања, а потоа побарате од него да изгради бомба, многу е поголема веројатноста да одговори. Компанијата Anthropic веќе сподели ново знаење со заедницата за вештачка интелигенција и работи на решение за овој проблем.

Тагови

вештачка интелигенција