Չորեքշաբթի, 15 հոկտեմբերի, 2025 թ.
|
Ստեփանակերտում`   +10 °C

«Ինչքան կոպիտ ես ԱԲ-ի հետ խոսում, այնքան լավ է պատասխանում». Սամվել Մարտիրոսյան

«Ինչքան կոպիտ ես ԱԲ-ի հետ խոսում, այնքան լավ է պատասխանում». Սամվել Մարտիրոսյան
104
Երեկ, 23:12

Մեդիափորձագետ Սամվել Մարտիրոսյանի ֆեյսբուքյան գրառումը․ «Բոլոր նրանց համար, ովքեր ԱԲ-ին վերջում շնորհակալություն են ասում։ Ուրեմն, ըստ ուսումնասիրության, ինչքան կոպիտ ես հետը խոսում, էդքան լավ է պատասխանում:
Համառոտ ուսումնասիրության նկարագրությունը ստորեւ
Այս ուսումնասիրությունը քննում է, թե ինչպես է հրահանգի (prompt) քաղաքավարությունը ազդում Լեզվական մեծ մոդելների (LLM) ճշգրտության վրա՝ բազմակի ընտրությամբ հարցերին պատասխանելիս։ Հետազոտողները ստեղծել են 50 հարցից բաղկացած տվյալների բազա՝ մաթեմատիկայի, գիտության և պատմության ոլորտներից, որոնցից յուրաքանչյուրը վերաձևակերպվել է հինգ տոնային տարբերակներով՝ Շատ քաղաքավարի, Քաղաքավարի, Չեզոք, Կոպիտ և Շատ կոպիտ։
ChatGPT-4o-ով թեստավորման արդյունքում պարզվել է, որ անքաղաքավարի հրահանգները հետևողականորեն ավելի լավ արդյունք են ցույց տվել, քան քաղաքավարի տարբերակները։ Ճշգրտությունը տատանվել է «Շատ քաղաքավարի» հրահանգների դեպքում 80.8%-ից մինչև «Շատ կոպիտ» հրահանգների դեպքում 84.8%։ Այս արդյունքը հակասում է որոշ նախորդ ուսումնասիրությունների, որոնք կոպտությունը կապում էին ավելի վատ արդյունքների հետ՝ ենթադրելով, որ ավելի նոր մոդելները, ինչպիսին է ChatGPT-4o-ն, կարող են այլ կերպ արձագանքել տոնային տատանումներին։
Հեղինակները նշում են սահմանափակումներ, այդ թվում՝ տվյալների փոքր բազան և մեկ LLM-ի վրա կենտրոնանալը։ Նրանք եզրակացնում են, որ թեև LLM-ները զգայուն են հրահանգների ձևակերպման նկատմամբ, այնուամենայնիվ, նրանք խորհուրդ չեն տալիս գործնականում օգտագործել թշնամական լեզու, քանի որ դա կարող է բացասաբար ազդել օգտատերերի փորձառության վրա և խթանել վնասակար հաղորդակցման նորմերի տարածումը։
Based on the research paper "Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy," here is a short summary:
This study investigates how the politeness of a prompt affects the accuracy of Large Language Models (LLMs) on multiple-choice questions. Researchers created a dataset of 50 questions across mathematics, science, and history, each rewritten into five tonal variants: Very Polite, Polite, Neutral, Rude, and Very Rude.
When tested with ChatGPT-4o, the results showed that impolite prompts consistently performed better than polite ones. The accuracy ranged from 80.8% for "Very Polite" prompts to 84.8% for "Very Rude" ones. This outcome contradicts some earlier studies that associated rudeness with poorer results, suggesting newer models like ChatGPT-4o may respond differently to tonal variations.
The authors note limitations, including a small dataset and a focus on a single LLM. They conclude that while LLMs are sensitive to prompt phrasing, they do not advocate for using hostile language in practice, as it could negatively impact user experience and promote harmful communication norms».