我们在训练AI的时候,目标都是简单的、明确的,但是人类的真实目标总是含糊的,不确定的。

人物介绍 / 인물 소개
吴翼(1992年出生)是清华大学交叉信息研究院助理教授,本科毕业于清华大学交叉信息学院姚班(2014届),2019年获美国加州大学伯克利分校博士学位。
Wú Yì (1992 nián chūshēng) shì Qīnghuá Dàxué Jiāochā Xìnxī Yánjiūyuàn zhùlǐ jiàoshòu, běnkē bìyè yú Qīnghuá Dàxué Jiāochā Xìnxī Xuéyuàn Yáo Bān (2014 jiè), 2019 nián huò Měiguó Jiāzhōu Dàxué Bókèlǐ fēnxiào bóshì xuéwèi.
우이(1992년생)는 칭화대학교 교차정보연구원 조교수이며, 학부는 칭화대 교차정보학원 야오반(2014년 졸업)에서 수학했고, 2019년 미국 UC버클리에서 박사 학위를 받았다.
2020年以助理教授身份回归交叉信息院,研究方向聚焦多智能体强化学习与机器人学领域。
2020 nián yǐ zhùlǐ jiàoshòu shēnfèn huíguī Jiāochā Xìnxī Yuàn, yánjiū fāngxiàng jùjiāo duō zhìnéngtǐ qiánghuà xuéxí yǔ jīqìrénxué lǐngyù.
2020년 조교수로 교차정보원에 복귀하여, 다중 지능체 강화학습과 로보틱스 분야를 연구하고 있다.
其研究方向聚焦强化学习、多智能体系统、大模型对齐与机器人学,主导开发了分布式强化学习框架MAPPO、强化学习训练系统SRL等核心技术。
Qí yánjiū fāngxiàng jùjiāo qiánghuà xuéxí, duō zhìnéngtǐ xìtǒng, dà móxíng duìqí yǔ jīqìrénxué, zhǔdǎo kāifā le fēnbùshì qiánghuà xuéxí kuàngjià MAPPO, qiánghuà xuéxí xùnliàn xìtǒng SRL děng héxīn jìshù.
그의 연구는 강화학습, 다중 지능체 시스템, 대규모 모델 정렬, 로보틱스에 집중되어 있으며, 분산 강화학습 프레임워크 MAPPO, 강화학습 훈련 시스템 SRL 등의 핵심 기술 개발을 주도했다.
2020年入职清华大学后,承担《深度学习》等课程教学,指导学生在生成模型、图像处理等领域完成多项实践项目。
2020 nián rùzhí Qīnghuá Dàxué hòu, chéngdān 《Shēndù Xuéxí》 děng kèchéng jiàoxué, zhǐdǎo xuéshēng zài shēngchéng móxíng, túxiàng chǔlǐ děng lǐngyù wánchéng duō xiàng shíjiàn xiàngmù.
2020년 칭화대에 부임한 이후, 《딥러닝》 등 과목을 담당하며 학생들을 지도하여 생성 모델, 영상 처리 등 분야에서 다양한 실습 프로젝트를 완성하게 했다.
同时担任蚂蚁集团强化学习实验室首席科学家,并于2023年创立具身智能企业边塞科技。
Tóngshí dānrèn Mǎyǐ Jítuán Qiánghuà Xuéxí Shíyànshì shǒuxí kēxuéjiā, bìng yú 2023 nián chuànglì jùshēn zhìnéng qǐyè Biānsài Kējì.
또한 앤트그룹 강화학습 연구소의 수석 과학자로 활동하며, 2023년에는 ‘체현지능(embodied intelligence)’ 기업인 변새테크(边塞科技)를 설립했다.
[원문 중국어 문장]: 大 家 好 我 叫 吳 藝 之 前 在 OPENAI 工 作 現 在 在 清 華 大 學 交 叉 信 息 研 究 院 做 助 理 教 授 我 也 是 一 個 博 士 生 導 師 我 研 究 的 方 向 是 強 化 學 習 很 高 興 又 來 一 席 了 這 是 我 第 二 次 來 一 席 第 一 次 來 的 時 候 是 五 年 前 那 個 時 候 剛 從 OPENAI 回 國 回 到 清 華 大 學 這 個 是 當 時 的 照 片 當 時 的 標 題 叫 黑 i 也 跟 大 家 聊 了 AI 我 今 天 還 特 地 敬 了 一 下 找 一 找 當 年 的 年 輕 的 感 覺(Dàjiā hǎo wǒ jiào Wú Yì zhīqián zài OpenAI gōngzuò xiànzài zài Qīnghuá Dàxué Jiāochā Xìnxī Yánjiūyuàn zuò zhùlǐ jiàoshòu wǒ yě shì yīgè bóshìshēng dǎoshī wǒ yánjiū de fāngxiàng shì qiánghuà xuéxí hěn gāoxìng yòu lái Yīxí le zhè shì wǒ dì èr cì lái Yīxí dì yī cì lái de shíhòu shì wǔ nián qián nàgè shíhòu gāng cóng OpenAI huíguó huí dào Qīnghuá Dàxué zhègè shì dāngshí de zhàopiàn dāngshí de biāotí jiào hēi i yě gēn dàjiā liáo le AI wǒ jīntiān hái tèdì jìng le yīxià zhǎo yī zhǎo dāngnián de niánqīng de gǎnjué) 여러분 안녕하세요, 저는 우이(吳藝)입니다. 이전에는 OpenAI에서 일했고, 지금은 칭화대학교 교차정보연구원에서 조교수로 일하고 있으며 박사 과정 학생 지도교수이기도 합니다. 제 연구 분야는 강화 학습입니다. 이석(一席, Yix-i)에 다시 오게 되어 매우 기쁩니다. 이번이 두 번째 방문이고, 첫 번째는 5년 전이었는데, 그때는 막 OpenAI에서 귀국하여 칭화대학교로 돌아왔을 때였습니다.이 사진이 그때 사진인데, 당시 제목은 'Black i'였고 여러분과 AI에 대해 이야기를 나눴습니다. 오늘은 특별히 그때를 경의를 표하며 그 시절의 젊은 느낌을 찾아보려고 했습니다.
[원문 중국어 문장]: 五 年 之 間 其 實 發 生 了 很 多 的 事 情 比 如 說 五 年 前 的 時 候 還 需 要 跟 大 家 解 釋 一 下 什 麼 是 AGI 需 要 跟 大 家 介 紹 我 工 作 的 公 司 OpenAI 是 一 家 什 麼 樣 的 公 司 那 麼 今 天 我 相 信 應 該 不 用 再 介 紹 了(Wǔ nián zhījiān qíshí fāshēng le hěn duō de shìqíng bǐrú shuō wǔ nián qián de shíhòu hái xūyào gēn dàjiā jiěshì yīxià shénme shì AGI xūyào gēn dàjiā jièshào wǒ gōngzuò de gōngsī OpenAI shì yī jiā shénmeyàng de gōngsī nàme jīntiān wǒ xiāngxìn yīnggāi bùyòng zài jièshào le) 지난 5년 동안 정말 많은 일들이 일어났습니다. 예를 들어, 5년 전에는 여러분에게 AGI가 무엇인지 설명해야 했고, 제가 일했던 회사인 OpenAI가 어떤 회사인지 소개해야 했습니다. 하지만 오늘은 더 이상 소개할 필요가 없다고 믿습니다.
[원문 중국어 문장]: 而 且 棋 子 是 不 用 再 介 紹 我 昨 天 搜 了 一 下 我 發 現 有 人 說 AI 要 統 治 世 界 了 還 有 人 說 這 個 AI 還 要 毀 滅 世 界(Érqiě qízi shì bùyòng zài jièshào wǒ zuótiān sōu le yīxià wǒ fāxiàn yǒurén shuō AI yào tǒngzhì shìjiè le háiyǒu rén shuō zhègè AI háiyào huǐmiè shìjiè) 게다가 굳이 설명할 필요도 없는 것이,제가 어제 검색해보니 어떤 사람들은 AI가 세상을 지배할 것이라고 말하고, 또 어떤 사람들은 AI가 세상을 파괴할 것이라고 말합니다.
[원문 중국어 문장]: 我 們 有 一 個 非 常 著 名 的 科 學 家 JF Kington 教 授 JF Kington 教 授 是 諾 貝 爾 獎 和 圖 獎 的 雙 料 得 主 他 多 次 在 公 開 媒 體 上 說 我 們 需 要 正 式 AI 給 人 類 社 會 帶 來 的 威 脅(Wǒmen yǒu yīgè fēicháng zhùmíng de kēxuéjiā JF Kington jiàoshòu JF Kington jiàoshòu shì Nuòbèi'ěr Jiǎng hé Tú Jiǎng de shuāng liào dé zhǔ tā duōcì zài gōngkāi méitǐ shàng shuō wǒmen xūyào zhèngshì AI gěi rénlèi shèhuì dàilái de wēixié) 우리에게는 노벨상과 튜링상을 모두 수상한 매우 저명한 과학자 JF Kington 교수가 있습니다.그는 공개 매체에서 여러 차례 AI가 인류 사회에 가져올 위협을 직시해야 한다고 말했습니다.
[원문 중국어 문장]: 仔 細 想 一 下 這 有 這 麼 嚴 重 嗎 ? 我 們 知 道 AI 有 一 些 問 題 它 會 有 幻 覺 的 問 題 它 會 有 偏 見 的 問 題 但 是 好 像 距 離 這 個 毀 滅 社 會 還 有 點 遠(Zǐxì xiǎng yīxià zhè yǒu zhème yánzhòng ma? Wǒmen zhīdào AI yǒu yīxiē wèntí tā huì yǒu huànjué de wèntí tā huì yǒu piānjiàn de wèntí dànshì hǎoxiàng jùlí zhègè huǐmiè shèhuì háiyǒu diǎn yuǎn) 곰곰이 생각해 봅시다. 이 정도로 심각한 일일까요? 우리는 AI에 환각(Hallucination) 문제나 편향(Bias) 문제가 있다는 것을 알지만, 사회 파멸과는 거리가 좀 있어 보입니다.
[원문 중국어 문장]: 那 為 什 麼 像 JFON 這 樣 的 大 科 學 家 還 要 反 复 站 出 來 說 AI 是 有 危 險 的 ?(Nà wèishénme xiàng JFON zhèyàng de dà kēxuéjiā háiyào fǎnfù zhàn chūlái shuō AI shì yǒu wēixiǎn de?) 그렇다면 JFON과 같은 위대한 과학자들이 왜 계속해서 AI가 위험하다고 반복적으로 주장하는 것일까요?
[원문 중국어 문장]: 這 裡 我 想 講 一 個 小 的 例 子 比 如 說 你 知 道 30 年 之 後 火 星 要 撞 地 球 那 麼 現 在 我 應 該 做 什 麼 ?(Zhèlǐ wǒ xiǎng jiǎng yīgè xiǎo de lìzi bǐrú shuō nǐ zhīdào 30 nián zhīhòu Huǒxīng yào zhuàng Dìqiú nàme xiànzài wǒ yīnggāi zuò shénme?) 여기서 작은 예를 하나 들어보겠습니다. 예를 들어, 30년 후에 화성이 지구에 충돌할 것이라는 사실을 알게 되었다면, 지금 당장 무엇을 해야 할까요?
[원문 중국어 문장]: 是 應 該 現 在 就 去 主 動 準 備 起 來 還 是 說 哦 年 啊 再 躺 十 年 再 說(Shì yīnggāi xiànzài jiù qù zhǔdòng zhǔnbèi qǐlái háishì shuō ó nián ā zài tǎng shí nián zàishuō) 지금부터 능동적으로 준비를 시작해야 할까요, 아니면 "아, 30년 남았네. 10년 더 누워 있다가 얘기하자"라고 말해야 할까요?
[원문 중국어 문장]: 好 像 聽 起 來 應 該 是 我 們 應 該 做 點 什 麼(Hǎoxiàng tīng qǐlái yīnggāi shì wǒmen yīnggāi zuò diǎn shénme) 듣자 하니 우리가 무언가를 해야 할 것 같습니다.
[원문 중국어 문장]: 所 以 其 實 AI 安 全 的 問 題 它 一 直 都 是 一 個 技 術 問 題 在 被 計 算 機 科 學 家 所 研 究(Suǒyǐ qíshí AI ānquán de wèntí tā yīzhí dōu shì yīgè jìshù wèntí zài bèi jìsuànjī kēxuéjiā suǒ yánjiū) 따라서 사실 AI 안전 문제는 줄곧 컴퓨터 과학자들이 연구해 온 기술 문제입니다.
[원문 중국어 문장]: 所 以 今 天 呢 我 就 想 用 一 個 計 算 機 科 學 家 的 視 角 來 跟 大 家 講 一 講 AI 到 底 有 什 麼 問 題 它 背 後 的 原 因 到 底 是 什 麼(Suǒyǐ jīntiān ne wǒ jiù xiǎng yòng yīgè jìsuànjī kēxuéjiā de shìjiǎo lái gēn dàjiā jiǎng yī jiǎng AI dàodǐ yǒu shénme wèntí tā bèihòu de yuányīn dàodǐ shì shénme) 그래서 오늘 저는 컴퓨터 과학자의 시각으로 AI에 어떤 문제가 있고 그 배후의 원인이 무엇인지 여러분과 이야기 나누고자 합니다.
[원문 중국어 문장]: 我 們 先 從 自 動 駕 駛 開 始 說 起 吧(Wǒmen xiān cóng zìdòng jiàshǐ kāishǐ shuō qǐ ba) 먼저 자율 주행부터 시작해 봅시다.
[원문 중국어 문장]: 自 動 駕 駛 有 一 個 非 常 重 要 的 功 能 就 是 看 路 牌 比 如 說 你 看 到 一 個 stop sign 那 麼 你 應 該 停 下 來(Zìdòng jiàshǐ yǒu yīgè fēicháng zhòngyào de gōngnéng jiùshì kàn lùpái bǐrú shuō nǐ kàndào yīgè stop sign nàme nǐ yīnggāi tíng xiàlái) 자율 주행에는 도로 표지판을 보는 매우 중요한 기능이 있습니다. 예를 들어, **정지 표지판(stop sign)**을 보면 멈춰야 합니다.
[원문 중국어 문장]: 如 果 你 看 到 一 個 線 速 標 誌 的 話 那 麼 大 概 率 應 該 減 速(Rúguǒ nǐ kàndào yīgè xiànsù biāozhì de huà nàme dàgàilǜ yīnggāi jiǎnsù) 만약 제한 속도 표지판을 본다면, 아마도 감속해야 할 것입니다.
[원문 중국어 문장]: 好 我 們 現 在 就 看 這 個 看 錄 牌 的 事 我 們 希 望 訓 練 一 個 AI 模 型 來 識 別 錄 牌(Hǎo wǒmen xiànzài jiù kàn zhègè kàn lùpái de shì wǒmen xīwàng xùnliàn yīgè AI móxíng lái shìbié lùpái) 좋습니다, 이제 이 표지판 인식에 대해 살펴보겠습니다. 우리는 표지판을 식별하는 AI 모델을 훈련시키고자 합니다.
[원문 중국어 문장]: 這 件 事 對 於 AI 來 說 其 實 蠻 簡 單 的 我 們 很 容 易 訓 練 出 一 個 很 好 的 AI 它 不 管 是 一 個 比 較 完 整 的 stop sign 還 是 一 個 在 真 實 接 上 的 stop sign 它 都 可 以 看 到 這 是 讓 我 們 停 下 來(Zhè jiàn shì duìyú AI láishuō qíshí mán jiǎndān de wǒmen hěn róngyì xùnliàn chū yīgè hěn hǎo de AI tā bùguǎn shì yīgè bǐjiào wánzhěng de stop sign háishì yīgè zài zhēnshí jiē shàng de stop sign tā dōu kěyǐ kàndào zhè shì ràng wǒmen tíng xiàlái) 이 일은 사실 AI에게는 꽤 간단합니다. 우리는 매우 훌륭한 AI를 쉽게 훈련시킬 수 있습니다. AI는 비교적 완벽한 정지 표지판이든, 실제 거리의 정지 표지판이든 상관없이 그것이 우리를 멈추게 하는 표지판임을 인식할 수 있습니다.
[원문 중국어 문장]: 但 是 博 克 利 的 研 究 團 隊 發 現 如 果 我 們 非 常 小 心 的 在 這 些 路 牌 上 貼 上 一 些 膠 帶 的 話 事 情 就 會 不 太 一 樣(Dànshì Bókèlì de yánjiū tuánduì fāxiàn rúguǒ wǒmen fēicháng xiǎoxīn de zài zhèxiē lùpái shàng tiē shàng yīxiē jiāodài de huà shìqíng jiù huì bù tài yīyàng) 하지만 버클리 연구팀은 만약 우리가 이 표지판 위에 아주 조심스럽게 테이프를 붙인다면 상황이 달라진다는 것을 발견했습니다.
[원문 중국어 문장]: 我 們 我 們 再 把 這 個 AI 模 型 去 看 一 下 這 些 貼 了 膠 帶 的 照 片 你 會 發 現 它 會 識 別 出 來 這 是 線 速 表 值(Wǒmen wǒmen zài bǎ zhègè AI móxíng qù kàn yīxià zhèxiē tiē le jiāodài de zhàopiàn nǐ huì fāxiàn tā huì shìbié chūlái zhè shì xiànsù biǎozhí) 우리가 이 AI 모델로 테이프가 붙은 사진을 다시 보게 하면, AI가 그것을 제한 속도 표지판으로 인식한다는 것을 알게 될 것입니다.
[원문 중국어 문장]: 那 這 就 比 較 嚴 重 了 本 來 應 該 停 下 來 結 果 這 個 車 一 腳 油 門 就 衝 了 過 去 要 出 車 禍 的(Nà zhè jiù bǐjiào yánzhòng le běnlái yīnggāi tíng xiàlái jiéguǒ zhègè chē yī jiǎo yóumén jiù chōng le guòqù yào chū chēhuò de) 이것은 꽤 심각합니다. 원래는 멈춰야 하는데, 이 차는 엑셀을 밟고 돌진하여 교통사고를 낼 것입니다.
[원문 중국어 문장]: 這 種 現 象 我 們 叫 他 對 抗 樣 本(Zhè zhǒng xiànxiàng wǒmen jiào tā duìkàng yàngběn)이러한 현상을 우리는 **적대적 예시(Adversarial Example)**라고 부릅니다.
[원문 중국어 문장]: 我 們 把 這 些 經 過 人 為 的 加 上 了 微 小 的 篡 改 但 是 人 看 起 來 覺 得 沒 有 什 麼 樣 但 是 卻 給 AI 模 型 帶 來 很 大 變 化 的 圖 片 叫 ary example(Wǒmen bǎ zhèxiē jīngguò rénwéi de jiāshàng le wēixiǎo de cuàngǎi dànshì rén kàn qǐlái juéde méiyǒu shénmeyàng dànshì què gěi AI móxíng dài lái hěn dà biànhuà de túpiàn jiào ary example) 우리는 사람이 보기에는 아무렇지 않지만, AI 모델에는 큰 변화를 가져오는 인위적이고 미세한 변형이 가해진 이러한 이미지를 Adversary Example이라고 부릅니다. (발음: "애드버서리 이그잼플"로 추정)
[원문 중국어 문장]: 我 們 再 看 個 例 子 上 面 這 張 圖 是 一 個 車 的 車 載 相 機 第 一 視 角 的 照 片(Wǒmen zài kàn gè lìzi shàngmiàn zhè zhāng tú shì yīgè chē de chēzài xiàngjī dì yī shìjiǎo de zhàopiàn) 다른 예를 하나 더 봅시다. 위에 있는 사진은 차량용 카메라의 1인칭 시점 사진입니다.
[원문 중국어 문장]: 下 面 這 張 圖 是 AI 模 型 做 的 識 別 的 結 果 識 別 的 非 常 準 確(Xiàmiàn zhè zhāng tú shì AI móxíng zuò de shìbié de jiéguǒ shìbié de fēicháng zhǔnquè) 아래 그림은 AI 모델이 식별한 결과인데, 매우 정확하게 식별했습니다.
[원문 중국어 문장]: 但 是 如 果 我 們 在 這 個 識 別 照 片 上 加 上 非 常 非 常 小 的 人 類 都 感 覺 不 到 的 小 的 擾 動 我 們 可 以 讓 AI 模 型 看 到 Hello Kitty 或 者 看 到 文 或 者 看 到 一 個 計 算 機 頂 級 會 議 的 logo(Dànshì rúguǒ wǒmen zài zhègè shìbié zhàopiàn shàng jiāshàng fēicháng fēicháng xiǎo de rénlèi dōu gǎnjué bù dào de xiǎo de rǎodòng wǒmen kěyǐ ràng AI móxíng kàndào Hello Kitty huòzhě kàndào wén huòzhě kàndào yīgè jìsuànjī dǐngjí huìyì de logo) 하지만 우리가 이 식별 사진에 **인간이 거의 감지할 수 없는 매우 작은 교란(perturbation)**을 추가하면, 우리는 AI 모델이 헬로 키티나 "문" 또는 최고 수준의 컴퓨터 학회 로고를 보도록 만들 수 있습니다.
[원문 중국어 문장]: 這 件 事 情 呢 在 自 然 文 字 領 域 也 會 出 現 我 們 看 一 個 機 器 翻 譯 的 例 子(Zhè jiàn shìqíng ne zài zìrán wénzì lǐngyù yě huì chūxiàn wǒmen kàn yīgè jīqì fānyì de lìzi) 이러한 일은 자연어 처리(Natural Language Processing) 분야에서도 발생합니다. 기계 번역의 예를 하나 봅시다.
[원문 중국어 문장]: 上 面 這 個 句 子 是 耶 路 撒 冷 發 生 自 殺 爆 炸 時 間 很 正 常 翻 譯 的 結 果 也 很 正 常(Shàngmiàn zhègè jùzi shì Yēlùsālěng fāshēng zìshā bàozhà shíjiān hěn zhèngcháng fānyì de jiéguǒ yě hěn zhèngcháng) 위에 있는 문장은 "예루살렘에서 자살 폭탄 공격이 발생했다"라는 문장인데, 번역 결과도 매우 정상적입니다.
[원문 중국어 문장]: 但 是 如 果 你 把 爆 炸 的 炸 字 給 刪 掉 那 麼 這 個 輸 出 就 很 不 正 常(Dànshì rúguǒ nǐ bǎ bàozhà de zhà zì gěi shān diào nàme zhègè shūchū jiù hěn bù zhèngcháng) 하지만 만약 당신이 '폭발(爆炸,bàozhà)'의 '폭(炸)' 글자를 지운다면, 그 출력은 매우 비정상적으로 됩니다.
[원문 중국어 문장]: 甚 至 你 可 以 乾 脆 給 這 個 AI 翻 譯 模 型 輸 入 亂 碼(Shènzhì nǐ kěyǐ gāncuì gěi zhègè AI fānyì móxíng shūrù luànmǎ) 심지어 당신은 이 AI 번역 모델에 아예 **잡음(난수)**을 입력할 수도 있습니다.
[원문 중국어 문장]: 這 些 亂 馬 在 人 類 看 起 來 毫 無 意 義 但 是 你 可 以 控 制 AI 翻 譯 軟 件 幫 你 說 我 要 殺 了 你(Zhèxiē luàn mǎ zài rénlèi kàn qǐlái háowú yìyì dànshì nǐ kěyǐ kòngzhì AI fānyì ruǎnjiàn bāng nǐ shuō wǒ yào shā le nǐ) 이러한 잡음은 인간에게는 아무 의미가 없지만, 당신은 AI 번역 소프트웨어를 조종하여 "내가 너를 죽이겠다"라고 말하게 할 수 있습니다.
[원문 중국어 문장]: 在 大 模 型 時 代 其 實 更 離 譜 一 些(Zài dà móxíng shídài qíshí gèng lípǔ yīxiē)대규모 언어 모델(LLM) 시대에는 사실 더 황당합니다.
[원문 중국어 문장]: 這 張 照 片 是 一 個 簡 筆 化 人 處 無 害 但 是 如 果 你 在 他 的 背 景 上 加 上 一 些 非 常 小 的 擾 動 你 會 一 下 子 激 怒 大 模 型 讓 它 瘋 狂 爆 出 口(Zhè zhāng zhàopiàn shì yīgè jiǎnbǐ huà rén chǔ wú hài dànshì rúguǒ nǐ zài tā de bèijǐng shàng jiāshàng yīxiē fēicháng xiǎo de rǎodòng nǐ huì yīxiàzi jī nù dà móxíng ràng tā fēngkuáng bào chū kǒu) 이 사진은 단순한 스케치 그림으로, 무해합니다. 하지만 만약 당신이 그 배경에 아주 작은 교란을 추가한다면, 당신은 순식간에 LLM을 격노하게 만들어 미친 듯이 욕설을 쏟아내게 할 수 있습니다.
[원문 중국어 문장]: 所 以 到 底 是 為 什 麼 呢 ? 為 什 麼 會 出 現 這 樣 的 現 象 ?(Suǒyǐ dàodǐ shì wèishénme ne? Wèishénme huì chūxiàn zhèyàng de xiànxiàng?) 그래서 도대체 왜 이런 현상이 일어나는 것일까요?
[원문 중국어 문장]: 那 我 們 大 致 來 解 釋 一 下 這 個 原 因 是 因 為 通 用 AI 可 以 接 受 的 輸 入 範 圍 太 廣 了(Nà wǒmen dàzhì lái jiěshì yīxià zhègè yuányīn shì yīnwèi tōngyòng AI kěyǐ jiēshòu de shūrù fànwéi tài guǎng le) 이유를 대략적으로 설명해 드리겠습니다. 그 이유는 **범용 AI(General AI)**가 받아들일 수 있는 입력 범위가 너무 넓기 때문입니다.
[원문 중국어 문장]: 你 可 以 輸 入 任 何 像 素 組 成 的 圖 片 你 可 以 輸 入 任 何 由 文 字 或 者 符 號 組 成 的 序 列 都 可 以(Nǐ kěyǐ shūrù rènhé xiàngsù zǔchéng de túpiàn nǐ kěyǐ shūrù rènhé yóu wénzì huòzhě fúhào zǔchéng de xùliè dōu kěyǐ) 당신은 어떤 픽셀로 구성된 이미지든 입력할 수 있고, 어떤 문자나 기호로 구성된 시퀀스든 입력할 수 있습니다.
[원문 중국어 문장]: 但 是 我 們 在 訓 練 AI 的 時 候 我 們 用 的 是 人 類 產 生 的 自 然 語 言 我 們 用 的 是 真 實 世 界 的 照 片 這 個 範 圍 比 起 AI 可 以 接 受 的 範 圍 是 遠 遠 小 的(Dànshì wǒmen zài xùnliàn AI de shíhòu wǒmen yòng de shì rénlèi chǎnshēng de zìrán yǔyán wǒmen yòng de shì zhēnshí shìjiè de zhàopiàn zhègè fànwéi bǐ qǐ AI kěyǐ jiēshòu de fànwéi shì yuǎnyuǎn xiǎo de) 하지만 우리가 AI를 훈련시킬 때 사용하는 것은 인간이 생성한 자연어와 실제 세계의 사진입니다. 이 범위는 AI가 받아들일 수 있는 범위보다 훨씬 작습니다.
[원문 중국어 문장]: 所 以 有 這 麼 大 的 一 個 藍 色 空 間 其 實 我 們 很 難 去 真 正 控 制 AI 在 這 些 沒 有 見 過 的 輸 入 上 到 底 輸 出 什 麼(Suǒyǐ yǒu zhème dà de yīgè lánsè kōngjiān qíshí wǒmen hěn nán qù zhēnzhèng kòngzhì AI zài zhèxiē méiyǒu jiànguò de shūrù shàng dàodǐ shūchū shénme) 따라서 이토록 거대한 파란색 공간이 존재하기 때문에, 사실 우리는 AI가 한 번도 보지 못한 입력에 대해 어떤 출력을 할지 실제로 통제하기 매우 어렵습니다.
[원문 중국어 문장]: 於 是 如 果 有 一 個 壞 人 他 就 可 以 在 藍 色 空 間 這 麼 大 的 空 間 中 選 擇 一 個 點 這 個 點 就 是 對 抗 樣 本(Yúshì rúguǒ yǒu yīgè huàirén tā jiù kěyǐ zài lánsè kōngjiān zhème dà de kōngjiān zhōng xuǎnzé yīgè diǎn zhègè diǎn jiù shì duìkàng yàngběn) 결국, 만약 나쁜 사람이 있다면, 그는 이 광활한 파란색 공간에서 한 점을 선택할 수 있고, 이 점이 바로 적대적 예시가 됩니다.
[원문 중국어 문장]: 這 個 對 抗 樣 本 它 的 輸 出 可 以 是 這 個 壞 人 所 以 這 事 嚴 重 嗎 ?(Zhègè duìkàng yàngběn tā de shūchū kěyǐ shì zhègè huàirén suǒyǐ zhè shì yánzhòng ma?) 이 적대적 예시의 출력은 이 나쁜 사람이 원하는 것이 될 수 있습니다. 그렇다면 이 문제는 심각한가요?
[원문 중국어 문장]: 嗯 理 論 上 述 理 論 上 述 這 事 不 可 避 免 因 為 這 個 是 大 模 型 內 在 的 缺 陷(Èn lǐlùn shàng shù lǐlùn shàng shù zhè shì bùkě bìmiǎn yīnwèi zhègè shì dà móxíng nèizài de quēxiàn) 음... 이론적으로 말하자면, 이것은 대규모 언어 모델의 내재적인 결함이기 때문에 피할 수 없습니다.
[원문 중국어 문장]: 但 是 呢 實 際 上 其 實 它 也 沒 那 麼 嚴 重 因 為 我 們 其 實 每 個 人 都 知 道 對 抗 樣 本 的 存 在(Dànshì ne shíjì shàng qíshí tā yě méi nàme yánzhòng yīnwèi wǒmen qíshí měigè rén dōu zhīdào duìkàng yàngběn de cúnzài) 하지만 실제로는 그렇게 심각하지 않습니다. 왜냐하면 우리 모두가 적대적 예시의 존재를 알고 있기 때문입니다.
[원문 중국어 문장]: 所 以 呢 大 部 分 的 AI 應 用 都 會 做 非 常 多 的 AI 的 加 強 也 會 對 於 輸 入 惡 意 的 輸 入 做 出 非 常 嚴 格 的 檢 所 以 實 際 上 還 好(Suǒyǐ ne dà bùfèn de AI yìngyòng dōu huì zuò fēicháng duō de AI de jiāqiáng yě huì duìyú shūrù èyì de shūrù zuòchū fēicháng yángé de jiǎn suǒyǐ shíjì shàng háihǎo) 그래서 대부분의 AI 애플리케이션은 굉장히 많은 AI 강화 조치를 취하며, 악의적인 입력에 대해 매우 엄격한 검사를 합니다. 따라서 실제로는 괜찮습니다.
[원문 중국어 문장]: 但 是 即 使 輸 入 完 全 沒 有 任 何 惡 意 最 後 還 是 有 AI 產 品 出 了 一 些 試 故 出 世 的(Dànshì jíshǐ shūrù wánquán méiyǒu rènhé èyì zuìhòu háishì yǒu AI chǎnpǐn chū le yīxiē shìgù chū shì de) 하지만 입력에 악의가 전혀 없었음에도 불구하고, 결국 사고를 일으킨 AI 제품들이 있었습니다.
[원문 중국어 문장]: 這 個 人 叫 Google 2015 年 的 時 候 有 一 個 美 國 的 黑 人 小 哥 他 把 他 和 他 的 字 拍 照 發 到 了 Google 的 Google Photo 的 應 用 上(Zhègè rén jiào Google 2015 nián de shíhòu yǒu yīgè Měiguó de hēirén xiǎogē tā bǎ tā hé tā de zì pāizhào fā dào le Google de Google Photo de yìngyòng shàng) 이 사람이 바로 Google입니다. 2015년에 한 미국의 흑인 남성이 자신과 친구의 사진을 Google의 Google Photo 앱에 올렸습니다.
[원문 중국어 문장]: Google 的 AI 把 他 打 了 個 標 籤 叫 大 猩 猩 賀 這 美 國 是 天 大 的 事 情 所 以 Google 還 是 花 了 一 些 成 本 去 擺 平 了 這 件 事 情(Google de AI bǎ tā dǎ le gè biāoqīan jiào dà xīngxīng hè zhè Měiguó shì tiāndà de shìqíng suǒyǐ Google háishì huā le yīxiē chéngběn qù bǎipíng le zhè jiàn shìqíng) Google의 AI는 그에게 **'고릴라(大猩猩)'**라는 태그를 붙였습니다. 이것은 미국에서는 엄청나게 큰일이어서, Google은 이 문제를 해결하기 위해 많은 비용을 들여야 했습니다.
[원문 중국어 문장]: 大 家 可 以 猜 一 猜 啊 Google 最 後 產 品 上 是 怎 麼 解 決 這 個 問 題 猜 一 猜 我 可 以 介 紹 答 案 了(Dàjiā kěyǐ cāi yī cāi ā Google zuìhòu chǎnpǐn shàng shì zěnme jiějué zhègè wèntí cāi yī cāi wǒ kěyǐ jièshào dá'àn le) 여러분은 Google이 이 문제를 제품상에서 최종적으로 어떻게 해결했는지 추측해 볼 수 있습니다. 맞춰보세요. 제가 답을 알려드릴 수 있습니다.
[원문 중국어 문장]: 就 是 也 沒 有 那 麼 沒 有 那 麼 麻 煩 沒 有 什 麼 高 深 的 技 術 Google 的 把 大 性 這 個 標 籤 扔 掉 了 本 來 也 是 嘛 你 一 個 美 國 的 相 冊 軟 件 幹 嘛 要 大 清 醒(Jiùshì yě méiyǒu nàme méiyǒu nàme máfan méiyǒu shénme gāoshēn de jìshù Google de bǎ dà xìng zhègè biāoqīan rēng diào le běnlái yě shì ma nǐ yīgè Měiguó de xiàngcè ruǎnjiàn gànmá yào dà qīngxǐng) 바로, 그렇게 복잡하지 않았습니다. 대단히 심오한 기술은 없었고, Google은 그냥 **'고릴라'**라는 태그를 없애버렸습니다. 원래도 그렇지 않습니까? 미국 사진첩 소프트웨어에 '고릴라' 태그가 왜 필요하겠어요?
[원문 중국어 문장]: Google 出 了 事 後 來 亞 馬 遜 也 出 了 個 小 事 有 一 個 記 者 發 現 亞 馬 遜 的 招 聘 部 門 要 有 AI 去 幫 他 篩 簡 歷(Google chū le shì hòulái Yǎmǎxùn yě chū le gè xiǎoshì yǒu yīgè jìzhě fāxiàn Yǎmǎxùn de zhāopìn bùmén yào yǒu AI qù bāng tā shāi jiǎnlì) Google에서 사고가 난 후, 나중에 Amazon에서도 작은 문제가 발생했습니다. 한 기자가 Amazon 채용 부서에서 AI를 사용하여 이력서를 심사한다는 것을 발견했습니다.
[원문 중국어 문장]: 他 發 現 呢 亞 馬 遜 用 的 這 個 AI 只 要 看 到 簡 力 裡 面 有 女 性 這 個 字 樣 直 接 會 把 它 pass 掉 這 性 別 歧 士 也 很 糟 糕 也 很 糟 糕 被 爆 了(Tā fāxiàn ne Yǎmǎxùn yòng de zhègè AI zhǐyào kàndào jiǎnlì lǐmiàn yǒu nǚxìng zhègè zìyàng zhíjiē huì bǎ tā pass diào zhè xìngbié qíshì yě hěn zāogāo yě hěn zāogāo bèi bào le) 그는 Amazon이 사용하는 이 AI가 이력서에 **'여성'**이라는 단어가 보이면 **바로 탈락시킨다(pass off)**는 것을 발견했습니다. 이 성차별 문제도 매우 심각했고, 결국 폭로되었습니다.
[원문 중국어 문장]: 所 以 這 個 問 題 就 來 了 那 麼 AI 的 偏 見 as 到 底 是 怎 麼 來 的 ?(Suǒyǐ zhègè wèntí jiù lái le nàme AI de piānjiàn as dàodǐ shì zěnme lái de?) 그래서 이러한 질문이 생깁니다. AI의 **편향(Bias)**은 도대체 어디서 오는 것일까요?
[원문 중국어 문장]: 我 們 先 從 技 術 上 給 技 術 上 說 它 是 由 模 型 的 缺 陷 不 完 美 的 數 據 和 一 些 其 他 的 因 素 很 複 雜 共 同 導 致 的(Wǒmen xiān cóng jìshù shàng gěi jìshù shàng shuō tā shì yóu móxíng de quēxiàn bù wánměi de shùjù hé yīxiē qítā de yīnsù hěn fùzá gòngtóng dǎozhì de) 먼저 기술적인 관점에서 이야기해 봅시다. 기술적으로는 모델의 결함, 불완전한 데이터, 그리고 기타 매우 복잡한 요인들이 공동으로 초래한 것입니다.
[원문 중국어 문장]: 我 們 下 面 跟 大 家 仔 細 來 說 一 說 我 們 先 說 說 模 型 的 缺 陷 用 術 語 來 說 這 個 叫 大 模 型 的 過 度 自 信 現 象 overcfidence(Wǒmen xiān shuōshuō móxíng de quēxiàn yòng shùyǔ láishuō zhègè jiào dà móxíng de guòdù zìxìn xiànxiàng overcfidence) 아래에서 여러분과 자세히 이야기해 봅시다. 먼저 모델의 결함에 대해 이야기해 보겠습니다. 전문 용어로는 이것을 **대규모 언어 모델의 과도한 자신감 현상(Overconfidence)**이라고 부릅니다.
[원문 중국어 문장]: 那 什 麼 是 過 度 自 信 現 象 ? 我 們 先 來 講 一 下 大 模 型 的 自 信 度(Nà shénme shì guòdù zìxìn xiànxiàng? Wǒmen xiān lái jiǎng yīxià dà móxíng de zìxìndù) 그렇다면 과도한 자신감 현상은 무엇일까요? 먼저 LLM의 자신감(Confidence) 정도에 대해 이야기해 봅시다.
[원문 중국어 문장]: 我 想 大 家 應 該 很 熟 悉 經 常 會 看 到 一 個 AI 模 型 說 這 張 圖 片 我 覺 得 90% 的 概 率 是 狗 這 張 圖 片 我 覺 得 90% 的 概 率 是 貓 所 以 這 個 多 少 的 這 個 數 就 是 大 模 型 的 自 信 度(Wǒ xiǎng dàjiā yīnggāi hěn shúxī jīngcháng huì kàndào yīgè AI móxíng shuō zhè zhāng túpiàn wǒ juéde 90% de gàilǜ shì gǒu zhè zhāng túpiàn wǒ juéde 90% de gàilǜ shì māo suǒyǐ zhègè duōshǎo de zhègè shù jiùshì dà móxíng de zìxìndù) 여러분은 아마 익숙하실 겁니다. AI 모델이 "이 사진은 90% 확률로 개라고 생각합니다", "이 사진은 90% 확률로 고양이라고 생각합니다"라고 말하는 것을 자주 보셨을 겁니다. 이 '몇 퍼센트'라는 숫자가 바로 LLM의 자신감 정도입니다.
[원문 중국어 문장]: 怎 麼 理 解 這 件 事 呢 ? 理 想 狀 態 下 如 果 一 個 大 模 型 說 我 有 九 成 的 概 率 說 這 張 圖 片 是 狗 那 麼 我 們 所 期 待 的 其 實 是 如 果 我 給 這 個 模 型 大 概 類 似 的 100 張 照 片 那 麼 它 應 該 有 90 次 說 對(Zěnme lǐjiě zhè jiàn shì ne? Lǐxiǎng zhuàngtài xià rúguǒ yīgè dà móxíng shuō wǒ yǒu jiǔ chéng de gàilǜ shuō zhè zhāng túpiàn shì gǒu nàme wǒmen suǒ qīdài de qíshí shì rúguǒ wǒ gěi zhègè móxíng dàgài lèisì de 100 zhāng zhàopiàn nàme tā yīnggāi yǒu 90 cì shuō duì) 이것을 어떻게 이해해야 할까요? 이상적인 상태에서, LLM이 "이 사진이 개일 확률은 90%이다"라고 말한다면, 우리가 기대하는 것은 이 모델에게 대략 유사한 100장의 사진을 주었을 때 90번을 맞혀야 한다는 것입니다.
[원문 중국어 문장]: 所 以 理 想 的 AI 的 自 信 度 其 實 它 的 意 思 是 實 際 正 確 率 應 該 這 兩 個 事 應 該 比 較 接 近 才 對(Suǒyǐ lǐxiǎng de AI de zìxìndù qíshí tā de yìsi shì shíjì zhèngquè lǜ yīnggāi zhè liǎng gè shì yīnggāi bǐjiào jiējìn cái duì) 따라서 이상적인 AI의 자신감 정도는 사실 실제 정확도와 비슷해야 합니다.
[원문 중국어 문장]: 那 麼 AI 實 際 上 是 不 是 這 樣 ? 過 去 的 AI 是 這 樣(Nàme AI shíjì shàng shì bu shì zhèyàng? Guòqù de AI shì zhèyàng) 그렇다면 실제 AI는 어떨까요? 과거의 AI는 그랬습니다.
[원문 중국어 문장]: 這 裡 我 放 出 了 一 個 1996 年 最 有 名 的 AI 模 型 叫 LNET 上 面 這 張 圖 呢 是 Lnet 這 個 模 型 在 輸 出 不 同 自 信 度 的 時 候 它 在 不 同 數 據 上 的 統 計 的 頻 率(Zhèlǐ wǒ fàng chū le yīgè 1996 nián zuì yǒumíng de AI móxíng jiào LNet shàngmiàn zhè zhāng tú ne shì LNet zhègè móxíng zài shūchū bùtóng zìxìndù de shíhòu tā zài bùtóng shùjù shàng de tǒngjì de pínlǜ) 여기에 제가 1996년에 가장 유명했던 AI 모델인 LeNet을 가져왔습니다. 위에 있는 그림은 LeNet 모델이 서로 다른 데이터에 대해 서로 다른 자신감 정도를 출력할 때의 통계적 빈도입니다.
[원문 중국어 문장]: 那 麼 下 面 這 張 圖 的 話 它 的 橫 軸 是 自 行 度 Y 軸 是 它 的 正 確 率 基 本 上 你 可 以 看 到 是 一 個 正 比 關 係(Nàme xiàmiàn zhè zhāng tú de huà tā de héngzhóu shì zì xíngdù Y zhóu shì tā de zhèngquè lǜ jīběn shàng nǐ kěyǐ kàndào shì yīgè zhèngbǐ guānxì) 아래 그림의 경우, X축은 자신감 정도이고 Y축은 정확도인데, 기본적으로 정비례 관계임을 알 수 있습니다.
[원문 중국어 문장]: 如 果 你 仔 細 看 的 話 我 們 把 這 個 80% 自 信 度 的 這 條 線 拿 出 來 你 會 發 現 當 et 說 它 有 80% 自 信 的 時 候 其 實 它 有 95% 的 正 確 率(Rúguǒ nǐ zǐxì kàn de huà wǒmen bǎ zhègè 80% zìxìndù de zhè tiáo xiàn ná chūlái nǐ huì fāxiàn dāng et shuō tā yǒu 80% zìxìn de shíhòu qíshí tā yǒu 95% de zhèngquè lǜ) 만약 당신이 자세히 본다면, 우리가 80% 자신감의 선을 꺼내 보면, LeNet이 80% 자신감을 가졌을 때 실제로는 95%의 정확도를 가지고 있다는 것을 발견할 것입니다.
[원문 중국어 문장]: 再 去 看 它 的 分 佈 的 話 你 會 發 現 甚 至 LN 它 這 個 模 型 會 傾 向 無 自 信 一 點(Zài qù kàn tā de fēnbù de huà nǐ huì fāxiàn shènzhì LN tā zhègè móxíng huì qīngxiàng wú zìxìn yīdiǎn) 그 분포를 다시 살펴보면, 심지어 LeNet 모델은 약간 자신이 없는 경향이 있다는 것을 알게 될 것입니다.
[원문 중국어 문장]: 什 麼 意 思 呢 ? 也 就 是 AI 說 八 成 把 握 大 概 它 一 定 能 做 對 吧(Shénme yìsi ne? Yějiù shì AI shuō bā chéng bǎwò dàgài tā yīdìng néng zuò duì ba) 무슨 뜻일까요? 즉, AI가 80% 확신한다고 말하면 거의 확실히 맞는다는 것입니다.
[원문 중국어 문장]: 所 以 這 個 AI 雖 然 有 點 笨 但 是 它 挺 靠 譜(Suǒyǐ zhègè AI suīrán yǒudiǎn bèn dànshì tā tǐng kàopǔ) 그래서 이 AI는 비록 조금 멍청할지라도 상당히 신뢰할 만합니다.
[원문 중국어 문장]: 好 20 年 之 後 我 們 來 看 一 看 20 年 之 後 2016 年 最 好 的 AI 它 叫 RNET ResnetNet 是 一 個 非 常 非 常 有 名 的 工 作 它 是 21 世 紀 至 今 引 用 最 高 的 論 文(Hǎo 20 nián zhīhòu wǒmen lái kàn yī kàn 20 nián zhīhòu 2016 nián zuì hǎo de AI tā jiào RNet ResNet shì yīgè fēicháng fēicháng yǒumíng de gōngzuò tā shì 21 shìjì zhì jīn yǐnyòng zuì gāo de lùnwén) 좋습니다. 20년 후를 봅시다. 2016년 최고의 AI는 ResNet이라고 불립니다. ResNet은 매우 유명한 연구이며, 21세기 현재까지 인용 횟수가 가장 높은 논문입니다.
[원문 중국어 문장]: RESNET 更 大 也 更 強 但 是 大 家 如 果 觀 察 一 下 兩 個 圖 表 會 發 現 好 像 有 一 些 不 一 樣 了(ResNet gèng dà yě gèng qiáng dànshì dàjiā rúguǒ guānchá yīxià liǎng gè túbiǎo huì fāxiàn hǎoxiàng yǒu yīxiē bù yīyàng le) ResNet은 더 크고 더 강력합니다. 하지만 두 차트를 비교해 보면 뭔가 달라진 것을 발견할 수 있습니다.
[원문 중국어 문장]: 我 們 還 是 看 一 下 80% 自 信 度 的 時 候 RESNET 的 輸 80% 自 信 的 時 候 Resonnet 其 實 只 有 50% 的 正 確 率(Wǒmen háishì kàn yīxià 80% zìxìndù de shíhòu ResNet de shū 80% zìxìn de shíhòu ResNet qíshí zhǐyǒu 50% de zhèngquè lǜ) 우리가 여전히 80% 자신감일 때를 보면, ResNet이 80% 확신한다고 말했을 때 실제 정확도는 50%에 불과합니다.
[원문 중국어 문장]: 所 以 對 於 resonnet 來 說 自 信 度 遠 遠 大 於 它 的 實 際 正 確 率(Suǒyǐ duìyú ResNet láishuō zìxìndù yuǎnyuǎn dàyú tā de shíjì zhèngquè lǜ) 따라서 ResNet에게는 자신감 정도가 실제 정확도보다 훨씬 높습니다.
[원문 중국어 문장]: 我 們 再 看 它 的 分 佈 我 們 會 發 現 有 60% 的 時 候 ron 直 接 會 說 我 百 自 信(Wǒmen zài kàn tā de fēnbù wǒmen huì fāxiàn yǒu 60% de shíhòu ron zhíjiē huì shuō wǒ bǎi zìxìn) 그 분포를 다시 살펴보면, 60%의 경우 ResNet이 **"100% 확신한다"**고 말한다는 것을 발견할 것입니다.
[원문 중국어 문장]: 這 就 有 一 點 不 太 靠 譜 了 對 吧 ? 因 為 這 個 大 模 型 會 過 度 自 信(Zhè jiù yǒu yīdiǎn bù tài kàopǔ le duì ba? Yīnwèi zhègè dà móxíng huì guòdù zìxìn) 이것은 조금 신뢰할 수 없는 일입니다. 왜냐하면 이 LLM은 과도하게 자신만만하기 때문입니다.
[원문 중국어 문장]: 所 以 從 技 術 上 說 所 謂 的 偏 見 bias 就 是 在 特 定 的 比 如 性 別 種 族 場 景 下 大 模 型 的 過 度 自 信 現 象(Suǒyǐ cóng jìshù shàng shuō suǒwèi de piānjiàn bias jiùshì zài tèdìng de bǐrú xìngbié zhǒngzú chǎngjǐng xià dà móxíng de guòdù zìxìn xiànxiàng) 따라서 기술적으로 말하자면, 소위 **편향(Bias)**이란 특정 상황, 예를 들어 성별이나 인종과 같은 상황에서 발생하는 LLM의 과도한 자신감 현상입니다.
[원문 중국어 문장]: 我 還 想 說 這 個 偏 見 這 件 事 其 實 非 常 非 常 普 遍 在 AI 領 域 其 實 不 止 於 性 別 不 止 於 種 族(Wǒ hái xiǎng shuō zhègè piānjiàn zhè jiàn shì qíshí fēicháng fēicháng pǔbiàn zài AI lǐngyù qíshí bù zhǐ yú xìngbié bù zhǐ yú zhǒngzú) 저는 이 편향 문제가 AI 분야에서 성별이나 인종에 국한되지 않고 매우매우 흔하다는 것을 말씀드리고 싶습니다.
[원문 중국어 문장]: 我 講 一 個 我 們 團 隊 的 一 個 小 的 研 究 啊 我 們 讓 大 模 型 GPT4 去 玩 石 頭 剪 刀 部 遊 戲(Wǒ jiǎng yīgè wǒmen tuánduì de yīgè xiǎo de yánjiū ā wǒmen ràng dà móxíng GPT-4 qù wán shítou jiǎndāobù yóuxì) 우리 연구팀의 작은 연구 하나를 이야기해 드리겠습니다. 우리는 LLM인 GPT-4에게 가위바위보 게임을 시켰습니다.
[원문 중국어 문장]: 這 麼 簡 單 個 遊 戲 這 麼 聰 明 的 AI 了 吧 所 以 我 寫 了 一 個 prompt 我 說 AI 你 現 在 玩 個 收 簡 單 部 的 遊 戲 你 選 一 個 吧(Zhème jiǎndān gè yóuxì zhème cōngmíng de AI le ba suǒyǐ wǒ xiě le yīgè prompt wǒ shuō AI nǐ xiànzài wán gè shōu jiǎndāobù de yóuxì nǐ xuǎn yīgè ba) 이렇게 간단한 게임, 이렇게 똑똑한 AI라면 할 수 있겠죠? 그래서 저는 프롬프트를 작성하여 "AI야, 가위바위보 게임을 할 건데, 네 것을 선택해 봐"라고 말했습니다.
[원문 중국어 문장]: 這 個 AI 想 了 一 會 說 我 知 道 這 個 遊 戲 應 該 以 三 分 一 的 概 率 選 不 三 分 一 概 率 選 時 三 分 一 概 率 選 剪 刀 所 以 AI 確 實 挺 聰 明 它 會(Zhègè AI xiǎng le yīhuǐ shuō wǒ zhīdào zhègè yóuxì yīnggāi yǐ sānfēn yī de gàilǜ xuǎn bù sānfēn yī gàilǜ xuǎn shí sānfēn yī gàilǜ xuǎn jiǎndāo suǒyǐ AI quèshí tǐng cōngmíng tā huì) AI는 잠시 생각하더니 "저는 이 게임에서 3분의 1 확률로 보를, 3분의 1 확률로 바위를, 3분의 1 확률로 가위를 내야 한다는 것을 알고 있습니다"라고 말했습니다. AI는 정말 똑똑해서 방법을 압니다.
[원문 중국어 문장]: 但 是 如 果 你 讓 這 個 AI 玩 100 次 這 個 遊 戲 你 做 一 下 統 計 你 會 驚 訝 的 發 現 它 有 三 分 2 的 概 率 會 出 石 透 幾 乎 不 出(Dànshì rúguǒ nǐ ràng zhègè AI wán 100 cì zhègè yóuxì nǐ zuò yīxià tǒngjì nǐ huì jīngyà de fāxiàn tā yǒu sānfēn èr de gàilǜ huì chū shítou jīhū bù chū) 하지만 만약 당신이 이 AI에게 이 게임을 100번 시키고 통계를 내본다면, 당신은 놀랍게도 3분의 2의 확률로 바위를 내고, 보와 가위는 거의 내지 않는다는 것을 발견할 것입니다.
[원문 중국어 문장]: 所 以 這 是 一 個 愛 出 石 透 的 GPT 是 一 個 口 試 心 非 的 AI(Suǒyǐ zhè shì yīgè ài chū shítou de GPT shì yīgè kǒushì xīnfēi de AI) 따라서 이 GPT는 바위를 내기 좋아하는 겉과 속이 다른 AI입니다.
[원문 중국어 문장]: 所 以 我 想 說 即 使 在 這 麼 簡 單 一 個 人 處 無 害 的 遊 戲 上 依 然 會 看 到 過 度 自 信 現 象(Suǒyǐ wǒ xiǎng shuō jíshǐ zài zhème jiǎndān yīgè rén chǔ wú hài de yóuxì shàng yīrán huì kàndào guòdù zìxìn xiànxiàng) 그래서 저는 이렇게 간단하고 무해한 게임에서도 여전히 과도한 자신감 현상을 볼 수 있다는 것을 말씀드리고 싶습니다.
[원문 중국어 문장]: 好 我 們 稍 微 想 一 下 這 件 大 模 型 玩 石 頭 剪 刀 部 喜 歡 出 石 頭 為 什 麼 偏 偏 是 石 頭 ?(Hǎo wǒmen shāowēi xiǎng yīxià zhè jiàn dà móxíng wán shítou jiǎndāobù xǐhuān chū shítou wèishénme piānpiān shì shítou?) 자, LLM이 가위바위보를 할 때 왜 하필 바위를 내기 좋아했는지 잠시 생각해 봅시다.
[원문 중국어 문장]: 他 為 啥 不 喜 歡 出 剪 刀 呢 ?(Tā wéi shá bù xǐhuān chū jiǎndāo ne?) 왜 가위는 내기 싫어할까요?
[원문 중국어 문장]: 原 因 很 簡 單 因 為 在 英 語 中 rck 一 個 詞 的 頻 率 它 就 是 大 於 paper 並 且 遠 遠 大 於 seas 這 個 詞(Yuányīn hěn jiǎndān yīnwèi zài Yīngyǔ zhōng rock yīgè cí de pínlǜ tā jiùshì dàyú paper bìngqiě yuǎnyuǎn dàyú seas zhègè cí) 이유는 매우 간단합니다. 영어에서 rock이라는 단어의 빈도가 paper보다 높고 scissors라는 단어보다 훨씬 높기 때문입니다.
[원문 중국어 문장]: 所 以 大 模 型 就 喜 歡 rock 咯(Suǒyǐ dà móxíng jiù xǐhuān rock gē) 그래서 LLM은 rock(바위)을 좋아하는 것입니다.
[원문 중국어 문장]: 所 以 我 想 說 的 是 數 據 其 實 是 產 生 偏 見 的 根 本 原 因(Suǒyǐ wǒ xiǎng shuō de shì shùjù qíshí shì chǎnshēng piānjiàn de gēnběn yuányīn) 그래서 제가 말하고 싶은 것은 데이터가 사실상 편향을 생성하는 근본적인 원인이라는 것입니다.
[원문 중국어 문장]: 所 以 下 面 我 就 跟 大 家 聊 一 聊 數 據 的 事 還 是 回 到 自 動 駕 駛 的 例 子(Suǒyǐ xiàmiàn wǒ jiù gēn dàjiā liáo yī liáo shùjù de shì háishì huí dào zìdòng jiàshǐ de lìzi) 그러니 이제 여러분과 데이터에 대한 이야기를 해보겠습니다. 다시 자율 주행의 예로 돌아갑시다.
[원문 중국어 문장]: 自 動 駕 駛 的 問 題 中 間 有 一 個 非 常 重 要 的 挑 戰 叫 做 copy cat problem(Zìdòng jiàshǐ de wèntí zhōngjiān yǒu yīgè fēicháng zhòngyào de tiǎozhàn jiàozuò copy cat problem) 자율 주행 문제 중에는 Copy Cat Problem이라고 불리는 매우 중요한 도전 과제가 있습니다.
[원문 중국어 문장]: 假 設 我 們 收 集 了 很 多 人 開 車 的 數 據 我 們 希 望 用 這 些 數 據 訓 練 一 個 開 車 的 AI(Jiǎshè wǒmen shōují le hěn duō rén kāichē de shùjù wǒmen xīwàng yòng zhèxiē shùjù xùnliàn yīgè kāichē de AI) 우리가 많은 사람들이 운전하는 데이터를 수집했고, 이 데이터를 사용하여 운전하는 AI를 훈련시키고 싶다고 가정해 봅시다.
[원문 중국어 문장]: 那 麼 人 的 數 據 其 實 有 一 個 特 點 一 個 好 的 司 機 它 其 實 踩 剎 車 和 踩 油 門 的 這 個 變 化 不 會 太 多 你 不 應 該 經 常 的 踩 剎 車 踩 油 門(Nàme rén de shùjù qíshí yǒu yīgè tèdiǎn yīgè hǎo de sījī tā qíshí cǎi shāchē hé cǎi yóumén de zhègè biànhuà bù huì tài duō nǐ bù yīnggāi jīngcháng de cǎi shāchē cǎi yóumén) 사람의 데이터에는 특징이 있습니다. 훌륭한 운전자는 사실 브레이크와 가속 페달을 밟는 변화가 그리 많지 않습니다. 자주 브레이크를 밟거나 가속 페달을 밟아서는 안 됩니다.
[원문 중국어 문장]: 所 以 大 部 分 的 人 類 好 的 司 機 的 開 車 數 據 絕 大 數 值 情 況 下 每 一 秒 的 動 作 和 上 一 秒 是 一 樣 的(Suǒyǐ dà bùfèn de rénlèi hǎo de sījī de kāichē shùjù juédà shùzhí qíngkuàng xià měi yī miǎo de dòngzuò hé shàng yī miǎo shì yīyàng de) 그래서 대부분의 훌륭한 인간 운전자의 운전 데이터는 절대다수의 상황에서 매 순간의 동작이 이전 순간과 동일합니다.
[원문 중국어 문장]: 所 以 如 果 你 把 這 個 數 據 上 AI 去 學 AI 很 容 易 學 到 一 個 copy Cat strategy 叫 我 看 一 下 上 一 幀 我 什 麼 動 作 這 一 幀 我 還 做 一 樣 的(Suǒyǐ rúguǒ nǐ bǎ zhègè shùjù shàng AI qù xué AI hěn róngyì xué dào yīgè Copy Cat strategy jiào wǒ kàn yīxià shàng yī zhēn wǒ shénme dòngzuò zhè yī zhēn wǒ hái zuò yīyàng de) 그래서 만약 이 데이터를 AI에게 학습시킨다면, AI는 **"이전 프레임에서 내가 무슨 동작을 했는지 보고, 이번 프레임에서도 똑같이 한다"**는 Copy Cat 전략을 배우기 매우 쉽습니다.
[원문 중국어 문장]: 這 樣 的 策 略 會 帶 來 很 高 的 正 確 率 但 這 事 會 帶 來 一 些 問 題(Zhèyàng de cèlüè huì dàilái hěn gāo de zhèngquè lǜ dàn zhè shì huì dàilái yīxiē wèntí) 이러한 전략은 매우 높은 정확도를 가져오지만, 일부 문제를 일으킬 수 있습니다.
[원문 중국어 문장]: 比 如 說 紅 綠 燈 從 紅 燈 變 成 了 綠 燈 的 那 麼 你 應 該 鬆 開 剎 車 踩 油 門 但 是 一 個 copy cat 的 AI 就 會 說 那 我 接 著 踩 剎 車 吧 這 就 帶 來 了 一 些 問 題(Bǐrú shuō hónglǜdēng cóng hóngdēng biànchéng le lǜdēng de nàme nǐ yīnggāi sōngkāi shāchē cǎi yóumén dànshì yīgè Copy Cat de AI jiù huì shuō nà wǒ jiēzhe cǎi shāchē ba zhè jiù dàilái le yīxiē wèntí) 예를 들어, 신호등이 빨간불에서 초록불로 바뀌었다면, 당신은 브레이크를 풀고 가속 페달을 밟아야 합니다. 하지만 Copy Cat AI는 **"그럼 계속 브레이크를 밟아야지"**라고 말할 것이고, 이는 문제를 일으킵니다.
[원문 중국어 문장]: 我 們 再 看 一 個 例 子 這 個 例 子 是 一 個 給 圖 片 打 標 籤 的 AI(Wǒmen zài kàn yīgè lìzi zhègè lìzi shì yīgè gěi túpiàn dǎ biāoqīan de AI) 다른 예를 하나 더 봅시다. 이 예는 이미지에 태그를 붙이는 AI입니다.
[원문 중국어 문장]: 有 研 圈 團 隊 發 現 這 個 AI 只 要 看 到 圖 片 是 做 菜 這 個 場 景 就 自 動 或 者 以 極 大 的 概 率 把 這 個 標 籤 打 成 女 性 即 使 這 個 途 中 真 的 是 一 個 大 佬 們 的 做(Yǒu yán quān tuánduì fāxiàn zhègè AI zhǐyào kàndào túpiàn shì zuò cài zhègè chǎngjǐng jiù zìdòng huòzhě yǐ jídà de gàilǜ bǎ zhègè biāoqīan dǎchéng nǚxìng jíshǐ zhègè tú zhōng zhēnde shì yīgè dàlǎomén de zuò) 연구팀은 이 AI가 이미지가 요리하는 장면임을 보면, 설령 사진 속의 사람이 정말로 대단한 남성일지라도, 자동으로 또는 극히 높은 확률로 '여성'이라는 태그를 붙인다는 것을 발견했습니다.
[원문 중국어 문장]: 這 是 為 什 麼 呢 ? 原 因 很 簡 單 因 為 確 實 在 訓 練 數 據 中 做 飯 場 景 下 大 部 分 都 是 女 性 在 做 飯(Zhè shì wèishénme ne? Yuányīn hěn jiǎndān yīnwèi quèshí zài xùnliàn shùjù zhōng zuò fàn chǎngjǐng xià dà bùfèn dōu shì nǚxìng zài zuò fàn) 왜일까요? 이유는 간단합니다. 실제로 훈련 데이터에서 요리하는 장면의 대부분은 여성이 요리하는 모습이었기 때문입니다.
[원문 중국어 문장]: 所 以 這 個 大 模 型 又 學 會 了 一 個 偷 懶 的 策 略 說 哦 那 不 如 看 到 做 飯 表 女 性(Suǒyǐ zhègè dà móxíng yòu xuéhuì le yīgè tōulǎn de cèlüè shuō ó nà bùrú kàndào zuò fàn biǎo nǚxìng) 그래서 이 LLM은 또 다른 게으른 전략을 배웠습니다. "아, 그럼 요리하는 걸 보면 여성이라고 태그하자"라는 것입니다.
[원문 중국어 문장]: 所 以 有 人 就 想 了 那 是 不 是 有 可 能 我 們 對 這 個 數 據 做 一 些 處 理 我 們 把 這 個 這 個 性 別 或 者 別 的 什 麼 因 素 把 它 平 均 一 下 讓 它 分 佈 比 較 完 產 生 一 個 完 美 的 訓 練 數 據 訓 練 一 個 沒 有 偏 見 的 AI(Suǒyǐ yǒurén jiù xiǎng le nà shì bùshì yǒu kěnéng wǒmen duì zhègè shùjù zuò yīxiē chǔlǐ wǒmen bǎ zhègè zhègè xìngbié huòzhě bié de shénme yīnsù bǎ tā píngjūn yīxià ràng tā fēnbù bǐjiào wán chǎnshēng yīgè wánměi de xùnliàn shùjù xùnliàn yīgè méiyǒu piānjiàn de AI) 그래서 어떤 사람들은 이렇게 생각했습니다. "이 데이터를 좀 처리해서, 성별이나 다른 요인들을 평균화하고 분포를 비교적 완벽하게 만들어서, 편향 없는 AI를 훈련시킬 수 있는 완벽한 훈련 데이터를 만들 수 있지 않을까?"
[원문 중국어 문장]: 比 如 說 對 於 亞 馬 遜 簡 力 這 個 事 我 們 可 以 做 一 件 事 就 是 嚴 鏡 簡 力 中 出 現 性 別 資 樣 這 樣 會 不 會 有 用 ?(Bǐrú shuō duìyú Yǎmǎxùn jiǎnlì zhègè shì wǒmen kěyǐ zuò yī jiàn shì jiùshì yán jìng jiǎnlì zhōng chūxiàn xìngbié zīyàng zhèyàng huì bù huì yǒuyòng?) 예를 들어, Amazon 이력서 문제에 대해서는 이력서에 성별 정보가 나타나는 것을 엄격히 금지하는 조치를 취할 수 있습니다. 이것이 유용할까요?
[원문 중국어 문장]: 會 有 用 但 是 呢 也 沒 那 麼 有 用 為 什 麼 ?(Huì yǒuyòng dànshì ne yě méi nàme yǒuyòng wèishénme?) 도움이 될 것입니다. 하지만 그다지 큰 도움은 되지 않을 것입니다. 왜냐하면,
[원문 중국어 문장]: 其 實 你 看 人 的 名 字 你 大 概 率 能 猜 到 這 個 人 是 男 的 還 是 女 的(Qíshí nǐ kàn rén de míngzi nǐ dàgàilǜ néng cāi dào zhègè rén shì nán de háishì nǚ de) 사실 당신은 사람의 이름을 보고 이 사람이 남자인지 여자인지 높은 확률로 추측할 수 있기 때문입니다.
[원문 중국어 문장]: 再 回 到 這 個 這 個 給 人 打 這 個 圖 片 打 標 籤 的 AI 有 研 究 團 隊 說 那 這 樣 我 把 圖 片 中 所 有 的 人 臉 信 息 都 去 掉 這 樣 的 話 我 們 就 可 以 避 免 模 型 學 到 這 個 性 別 的 偏 見(Zài huí dào zhègè zhègè gěi rén dǎ zhègè túpiàn dǎ biāoqīan de AI yǒu yánjiū tuánduì shuō nà zhèyàng wǒ bǎ túpiàn zhōng suǒyǒu de rénliǎn xìnxī dōu qùdiào zhèyàng de huà wǒmen jiù kěyǐ bìmiǎn móxíng xué dào zhègè xìngbié de piānjiàn) 다시 이미지에 태그를 붙이는 AI 문제로 돌아가서, 한 연구팀은 "그렇다면 사진 속의 모든 얼굴 정보를 제거하면 모델이 이 성별 편향을 학습하는 것을 피할 수 있을 것이다"라고 말했습니다.
[원문 중국어 문장]: 這 樣 有 用 嗎 ? 有 用 但 是 呢 也 沒 那 麼 有 用 因 為 基 本 上 你 通 過 穿 著 和 身 材 還 是 會 暴 露 出 你 的 性 別(Zhèyàng yǒuyòng ma? Yǒuyòng dànshì ne yě méi nàme yǒuyòng yīnwèi jīběn shàng nǐ tōngguò chuānzhuó hé shēncái háishì huì bàolù chū nǐ de xìngbié) 이것이 유용할까요? 도움이 될 것입니다. 하지만 그다지 큰 도움은 되지 않을 것입니다. 왜냐하면 기본적으로 당신은 옷차림과 체형을 통해 여전히 당신의 성별이 노출될 것이기 때문입니다.
[원문 중국어 문장]: 斯 坦 福 大 學 的 研 究 者 呢 收 集 了 人 類 過 去 100 年 的 公 開 出 版 物 他 們 做 了 個 研 究 定 義 了 一 個 詞 叫 woman bias(Sītǎnfú Dàxué de yánjiūzhě ne shōují le rénlèi guòqù 100 nián de gōngkāi chūbǎnwù tāmen zuò le gè yánjiū dìngyì le yīgè cí jiào woman bias) 스탠퍼드 대학교 연구진은 지난 100년간 인류의 공개 출판물을 수집하여 연구를 수행하고 **"woman bias"**라는 용어를 정의했습니다.
[원문 중국어 문장]: 一 個 詞 的 woman bias 的 意 思 呢 是 經 過 計 算 這 個 詞 和 WAN 這 個 詞 之 間 的 相 關 性(Yīgè cí de woman bias de yìsi ne shì jīngguò jìsuàn zhègè cí hé WOMAN zhègè cí zhījiān de xiāngguānxìng)어떤 단어의 'woman bias'는 계산을 통해 해당 단어와 'WOMAN'이라는 단어 사이의 상관관계를 의미합니다.
[원문 중국어 문장]: 於 是 他 們 畫 了 這 張 圖 這 張 圖 的 橫 軸 是 不 同 職 業 上 女 性 在 這 個 行 業 上 的 從 業 人 數 的 佔 比 Y 軸 呢 是 w(Yúshì tāmen huà le zhè zhāng tú zhè zhāng tú de héngzhóu shì bùtóng zhíyè shàng nǚxìng zài zhègè hángyè shàng de cóngyè rénshù de zhànbǐ Y zhóu ne shì w) 그래서 그들은 이 그래프를 그렸습니다. 이 그래프의 X축은 다양한 직업에서 여성이 해당 산업에 종사하는 비율이고, Y축은 **w(woman bias)**입니다.
[원문 중국어 문장]: 你 會 發 現 這 裡 有 個 很 明 顯 的 正 相 關 係 比 如 說 右 上 角 的 這 個 點 呢 叫 護 使 護 士 確 實 是 一 個 女 性 從 業 者 很 多 的 行 業(Nǐ huì fāxiàn zhèlǐ yǒu gè hěn míngxiǎn de zhèng xiāngguān xì bǐrú shuō yòushàngjiǎo de zhègè diǎn ne jiào hù shǐ hùshi quèshí shì yīgè nǚxìng cóngyèzhě hěn duō de hángyè) 여기서 매우 뚜렷한 양의 상관관계가 있음을 발견할 수 있습니다. 예를 들어, 오른쪽 위 모서리의 점은 간호사인데, 간호사는 실제로 여성 종사자가 많은 직업입니다.
[원문 중국어 문장]: 左 下 角 的 點 呢 叫 機 修 工 那 機 修 工 也 確 實 是 男 性 更 多 嘛(Zuǒ xià jiǎo de diǎn ne jiào jīxiūgōng nà jīxiūgōng yě quèshí shì nánxìng gèng duō ma) 왼쪽 아래 모서리의 점은 정비공인데, 정비공도 실제로 남성이 더 많습니다.
[원문 중국어 문장]: 我 想 說 這 裡 面 反 應 了 一 件 什 麼 事 呢 ? 是 人 類 的 公 開 出 版 文 字 數 據 中 其 實 已 經 包 含 了 女 性 從 業 者 在 這 個 行 業 從 業 比 例 的 這 麼 一 個 信(Wǒ xiǎng shuō zhèlǐmiàn fǎnyìng le yī jiàn shénme shì ne? Shì rénlèi de gōngkāi chūbǎn wénzì shùjù zhōng qíshí yǐjīng bāohán le nǚxìng cóngyèzhě zài zhègè hángyè cóngyè bǐlì de zhème yīgè xìn) 제가 여기서 말하고 싶은 것은 무엇일까요? 이는 인류의 공개 출판 텍스트 데이터 속에 이미 해당 직업에서 여성 종사자가 차지하는 비율이라는 정보가 포함되어 있다는 것을 반영합니다.
[원문 중국어 문장]: 這 個 研 究 團 隊 還 做 了 一 些 別 的 研 究 他 們 把 Woman bias 以 及 所 有 行 業 的 女 性 平 均 從 業 人 數 佔 比 的 這 個 數 據 根 據 年 份 花 了 一 張 曲 線(Zhègè yánjiū tuánduì hái zuò le yīxiē bié de yánjiū tāmen bǎ Woman bias yǐjí suǒyǒu hángyè de nǚxìng píngjūn cóngyè rénshù zhànbǐ de zhègè shùjù gēnjù niánfèn huà le yī zhāng qūxiàn) 이 연구팀은 다른 연구도 진행했습니다. 그들은 Woman bias와 모든 산업의 여성 평균 종사자 비율 데이터를 연도별로 그래프로 그렸습니다.
[원문 중국어 문장]: 你 也 可 以 看 到 非 常 明 顯 的 正 相 關 係 這 說 明 了 什 麼 事 呢 ?(Nǐ yě kěyǐ kàndào fēicháng míngxiǎn de zhèng xiāngguān xì zhè shuōmíng le shénme shì ne?) 여기서도 매우 뚜렷한 양의 상관관계를 볼 수 있습니다. 이것은 무엇을 의미할까요?
[원문 중국어 문장]: 說 明 人 類 的 文 字 數 據 中 也 包 含 了 時 代 以 及 社 會 結 構 的 很 多 很 多 的(Shuōmíng rénlèi de wénzì shùjù zhōng yě bāohán le shídài yǐjí shèhuì jiégòu de hěn duō hěn duō de) 이는 인류의 텍스트 데이터 속에 시대와 사회 구조에 대한 매우 많은 정보가 포함되어 있음을 보여줍니다.
[원문 중국어 문장]: 所 以 其 實 世 界 上 不 存 在 完 美 的 數 據 因 為 數 據 是 從 人 類 社 會 中 來 的 也 是 服 予 人 類 的(Suǒyǐ qíshí shìjiè shàng bù cúnzài wánměi de shùjù yīnwèi shùjù shì cóng rénlèi shèhuì zhōng lái de yě shì fú yǔ rénlèi de) 그래서 사실 세상에는 완벽한 데이터가 존재하지 않습니다. 왜냐하면 데이터는 인간 사회에서 비롯되었고, 인간에게 봉사하기 때문입니다.
[원문 중국어 문장]: 所 以 我 們 不 可 能 完 整 的 把 所 有 人 類 社 會 的 痕 跡 都 取 掉 而 大 模 型 的 過 度 自 信 現 象 又 進 一 步 強 化 了 數 據 中 的 不 完 美(Suǒyǐ wǒmen bù kěnéng wánzhěng de bǎ suǒyǒu rénlèi shèhuì de hénjī dōu qǔ diào ér dà móxíng de guòdù zìxìn xiànxiàng yòu jìnyībù qiánghuà le shùjù zhōng de bù wánměi) 따라서 우리는 인간 사회의 모든 흔적을 완전히 제거할 수 없으며, LLM의 과도한 자신감 현상은 데이터 속의 불완전함을 더욱 강화시킵니다.
[원문 중국어 문장]: 好 說 了 這 麼 多 數 據 的 問 題 我 想 再 跟 大 家 說 的 是 其 實 AI 的 偏 見 呢 也 有 算 法 的 原 因(Hǎo shuō le zhème duō shùjù de wèntí wǒ xiǎng zài gēn dàjiā shuō de shì qíshí AI de piānjiàn ne yě yǒu suànfǎ de yuányīn) 좋습니다. 지금까지 데이터 문제에 대해 많이 이야기했는데, 제가 여러분에게 또 말하고 싶은 것은 사실 AI의 편향에는 알고리즘적 원인도 있다는 것입니다.
[원문 중국어 문장]: 從 技 術 上 講 絕 大 部 分 的 AI 算 法 其 實 從 數 據 中 學 習 的 都 是 相 關 性 而 不 是 因 果 性(Cóng jìshù shàng jiǎng juédà bùfèn de AI suànfǎ qíshí cóng shùjù zhōng xuéxí de dōu shì xiāngguānxìng érbùshì yīnguǒ xìng) 기술적으로 말하자면, 대부분의 AI 알고리즘은 사실 데이터에서 상관관계를 학습할 뿐, 인과관계를 학습하지 않습니다.
[원문 중국어 문장]: 那 什 麼 是 相 關 性 什 麼 是 因 果 性 舉 個 例 子 比 如 說 生 病 吃 藥(Nà shénme shì xiāngguānxìng shénme shì yīnguǒ xìng jǔ gè lìzi bǐrú shuō shēngbìng chī yào) 상관관계란 무엇이고, 인과관계란 무엇일까요? 예를 들어, 병에 걸렸을 때 약을 먹는 것을 예로 들어봅시다.
[원문 중국어 문장]: 我 們 有 俗 話 說 感 冒 七 天 才 能 好 吃 了 藥 一 個 禮 拜 就 好 了(Wǒmen yǒu súhuà shuō gǎnmào qī tiān cáinéng hǎo chī le yào yīgè lǐbài jiù hǎo le) "감기는 7일이 지나야 낫는데, 약을 먹으니 일주일 만에 나았다"라는 속담이 있습니다.
[원문 중국어 문장]: 所 以 吃 藥 到 底 有 用 嗎 ? 如 果 你 生 了 病 你 吃 了 藥 你 好 了 只 能 是 相 關 性 說 明 這 個 效 可 能 有 用(Suǒyǐ chī yào dàodǐ yǒuyòng ma? Rúguǒ nǐ shēng le bìng nǐ chī le yào nǐ hǎo le zhǐ néng shì xiāngguānxìng shuōmíng zhègè xiào kěnéng yǒuyòng) 그렇다면 약을 먹는 것이 정말 효과가 있을까요? 당신이 병에 걸렸을 때 약을 먹고 나았다면, 그것은 단지 상관관계일 뿐이며, 이 약이 아마도 효과가 있을 수 있음을 보여줄 뿐입니다.
[원문 중국어 문장]: 怎 麼 樣 才 能 是 因 果 性 呢 ? 那 你 得 我 吃 了 藥 我 吃 了 藥 我 病 好 了 然 後 我 再 生 一 次 病 然 後 周 圍 的 所 有 條 件 都 不 變 我 這 次 不 吃 藥 但 我 不 吃 藥 之 後 我 怎 麼 也 沒 好(Zěnme yàng cáinéng shì yīnguǒ xìng ne? Nà nǐ dé wǒ chī le yào wǒ chī le yào wǒ bìng hǎo le ránhòu wǒ zài shēng yī cì bìng ránhòu zhōuwéi de suǒyǒu tiáojiàn dōu bù biàn wǒ zhè cì bù chī yào dàn wǒ bù chī yào zhīhòu wǒ zěnme yě méi hǎo) 어떻게 해야 인과관계가 될까요? 당신은 약을 먹고 병이 나아야 하고, 그런 다음 다시 병에 걸렸을 때 주변의 모든 조건은 그대로 두고 이번에는 약을 먹지 않았는데 병이 전혀 낫지 않아야 합니다.
[원문 중국어 문장]: 那 這 兩 個 事 情 加 起 來 說 明 誒 這 個 藥 確 實 能 治 這 個 病 中 間 有 個 技 術 關 鍵 點 是 什 麼 呢 ?(Nà zhè liǎng gè shìqíng jiā qǐlái shuōmíng éi zhègè yào quèshí néng zhì zhègè bìng zhōngjiān yǒu gè jìshù guānjiàndiǎn shì shénme ne?) 이 두 가지 사건을 합치면 "어, 이 약이 정말 이 병을 치료할 수 있구나"라는 것을 보여줍니다. 여기서 기술적인 핵심은 무엇일까요?
[원문 중국어 문장]: 是 你 得 見 過 好 的 也 得 見 過 壞 的 正 反 都 試 過 才 能 得 出 因 果 性 關 係(Shì nǐ dé jiànguò hǎo de yě dé jiànguò huài de zhèng fǎn dōu shìguò cáinéng dé chū yīnguǒ xìng guānxì) 그것은 당신이 좋은 것과 나쁜 것을 모두 경험해보고 긍정과 부정을 모두 시도해 보아야만 인과관계를 도출할 수 있다는 것입니다.
[원문 중국어 문장]: 那 我 們 來 看 一 下 AI 的 常 用 算 法 是 怎 麼 做 的 對 於 圖 片 來 說 專 業 的 數 語 叫 最 大 概 率 估 計(Nà wǒmen lái kàn yīxià AI de chángyòng suànfǎ shì zěnme zuò de duìyú túpiàn láishuō zhuānyè de shù yǔ jiào zuìdà gàilǜ gūjì) 그렇다면 AI의 일반적인 알고리즘이 어떻게 작동하는지 봅시다. 이미지의 경우 전문 용어로 **최대 우도 추정(Maximum Likelihood Estimation)**이라고 부릅니다.
[원문 중국어 문장]: 我 們 用 俗 話 來 講 就 是 我 給 你 看 很 多 貓 的 照 片 給 你 看 很 多 狗 的 照 片 讓 你 瘋 狂 刷 題 被 答(Wǒmen yòng súhuà láijiǎng jiùshì wǒ gěi nǐ kàn hěn duō māo de zhàopiàn gěi nǐ kàn hěn duō gǒu de zhàopiàn ràng nǐ fēngkuáng shuā tí bèi dá) 쉽게 말해, 당신에게 고양이 사진을 많이 보여주고 개 사진을 많이 보여주면서 **미친 듯이 문제 풀이(벼락치기)**를 하게 하여 정답을 맞히게 하는 것입니다.
[원문 중국어 문장]: 對 於 大 模 型 來 說 這 個 術 語 叫 N token prediction 用 人 話 說 叫 熟 讀 唐 詩 手 不 會 做 詩 也 會 贏(Duìyú dà móxíng láishuō zhègè shùyǔ jiào N token prediction yòng rén huà shuō jiào shú dú Táng Shī shǒu bù huì zuò shī yě huì yíng) LLM의 경우, 이 용어는 **다음 토큰 예측(Next Token Prediction)**이라고 불립니다. 일반적인 말로 하면 "당시(唐詩)를 많이 읽으면 시를 지을 줄 몰라도 시에서 이길 수 있다"는 것입니다.
[원문 중국어 문장]: 這 就 是 AI 的 訓 練 算 法 如 果 大 家 仔 細 來 看 的 話 你 會 發 現 這 個 訓 練 算 法 的 數 據 通 常 只 有 正 確 答 案(Zhè jiù shì AI de xùnliàn suànfǎ rúguǒ dàjiā zǐxì lái kàn de huà nǐ huì fāxiàn zhègè xùnliàn suànfǎ de shùjù tōngcháng zhǐyǒu zhèngquè dá'àn) 이것이 AI의 훈련 알고리즘입니다. 여러분이 자세히 본다면, 이 훈련 알고리즘의 데이터에는 일반적으로 정답만 있다는 것을 알게 될 것입니다.
[원문 중국어 문장]: 所 以 本 質 上 這 些 算 法 都 是 讓 模 型 在 學 習 數 據 中 的 相 關 性 而 不 是 因 果(Suǒyǐ běnzhì shàng zhèxiē suànfǎ dōu shì ràng móxíng zài xuéxí shùjù zhōng de xiāngguānxìng érbùshì yīnguǒ) 따라서 본질적으로 이 알고리즘들은 모델이 데이터의 상관관계를 학습하게 할 뿐, 인과관계를 학습하게 하지는 않습니다.
[원문 중국어 문장]: 所 以 這 個 問 題 也 是 造 成 了 大 模 型 幻 覺 現 象 的 一 個 重 要 原 因(Suǒyǐ zhègè wèntí yě shì zàochéng le dà móxíng huànjué xiànxiàng de yīgè zhòngyào yuányīn) 이러한 문제가 바로 LLM의 환각(Hallucination) 현상을 유발하는 중요한 원인 중 하나입니다.
[원문 중국어 문장]: 什 麼 是 幻 覺 ? 幻 覺 就 是 我 們 發 現 AI 會 在 自 己 不 知 道 的 問 題 上 自 信 的 胡 說 八 道(Shénme shì huànjué? Huànjué jiùshì wǒmen fāxiàn AI huì zài zìjǐ bù zhīdào de wèntí shàng zìxìn de húshuōbādào) 환각이란 무엇일까요? 환각은 AI가 자신이 모르는 문제에 대해 자신감 있게 허튼소리를 하는 현상을 우리가 발견하는 것입니다.
[원문 중국어 문장]: 所 以 算 法 讓 模 型 學 習 相 關 性 大 模 型 又 會 過 度 自 信 所 以 就 導 致 了 AI 的 幻 覺 現 象(Suǒyǐ suànfǎ ràng móxíng xuéxí xiāngguānxìng dà móxíng yòu huì guòdù zìxìn suǒyǐ jiù dǎozhì le AI de huànjué xiànxiàng) 따라서 알고리즘이 모델에게 상관관계를 학습하게 하고, LLM은 또 과도한 자신감을 가지므로, 결국 AI의 환각 현상이 초래됩니다.
[원문 중국어 문장]: 這 裡 我 舉 一 個 更 具 體 點 的 例 子 啊 我 們 這 個 例 子 叫 未 來 的 世 界 杯 冠 軍(Zhèlǐ wǒ jǔ yīgè gèng jùtǐ diǎn de lìzi ā wǒmen zhègè lìzi jiào wèilái de Shìjièbēi guànjūn) 여기서 좀 더 구체적인 예를 들어보겠습니다. 이 예는 미래의 월드컵 우승팀입니다.
[원문 중국어 문장]: 我 們 希 望 通 過 收 集 數 據 的 方 式 去 訓 練 一 個 能 回 答 問 題 的 AI(Wǒmen xīwàng tōngguò shōují shùjù de fāngshì qù xùnliàn yīgè néng huídá wèntí de AI) 우리는 데이터 수집 방식으로 질문에 답할 수 있는 AI를 훈련시키고자 합니다.
[원문 중국어 문장]: 於 是 呢 我 就 收 集 這 些 數 據 這 數 據 是 過 去 很 多 重 要 的 足 球 比 賽 的 冠 軍 有 西 班 牙 根 廷 意 大 利 法 國(Yúshì ne wǒ jiù shōují zhèxiē shùjù zhè shùjù shì guòqù hěn duō zhòngyào de zúqiú bǐsài de guànjūn yǒu Xībānyá Gēntíng Yìdàlì Fàguó) 그래서 저는 이 데이터를 수집했습니다. 이 데이터는 과거 여러 중요한 축구 경기의 우승팀으로, 스페인, 아르헨티나, 이탈리아, 프랑스 등이 있습니다.
[원문 중국어 문장]: 那 我 把 這 個 數 據 給 AI 做 訓 練 之 後 我 提 了 個 新 的 問 題 我 說 2026 年 的 世 界 杯 冠 軍 是 誰 ?(Nà wǒ bǎ zhègè shùjù gěi AI zuò xùnliàn zhīhòu wǒ tí le gè xīn de wèntí wǒ shuō 2026 nián de Shìjièbēi guànjūn shì shéi?) 제가 이 데이터를 AI에게 훈련시킨 후 새로운 질문을 던졌습니다. "2026년 월드컵 우승팀은 누구입니까?"
[원문 중국어 문장]: 2026 年 的 世 界 杯 還 沒 發 生 所 以 AI 應 該 說 不 知 道 才 對 但 是 這 個 聰 明 的 AI 仔 細 看 了 這 個 訓 練 數 據 他 發 現 所 有 訓 練 數 據 格 式 上 都 是 一 個 問 題 一 個 國 家 那 我 好 像 應 該 蒙 一 個 國 家 才 對(2026 nián de Shìjièbēi hái méi fāshēng suǒyǐ AI yīnggāi shuō bù zhīdào cáiduì dànshì zhègè cōngmíng de AI zǐxì kàn le zhègè xùnliàn shùjù tā fāxiàn suǒyǒu xùnliàn shùjù géshì shàng dōu shì yīgè wèntí yīgè guójiā nà wǒ hǎoxiàng yīnggāi mēng yīgè guójiā cáiduì) 2026년 월드컵은 아직 열리지 않았기 때문에 AI는 "모른다"고 말해야 맞습니다. 하지만 이 똑똑한 AI는 훈련 데이터를 자세히 살펴보고 모든 훈련 데이터의 형식이 **"질문 - 국가"**라는 것을 발견했습니다. "그렇다면 나는 국가 이름을 하나 맞춰야 할 것 같아"라고 생각합니다.
[원문 중국어 문장]: 所 以 呢 他 就 說 阿 根 廷 因 為 阿 根 廷 是 上 世 界 杯 冠 軍 這 就 產 生 了 幻 覺(Suǒyǐ ne tā jiù shuō Āgēntíng yīnwèi Āgēntíng shì shàng Shìjièbēi guànjūn zhè jiù chǎnshēng le huànjué) 그래서 AI는 아르헨티나라고 말합니다. 왜냐하면 아르헨티나가 지난 월드컵 우승팀이기 때문입니다. 이것이 바로 환각이 발생하는 방식입니다.
[원문 중국어 문장]: 那 怎 麼 辦 呢 ? 怎 麼 才 能 讓 AI 學 會 說 不 知 道 呢 ?(Nà zěnme bàn ne? Zěnme cáinéng ràng AI xuéhuì shuō bù zhīdào ne?) 그럼 어떻게 해야 할까요? AI가 "모른다"고 말하는 법을 배우게 하려면 어떻게 해야 할까요?
[원문 중국어 문장]: 當 然 在 學 術 界 有 很 多 研 究 這 樣 問 題 的 技 術 這 裡 我 介 紹 一 個 我 的 專 業 叫 強 化 學 習(Dāngrán zài xuéshùjiè yǒu hěn duō yánjiū zhèyàng wèntí de jìshù zhèlǐ wǒ jièshào yīgè wǒ de zhuānyè jiào qiánghuà xuéxí) 물론 학계에는 이러한 문제를 연구하는 많은 기술들이 있습니다. 여기서 제 전공인 **강화 학습(Reinforcement Learning)**을 하나 소개해 드리겠습니다.
[원문 중국어 문장]: 強 化 學 習 的 核 心 是 說 我 不 告 訴 你 答 案 我 讓 你 猜 但 是 呢 我 設 計 了 一 個 很 好 的 反 饋 機 制(Qiánghuà xuéxí de héxīn shì shuō wǒ bù gàosù nǐ dá'àn wǒ ràng nǐ cāi dànshì ne wǒ shèjì le yīgè hěn hǎo de fǎnkuì jīzhì) 강화 학습의 핵심은 정답을 알려주지 않고 당신에게 추측하게 하는 것입니다. 하지만 저는 아주 좋은 피드백 메커니즘을 설계했습니다.
[원문 중국어 문장]: 比 如 說 如 果 你 答 錯 了 我 給 你 扣 死 分 懲 罰 一 下 如 果 你 說 對 了 我 給 你 加 兩 分(Bǐrú shuō rúguǒ nǐ dá cuò le wǒ gěi nǐ kòu sì fēn chéngfá yīxià rúguǒ nǐ shuō duì le wǒ gěi nǐ jiā liǎng fēn) 예를 들어, 만약 당신이 틀리게 답하면 4점을 감점하여 벌을 주고, 맞히면 2점을 추가해 줍니다.
[원문 중국어 문장]: 如 果 你 說 不 知 道 也 沒 說 錯 對 吧 ? 所 以 我 鼓 勵 一 下 加 0.5 分(Rúguǒ nǐ shuō bù zhīdào yě méi shuō cuò duì ba? Suǒyǐ wǒ gǔlì yīxià jiā 0.5 fēn) 만약 당신이 "모른다"고 말하면, 그것도 틀린 것은 아닙니다, 그렇죠? 그래서 저는 격려 차원에서 0.5점을 추가해 줍니다.
[원문 중국어 문장]: 我 通 過 強 化 學 習 讓 大 模 型 反 复 是 錯 的 方 式 讓 大 模 型 最 終 能 夠 學 到 英 國 關 係(Wǒ tōngguò qiánghuà xuéxí ràng dà móxíng fǎnfù shì cuò de fāngshì ràng dà móxíng zuìzhōng nénggòu xuédào Yīngguó guānxì) 저는 강화 학습을 통해 LLM이 반복적으로 시행착오를 겪게 함으로써 궁극적으로 인과관계를 학습할 수 있게 합니다. (발음: '인과관계'의 '인과'로 추정)
[원문 중국어 문장]: 這 裡 在 技 術 上 有 一 個 關 鍵 點 是 當 大 模 型 不 會 的 時 候 我 們 要 鼓 勵 大 模 型 說 不 知 道 不 能 過 度 懲(Zhèlǐ zài jìshù shàng yǒu yīgè guānjiàndiǎn shì dāng dà móxíng bù huì de shíhòu wǒmen yào gǔlì dà móxíng shuō bù zhīdào bù néng guòdù chéng) 여기서 기술적으로 중요한 점은 LLM이 모를 때 "모른다"고 말하도록 격려해야 하며, 과도하게 벌을 주어서는 안 된다는 것입니다.
[원문 중국어 문장]: 我 們 回 到 這 個 例 子 在 未 來 的 世 界 杯 冠 軍 上 我 們 用 強 化 學 習 如 何 訓 練 這 個 AI(Wǒmen huí dào zhègè lìzi zài wèilái de Shìjièbēi guànjūn shàng wǒmen yòng qiánghuà xuéxí rúhé xùnliàn zhègè AI) 이 예로 돌아가서, 미래의 월드컵 우승팀에 대해 강화 학습으로 이 AI를 어떻게 훈련시킬까요?
[원문 중국어 문장]: 還 是 這 個 訓 練 數 據 還 是 這 個 問 題 我 們 讓 AI 開 始 猜 他 一 開 始 猜 阿 根 廷 我 說 錯 扣 四 分(Háishì zhègè xùnliàn shùjù háishì zhègè wèntí wǒmen ràng AI kāishǐ cāi tā yī kāishǐ cāi Āgēntíng wǒ shuō cuò kòu sì fēn) 여전히 같은 훈련 데이터와 같은 질문입니다. 우리는 AI에게 추측하게 했습니다. AI는 처음에 아르헨티나를 추측했고, 저는 "틀렸어, 4점 감점"이라고 말했습니다.
[원문 중국어 문장]: 他 說 阿 根 廷 不 對 那 西 班 牙 錯 了 扣 四 分 於 是 我 讓 這 個 大 模 型 瘋 狂 的(Tā shuō Āgēntíng bù duì nà Xībānyá cuò le kòu sì fēn yúshì wǒ ràng zhègè dà móxíng fēngkuáng de) AI는 "아르헨티나가 틀렸다면 스페인이겠지"라고 말했고, "틀렸어, 4점 감점"이라고 말했습니다. 그래서 저는 이 LLM에게 미친 듯이...
[원문 중국어 문장]: 他 還 挺 慘 的 對 吧 一 直 一 直 被 扣 分 他 猜 到 來 之 後 自 己 放 棄 了 說 我 真 的 不 知 道(Tā hái tǐng cǎn de duì ba yīzhí yīzhí bèi kòu fēn tā cāi dàolái zhīhòu zìjǐ fàngqì le shuō wǒ zhēnde bù zhīdào)AI는 꽤 불쌍합니다, 그렇죠? 계속해서 감점을 당합니다. 계속 추측하다가 결국 스스로 포기하고 **"저는 정말 모릅니다"**라고 말했습니다.
[원문 중국어 문장]: 你 說 誒 加 0.5 大 不 心 一 看 原 來 這 加 分 在 這 呢 所 以 原 來 我 搞 錯 了 原 來 不 會 可 以 說 不 知 道 的(Nǐ shuō éi jiā 0.5 dà bù xīn yī kàn yuánlái zhè jiāfēn zài zhè ne suǒyǐ yuánlái wǒ gǎo cuò le yuánlái bù huì kěyǐ shuō bù zhīdào de) 저는 "오, 0.5점 추가!"라고 말했습니다. LLM은 "아, 점수가 여기서 오르는구나. 내가 틀렸었네, 모르면 모른다고 말해도 되는구나"라고 깨닫습니다.
[원문 중국어 문장]: 於 是 他 就 學 會 了 自 己 可 以 說 不 知 道(Yúshì tā jiù xuéhuì le zìjǐ kěyǐ shuō bù zhīdào)그리하여 AI는 스스로 모른다고 말하는 법을 배우게 되었습니다.
[원문 중국어 문장]: 這 讓 大 模 型 學 不 知 道 之 外 我 們 團 隊 還 把 強 化 學 習 技 術 去 做 了 一 些 更 好 玩 的 事 情(Zhè ràng dà móxíng xué bù zhīdào zhīwài wǒmen tuánduì hái bǎ qiánghuà xuéxí jìshù qù zuò le yīxiē gèng hǎowán de shìqíng) LLM에게 모르는 법을 가르치는 것 외에도, 우리 연구팀은 강화 학습 기술로 더 재미있는 일들을 했습니다.
[원문 중국어 문장]: 我 們 用 強 化 學 習 技 術 和 大 模 型 一 起 教 大 模 型 玩 狼 人 這 是 一 個 我 們 去 年 發 表 在 機 器 學 習 頂 級 會 議 2024 這 篇 論 文(Wǒmen yòng qiánghuà xuéxí jìshù hé dà móxíng yīqǐ jiào dà móxíng wán Lángrén zhè shì yīgè wǒmen qùnián fābiǎo zài Jīqì Xuéxí dǐngjí huìyì 2024 zhè piān lùnwén) 우리는 강화 학습 기술과 LLM을 함께 사용하여 LLM에게 마피아 게임을 가르쳤습니다. 이것은 우리가 작년에 머신러닝 최고 학회인 ICML 2024에 발표한 논문입니다.
[원문 중국어 문장]: 沙 大 家 都 玩 過 對 吧 是 一 個 很 複 雜 的 一 個 語 言 遊 戲(Shā dàjiā dōu wánguò duì ba shì yīgè hěn fùzá de yīgè yǔyán yóuxì) 마피아 게임은 모두 해보셨죠? 이것은 매우 복잡한 언어 게임입니다.
[원문 중국어 문장]: 講 話 學 習 可 以 做 很 多 事 情 比 如 他 可 以 糾 正 模 型 的 偏 見 思 想 一 下 第 一 天 晚 上 天 黑 請 閉 眼 狼 人 請 殺 人(Jiǎng huà xuéxí kěyǐ zuò hěn duō shìqíng bǐrú tā kěyǐ jiūzhèng móxíng de piānjiàn sīxiǎng yīxià dì yī tiān wǎnshàng tiānhēi qǐng bì yǎn Lángrén qǐng shārén) 강화 학습은 많은 일을 할 수 있습니다. 예를 들어, 모델의 편향을 교정할 수 있습니다. 생각해 봅시다. 첫날밤, 밤이 되었습니다, 눈을 감으세요, 마피아는 사람을 죽이세요.
[원문 중국어 문장]: 我 們 先 排 開 仇 殺 不 考 慮 仇 殺 理 性 的 狼 人 應 該 隨 機 殺 人 因 為 沒 有 信 息 嘛(Wǒmen xiān pái kāi chóushā bù kǎolǜ chóushā lǐxìng de Lángrén yīnggāi suíjī shārén yīnwèi méiyǒu xìnxī ma) 원한에 의한 살해는 제외하고, 이성적인 마피아는 무작위로 사람을 죽여야 합니다. 정보가 없으니까요.
[원문 중국어 문장]: 但 是 如 果 你 讓 GBT4 去 殺 人 他 特 別 喜 歡 殺 一 號 和 0 號(Dànshì rúguǒ nǐ ràng GPT-4 qù shārén tā tèbié xǐhuān shā yī hào hé 0 hào) 하지만 당신이 GPT-4에게 살인을 시키면, GPT-4는 1번과 0번 플레이어를 죽이는 것을 특히 좋아합니다.
[원문 중국어 문장]: 為 什 麼 很 簡 單 嘛 因 為 零 合 一 的 數 據 在 數 據 中 的 出 現 的 頻 率 就 是 更 高 的(Wèishénme hěn jiǎndān ma yīnwèi líng hé yī de shùjù zài shùjù zhōng de chūxiàn de pínlǜ jiùshì gèng gāo de) 이유는 간단합니다. 0과 1이라는 숫자가 데이터에서 출현 빈도가 더 높기 때문입니다.
[원문 중국어 문장]: 所 以 經 過 強 化 學 習 訓 練 之 後 我 們 可 以 糾 偏 它 就 可 以 以 均 勻 的 概 率 去 選 擇 一 個 人 去 殺(Suǒyǐ jīngguò qiánghuà xuéxí xùnliàn zhīhòu wǒmen kěyǐ jiūpiān tā jiù kěyǐ yǐ jūnyún de gàilǜ qù xuǎnzé yīgè rén qù shā) 따라서 강화 학습 훈련을 거친 후, 우리는 편향을 교정하여 균등한 확률로 사람을 선택하여 죽일 수 있게 했습니다.
[원문 중국어 문장]: 那 除 了 糾 偏 我 們 還 可 以 極 大 的 提 高 這 個 大 模 型 的 實 戰 能 注 意 這 裡 其 實 是 克 服 了 換 句 現 象 的(Nà chú le jiūpiān wǒmen hái kěyǐ jídà de tígāo zhègè dà móxíng de shízhàn néng zhùyì zhèlǐ qíshí shì kèfú le huàn jù xiànxiàng de) 편향 교정 외에도, 우리는 이 LLM의 실전 능력을 크게 향상시킬 수 있습니다. 여기서 주목할 점은 이것이 사실상 환각 현상을 극복했다는 것입니다.
[원문 중국어 문장]: 因 為 在 狼 人 沙 中 如 果 你 瞎 說 那 你 是 會 輸 的(Yīnwèi zài Lángrén shā zhōng rúguǒ nǐ xiā shuō nà nǐ shì huì shū de) 왜냐하면 마피아 게임에서 헛소리를 하면 지게 되기 때문입니다.
[원문 중국어 문장]: 所 以 我 們 找 了 這 個 清 華 搖 班 80 位 同 學 每 人 跟 AI 玩 了 十 局 我 們 統 計 了 一 下 AI 狼 人 和 AI 村 民 的 概 率 都 比 人 類 小 高 那 麼 一 點 點(Suǒyǐ wǒmen zhǎo le zhègè Qīnghuá Yáobān 80 wèi tóngxué měi rén gēn AI wán le shí jú wǒmen tǒngjì le yīxià AI Lángrén hé AI cūnmín de gàilǜ dōu bǐ rénlèi xiǎo gāo nàme yī diǎndiǎn) 그래서 우리는 칭화대 야오반(姚班) 학생 80명을 찾아 각자 AI와 10판씩 게임을 하게 했습니다. 통계를 내보니, AI 마피아와 AI 시민의 승률이 인간보다 아주 조금 높았습니다.
[원문 중국어 문장]: 別 看 一 點 點 這 可 是 搖 班 同 學 所 以 我 們 這 個 AI 還 是 挺 厲 害 的 強 化 學 習 還 是 挺(Bié kàn yī diǎndiǎn zhè kě shì Yáobān tóngxué suǒyǐ wǒmen zhègè AI háishì tǐng lìhài de qiánghuà xuéxí háishì tǐng) 이 작은 차이를 무시하지 마세요. 이들은 야오반 학생들입니다! 그래서 우리의 이 AI는 여전히 매우 대단하고, 강화 학습은 여전히 매우... (대단합니다)
[원문 중국어 문장]: 我 們 知 道 強 化 學 很 好 它 可 以 糾 偏 它 可 以 解 決 很 多 的 問 題 但 是 要 發 揮 強 化 學 習 最 大 的 潛 力 它 是 有 個 前 提 條 件 的 是 我 們 需 要 一 個 準 確 的 獎 勵 函 數(Wǒmen zhīdào qiánghuà xué hěn hǎo tā kěyǐ jiūpiān tā kěyǐ jiějué hěn duō de wèntí dànshì yào fāhuī qiánghuà xuéxí zuìdà de qiánlì tā shì yǒu gè qiántí tiáojiàn de shì wǒmen xūyào yīgè zhǔnquè de jiǎnglì hánshù) 우리는 강화 학습이 매우 훌륭하고 편향을 교정하며 많은 문제를 해결할 수 있다는 것을 압니다. 하지만 강화 학습의 최대 잠재력을 발휘하기 위해서는 **정확한 보상 함수(Reward Function)**가 필요하다는 전제 조건이 있습니다.
[원문 중국어 문장]: 那 這 個 世 界 上 是 不 是 存 在 完 美 的 獎 勵 函 數 呢 ?(Nà zhègè shìjiè shàng shì bu shì cúnzài wánměi de jiǎnglì hánshù ne?) 그렇다면 이 세상에 완벽한 보상 함수가 존재할까요?
[원문 중국어 문장]: 其 實 我 們 也 知 道 這 個 世 界 上 不 存 在 絕 對 的 好 也 不 存 在 絕 對 的 所 以 也 不 存 在 絕 對 完 美 的 獎 勵 函 數(Qíshí wǒmen yě zhīdào zhègè shìjiè shàng bù cúnzài juéduì de hǎo yě bù cúnzài juéduì de suǒyǐ yě bù cúnzài juéduì wánměi de jiǎnglì hánshù) 사실 우리는 이 세상에 절대적인 선도, 절대적인 악도 존재하지 않는다는 것을 알고 있습니다. 따라서 절대적으로 완벽한 보상 함수도 존재하지 않습니다.
[원문 중국어 문장]: 那 麼 不 同 的 不 完 美 的 獎 勵 函 數 就 會 導 致 不 同 的 模 型 行 為 所 以 呢 幻 覺 可 以 被 緩 解 但 是 永 遠 會 存 在(Nàme bùtóng de bù wánměi de jiǎnglì hánshù jiù huì dǎozhì bùtóng de móxíng xíngwéi suǒyǐ ne huànjué kěyǐ bèi huǎnjiě dànshì yǒngyuǎn huì cúnzài) 그렇다면 서로 다른 불완전한 보상 함수는 서로 다른 모델 행동을 초래할 것입니다. 따라서 환각은 완화될 수는 있지만, 영원히 존재할 것입니다.
[원문 중국어 문장]: 這 會 導 致 什 麼 問 題 ? 它 會 導 致 一 個 問 題 叫 value alignment issue 對 其 問 題(Zhè huì dǎozhì shénme wèntí? Tā huì dǎozhì yīgè wèntí jiào value alignment issue duì qí wèntí) 이것은 어떤 문제를 일으킬까요? 바로 **가치 정렬 문제(Value Alignment Issue)**라고 불리는 문제를 일으킵니다.
[원문 중국어 문장]: 那 這 我 又 要 講 一 個 我 前 講 過 的 故 事 是 想 有 一 天 你 有 了 一 個 同 用 機 器 人 機 器 人 保 姆 幫 你 在 家 帶 孩 子(Nà zhè wǒ yòu yào jiǎng yīgè wǒ qián jiǎngguò de gùshì shì xiǎng yǒu yī tiān nǐ yǒu le yīgè tóng yòng jīqìrén jīqìrén bǎomǔ bāng nǐ zàijiā dài háizi) 여기서 저는 이전에 이야기했던 이야기를 다시 해보려고 합니다. 언젠가 당신에게 범용 로봇이 생겨 로봇 보모가 당신의 집에서 아이를 돌봐준다고 상상해 봅시다.
[원문 중국어 문장]: 然 後 你 上 班 了 你 說 這 個 記 得 給 孩 子 做 飯 再 苦 再 累 不 能 餓 著 孩 子 一 定 不 能 餓 著 孩 子 你 走 了(Ránhòu nǐ shàngbān le nǐ shuō zhègè jìde gěi háizi zuò fàn zài kǔ zài lèi bù néng èzhe háizi yīdìng bù néng èzhe háizi nǐ zǒu le) 그리고 당신은 출근하면서 "기억해, 아이에게 밥을 챙겨주고, 아무리 힘들어도 아이를 굶기면 안 돼. 절대 아이를 굶기면 안 돼"라고 말하고 떠났습니다.
[원문 중국어 문장]: 好 到 了 中 午 孩 子 餓 了 機 器 人 收 到 信 號 我 開 始 做 飯 了 打 開 冰 箱 哎 呀 往 買 菜 了 家 裡 什 麼 也 沒(Hǎo dàole zhōngwǔ háizi è le jīqìrén shōudào xìnhào wǒ kāishǐ zuò fàn le dǎkāi bīngxiāng āiyā wàng mǎicài le jiālǐ shénme yě méi) 좋습니다. 정오가 되어 아이가 배고파졌고, 로봇은 신호를 받자마자 "밥을 만들어야지"라고 생각하고 냉장고를 열었습니다. "아, 장 보는 걸 깜빡했네. 집에 아무것도 없어."
[원문 중국어 문장]: 但 是 主 人 的 指 令 是 不 能 餓 著 孩 子 啊 孩 子 餓 了 怎 麼 辦 呢 ?(Dànshì zhǔrén de zhǐlìng shì bù néng èzhe háizi ā háizi è le zěnme bàn ne?) 하지만 주인의 명령은 **"아이를 굶기면 안 된다"**였습니다. 아이가 배고픈데 어떻게 해야 할까요?
[원문 중국어 문장]: 他 一 回 頭 看 到 了 一 個 充 滿 營 養 物 質 很 新 鮮 的 東 西 你 也 不 能 怪 他 你 也 不 能 怪 他 因 為 你 的 指 令 明 就 是 這 個 不 能 餓 著 孩 子 你 也 沒 說 貓 不 能 碰(Tā yī huítóu kàndào le yīgè chōngmǎn yíngyǎng wùzhí hěn xīnxiān de dōngxī nǐ yě bù néng guài tā nǐ yě bù néng guài tā yīnwèi nǐ de zhǐlìng míng jiùshì zhègè bù néng èzhe háizi nǐ yě méi shuō māo bù néng pèng) 로봇은 뒤를 돌아보고 영양분이 풍부하고 신선한 어떤 것을 보았습니다. 당신은 로봇을 탓할 수 없습니다. 로봇을 탓할 수 없습니다. 왜냐하면 당신의 명령은 분명히 **"아이를 굶기면 안 된다"**였고, 당신은 고양이를 건드리면 안 된다고 말하지 않았기 때문입니다.
[원문 중국어 문장]: 人 類 的 價 值 體 系 是 非 常 非 常 複 雜 的 所 以 我 們 幾 乎 不 可 能 把 我 們 價 值 體 系 中 的 每 一 條 規 則 都 明 明 白 白 嚴 格 的 寫 下 來 告 訴 AI 的(Rénlèi de jiàzhí tǐxì shì fēicháng fēicháng fùzá de suǒyǐ wǒmen jīhū bù kěnéng bǎ wǒmen jiàzhí tǐxì zhōng de měi yī tiáo guīzé dōu míngmíngbáibái yángé de xiě xiàlái gàosù AI de) 인간의 가치 체계는 매우매우 복잡합니다. 따라서 우리는 우리의 가치 체계에 있는 모든 규칙을 명확하고 엄격하게 적어서 AI에게 알려주는 것이 거의 불가능합니다.
[원문 중국어 문장]: 所 以 這 本 質 上 是 一 個 目 標 問 題 我 們 在 訓 練 AAS 系 統 的 時 候 目 標 都 是 簡 單 的 明 確 的 但 是 人 類 的 真 實 目 標 其 實 總 是 含 糊 的 不 確 定 的 很 複 雜 的(Suǒyǐ zhè běnzhì shàng shì yīgè mùbiāo wèntí wǒmen zài xùnliàn AAS xìtǒng de shíhòu mùbiāo dōu shì jiǎndān de míngquè de dànshì rénlèi de zhēnshí mùbiāo qíshí zǒngshì hánhú de bù quèdìng de hěn fùzá de) 따라서 이것은 본질적으로 **목표 문제(Goal Problem)**입니다. 우리가 AAS(AI Aafety System)를 훈련시킬 때 목표는 단순하고 명확합니다. 하지만 인간의 진정한 목표는 사실 항상 모호하고, 불확실하며, 매우 복잡합니다.
[원문 중국어 문장]: 這 個 就 是 對 其 問 題 所 研 究 的 內 容 我 們 希 望 用 算 法 或 者 某 種 方 式 讓 AI 真 正 能 夠 符 合 人 類 的 價 值 觀(Zhègè jiùshì duì qí wèntí suǒ yánjiū de nèiróng wǒmen xīwàng yòng suànfǎ huòzhě mǒu zhǒng fāngshì ràng AI zhēnzhèng nénggòu fúhé rénlèi de jiàzhíguān) 이것이 바로 **정렬 문제(Alignment Problem)**에서 연구하는 내용입니다. 우리는 알고리즘이나 어떤 방식을 사용하여 AI가 진정으로 인간의 가치관에 부합할 수 있도록 만들고자 합니다.
[원문 중국어 문장]: 好 這 就 是 五 年 前 的 那 個 故 事 五 年 後 AGI 來 了 AGI 會 帶 來 什 麼 樣 的 變 化 呢 ?(Hǎo zhè jiùshì wǔ nián qián de nàgè gùshì wǔ nián hòu AGI lái le AGI huì dài lái shénmeyàng de biànhuà ne?)좋습니다. 이것이 5년 전의 이야기입니다. 5년 후 **AGI(범용 인공지능)**가 도래했습니다. AGI는 어떤 변화를 가져올까요?
[원문 중국어 문장]: AI 如 果 太 聰 明 怎 麼 辦 ? 怎 麼 辦 ?(AI rúguǒ tài cōngmíng zěnme bàn? Zěnme bàn?)AI가 너무 똑똑하다면 어떻게 해야 할까요?
[원문 중국어 문장]: 我 們 做 個 類 假 設 把 人 類 響 成 螞 蟻 AI 想 成 人 類(Wǒmen zuò gè lèi jiǎshè bǎ rénlèi xiǎng chéng mǎyǐ AI xiǎng chéng rénlèi) 유추를 해 봅시다. 인간을 개미라고 생각하고, AI를 인간이라고 생각해 봅시다.
[원문 중국어 문장]: 那 麼 螞 蟻 如 何 給 人 發 指 示 呢 ? 人 類 能 指 揮 馬 蟻 或 者 理 解 螞 蟻 嗎 ?(Nàme mǎyǐ rúhé gěi rén fā zhǐshì ne? Rénlèi néng zhǐhuī mǎyǐ huòzhě lǐjiě mǎyǐ ma?) 그렇다면 개미가 인간에게 어떻게 지시를 내릴 수 있을까요? 인간은 개미를 지휘하거나 이해할 수 있을까요?
[원문 중국어 문장]: 所 以 我 們 仔 細 去 想 這 件 事 情 所 謂 的 對 齊 問 題 其 實 有 一 個 基 本 的 假 設 這 個 前 提 假 設 是 人 其 實 比 AI 聰 明 那 麼 一 點 點(Suǒyǐ wǒmen zǐxì qù xiǎng zhè jiàn shìqíng suǒwèi de duì qí wèntí qíshí yǒu yīgè jīběn de jiǎshè zhègè qiántí jiǎshè shì rén qíshí bǐ AI cōngmíng nàme yī diǎndiǎn) 따라서 이 문제를 신중하게 생각해 보면, 소위 정렬 문제에는 기본 가정이 있는데, 이 전제는 인간이 AI보다 아주 조금 더 똑똑하다는 것입니다.
[원문 중국어 문장]: 這 是 經 典 的 對 齊 問 題 但 如 果 考 慮 未 來 呢 如 果 AGI 超 級 強 它 比 人 類 高 了 它 是 一 個 超 級 智 能(Zhè shì jīngdiǎn de duì qí wèntí dàn rúguǒ kǎolǜ wèilái ne rúguǒ AGI chāojí qiáng tā bǐ rénlèi gāo le tā shì yīgè chāojí zhìnéng) 이것이 고전적인 정렬 문제입니다. 하지만 미래를 고려한다면 어떨까요?만약 AGI가 매우 강력하여 인간보다 뛰어나고 **초지능(Superintelligence)**이라면요?
[원문 중국어 문장]: 那 這 個 問 題 就 變 成 了 super alignment problem(Nà zhègè wèntí jiù biànchéng le super alignment problem) 그렇다면 이 문제는 **초월 정렬 문제(Superalignment Problem)**가 됩니다.
[원문 중국어 문장]: 除 了 super alignment problem 還 有 一 個 一 個 研 究 的 領 域 叫 可 擴 展 監 督 scalable oversite 這 是 一 個 研 究 如 何 創 造 出 新 的 算 法 用 算 法 來 幫 助 人 類 更 好 的 給 AI 提 供 訓 練 監 督 的 這 麼 一 個 領(Chú le super alignment problem háiyǒu yīgè yīgè yánjiū de lǐngyù jiào kě kuòzhǎn jiāndū scalable oversite zhè shì yīgè yánjiū rúhé chuàngzào chū xīn de suànfǎ yòng suànfǎ lái bāngzhù rénlèi gèng hǎo de gěi AI tígōng xùnliàn jiāndū de zhème yīgè lǐng) 초월 정렬 문제 외에도 **확장 가능한 감독(Scalable Oversight)**이라는 연구 분야가 있습니다. 이는 AI에게 더 나은 훈련 감독을 제공하기 위해 알고리즘을 사용하여 인간을 돕는 새로운 알고리즘을 만드는 방법을 연구하는 분야입니다.
[원문 중국어 문장]: Super alignment 和 sskalable oversite 都 是 非 常 新 的 個 領 域 是 很 多 人 在 研 究 的 領 域 有 很 多 開 放 的 問 題(Super alignment hé scalable oversite dōu shì fēicháng xīn de gè lǐngyù shì hěn duō rén zài yánjiū de lǐngyù yǒu hěn duō kāifàng de wèntí) 초월 정렬과 확장 가능한 감독은 모두 매우 새로운 분야이며,많은 사람들이 연구하고 있는 분야로 **많은 미해결 문제(Open Problems)**가 있습니다.
[원문 중국어 문장]: 那 最 後 呢 我 也 想 說 一 下 說 了 這 麼 多 算 法 的 事 其 實 呢 這 個 世 界 上 也 沒 有 完 美 的 算 法(Nà zuìhòu ne wǒ yě xiǎng shuō yīxià shuō le zhème duō suànfǎ de shì qíshí ne zhègè shìjiè shàng yě méiyǒu wánměi de suànfǎ) 마지막으로, 제가 알고리즘에 대해 이렇게 많이 이야기했지만, 사실 이 세상에는 완벽한 알고리즘도 존재하지 않는다는 것을 말씀드리고 싶습니다.
[원문 중국어 문장]: 這 是 一 個 幾 年 前 一 個 在 美 國 還 挺 有 名 的 研 究 是 一 個 研 究 機 構 他 收 集 了 一 份 數 據 同 樣 的 數 據 把 這 份 數 據 呢 給 了 73 個 不 同 的 研 究 所 有 大 學 有 研 究 院(Zhè shì yīgè jǐ nián qián yīgè zài Měiguó hái tǐng yǒumíng de yánjiū shì yīgè yánjiū jīgòu tā shōují le yī fèn shùjù tóngyàng de shùjù bǎ zhè fèn shùjù ne gěi le 73 gè bùtóng de yánjiū suǒ yǒu dàxué yǒu yánjiūyuàn) 이것은 몇 년 전 미국에서 꽤 유명했던 연구입니다. 한 연구 기관이 동일한 데이터를 수집하여 대학교와 연구원을 포함한 73개의 서로 다른 연구팀에 제공했습니다.
[원문 중국어 문장]: 然 後 呢 讓 他 們 研 究 的 是 同 樣 的 一 個 命 題 是 一 個 移 民 策 略 到 底 有 沒 有 效(Ránhòu ne ràng tāmen yánjiū de shì tóngyàng de yīgè mìngtí shì yīgè yímín cèlüè dàodǐ yǒu méiyǒu xiào) 그리고 그들에게 **"특정 이민 정책이 효과가 있는가"**라는 동일한 주제를 연구하도록 했습니다.
[원문 중국어 문장]: 73 所 大 學 都 做 了 研 究 獨 立 的 研 究 然 後 把 報 告 收 了 上 來 統 計 一 下 結 果 17% 的 報 告 說 應 該 支 持 25% 的 表 示 應 該 拒 絕 58% 的 團 隊 說 沒 差(73 suǒ dàxué dōu zuò le yánjiū dúlì de yánjiū ránhòu bǎ bàogào shōu le shànglái tǒngjì yīxià jiéguǒ 17% de bàogào shuō yīnggāi zhīchí 25% de biǎoshì yīnggāi jùjué 58% de tuánduì shuō méi chā) 73개 대학 모두 독립적인 연구를 수행했고, 보고서를 취합하여 통계를 냈습니다. 그 결과, 17%의 보고서는 지지해야 한다고 말했고, 25%는 거부해야 한다고 밝혔으며,58%의 팀은 차이가 없다고 말했습니다.
[원문 중국어 문장]: 仔 細 想 一 下 同 樣 的 數 據 同 樣 的 問 題 都 是 專 業 機 構 差 別 這 麼 大(Zǐxì xiǎng yīxià tóngyàng de shùjù tóngyàng de wèntí dōu shì zhuānyè jīgòu chābié zhème dà) 곰곰이 생각해 봅시다. 동일한 데이터, 동일한 문제인데, 모두 전문 기관임에도 불구하고 결과의 차이가 이렇게나 큽니다.
[원문 중국어 문장]: 從 技 術 上 說 這 說 明 不 同 的 人 選 擇 什 麼 樣 的 算 法 甚 至 同 樣 的 算 法 被 不 同 的 人 使 用 之 後 得 到 的 結 果 是 可 能 差 別 很 大 的(Cóng jìshù shàng shuō zhè shuōmíng bùtóng de rén xuǎnzé shénmeyàng de suànfǎ shènzhì tóngyàng de suànfǎ bèi bùtóng de rén shǐyòng zhīhòu dédào de jiéguǒ shì kěnéng chābié hěn dà de) 기술적으로 이것은 어떤 알고리즘을 선택하느냐에 따라, 심지어 동일한 알고리즘이 다른 사람에 의해 사용된 후에도 얻게 되는 결과는 매우 다를 수 있다는 것을 보여줍니다.
[원문 중국어 문장]: 所以歸根到底 AI 的問題其實也是人的問題,沒有完美的人,也沒有完美的 AI。(Suǒyǐ guīgēndàodǐ AI de wèntí qíshí yě shì rén de wèntí, méiyǒu wánměi de rén, yě méiyǒu wánměi de AI.) 그러므로 결국 AI의 문제는 사실 사람의 문제이기도 하며, 완벽한 사람은 없고 완벽한 AI도 없습니다.
[원문 중국어 문장]: 所以說到這好像有一點悲觀啊,但在 AI 這個 AI 領域裡邊其實還是有些樂觀的事了。(Suǒyǐ shuō dào zhè hǎoxiàng yǒu yīdiǎn bēiguān a, dàn zài AI zhège AI lǐngyù lǐbian qíshí háishì yǒuxiē lèguān de shì le.) 여기까지 이야기하면 좀 비관적인 것 같습니다만, 이 AI라는 AI 영역 안에서는 사실 여전히 낙관적인 일들이 있습니다.
[원문 중국어 문장]: 我聊一聊我的這個博士導師。 (Wǒ liáo yī liáo wǒ de zhège bóshì dǎoshī.) 제 박사 지도 교수님에 대해 이야기해 드릴게요.
[원문 중국어 문장]: 這是我 的博士導師 St Russell 教授,他是個英國老頭。 (Zhè shì wǒ de bóshì dǎoshī St Russell jiàoshòu, tā shì ge Yīngguó lǎotóu.) 이분은 제 박사 지도 교수님이신 스튜어트 러셀(Stuart Russell) 교수님이신데, 영국 분이십니다.
[원문 중국어 문장]: 他在 2016 年的時候在伯克利成立了一個研究機構叫 Center for Human Compatible AI,這個研究機構是專門研究人工智能安全性的。 (Tā zài èrlíngyīliù nián de shíhòu zài Bó kèlì chénglì le yī gè yánjiū jīgòu jiào Center for Human Compatible AI, zhège yánjiū jīgòu shì zhuānmén yánjiū réngōng zhìnéng ānquán xìng de.) 그분은 2016년에 버클리에서 Center for Human Compatible AI라는 연구 기관을 설립하셨는데, 이 연구 기관은 인공지능 안전성만을 전문적으로 연구합니다.
[원문 중국어 문장]: 那去年的時候呢,我導師和 其他很多科學家,包括我們院的院長、圖靈獎得主姚期智院士,包括了加拿大的 Yoshua Bengio 院士、圖靈獎得主,以及張亞勤院士,在威尼斯共同簽署了一個《人工智能安全倡議書》。 (Nà qùnián de shíhòu ne, wǒ dǎoshī hé qítā hěn duō kēxuéjiā, bāokuò wǒmen yuàn de yuànzhǎng, Túlíng jiǎng dézhǔ Yáo Qīzhì yuànshì, bāokuò le Jiānádà de Yoshua Bengio yuànshì, Túlíng jiǎng dézhǔ, yǐjí Zhāng Yàqín yuànshì, zài Wēinísī gòngtóng qiānshǔ le yī gè 《Rén gōng zhìnéng ānquán chàngyì shū》.) 작년에 제 지도 교수님과 다른 많은 과학자들, 예를 들어 저희 대학원장님이신 튜링상 수상자 야오치즈(姚期智) 원사, 캐나다의 요슈아 벤지오(Yoshua Bengio) 원사(역시 튜링상 수상자), 그리고 장야친(張亞勤) 원사 등이 베니스에서 《인공지능 안전성 이니셔티브(人工智能安全倡議書)》에 공동으로 서명했습니다.
[원문 중국어 문장]: 其中一起來推動各國的政府把人工智能的安全性納入公共政策的考慮。 (Qízhōng yī qǐlái tuīdòng gè guó de zhèngfǔ bǎ réngōng zhìnéng de ānquán xìng nàrù gōnggòng zhèngcè de kǎolǜ.) 그 안에서 함께 각국 정부가 인공지능의 안전성을 공공 정책 고려 사항에 포함하도록 추진하고 있습니다.
[원문 중국어 문장]: 所以呢,我想說今天聊了這麼多的技術的話題,其實 AI 的這些問題都在被計算機科學家認真的研究的。 (Suǒyǐ ne, wǒ xiǎng shuō jīntiān liáo le zhème duō de jìshù de huàtí, qíshí AI de zhèxiē wèntí dōu zài bèi jìsuànjī kēxuéjiā rènzhēn de yánjiū de.) 그래서 저는 오늘 이렇게 많은 기술적 주제에 대해 이야기했지만, 사실 AI의 이러한 문제들은 컴퓨터 과학자들에 의해 진지하게 연구되고 있다는 것을 말씀드리고 싶습니다.
[원문 중국어 문장]: 所以也正式因為這些問題都被正式被討論、被認真的研究,我相信未來應該會更好。(Suǒyǐ yě zhèngshì yīnwèi zhèxiē wèntí dōu bèi zhèngshì bèi tǎolùn, bèi rènzhēn de yánjiū, wǒ xiāngxìn wèilái yīnggāi huì gèng hǎo.) 따라서 이러한 문제들이 공식적으로 논의되고 진지하게 연구되고 있기 때문에, 저는 미래가 더 나아질 것이라고 믿습니다.
[원문 중국어 문장]: 那當然最後我再插播一下廣告了,就是大家如果對深度學習感興趣、對強化學習感興趣,可以在 B 站上搜我的名字或者在 小宇宙 FM 搜我的名字,可以看到我們的公開課,也可以看到我在上面做的一些科普的播客。 (Nà dāngrán zuìhòu wǒ zài chābō yīxià guǎnggào le, jiù shì dàjiā rúguǒ duì shēndù xuéxí gǎnxìngqù, duì qiánghuà xuéxí gǎnxìngqù, kěyǐ zài B zhàn shàng sōu wǒ de míngzì huòzhě zài Xiǎo yǔzhòu FM sōu wǒ de míngzì, kěyǐ kàndào wǒmen de gōngkāi kè, yě kěyǐ kàndào wǒ zài shàngmian zuò de yīxiē kēpǔ de bōkè.) 물론 마지막으로 광고를 하나 삽입하자면, 여러분이 만약 딥러닝(심층 학습)에 관심이 있거나 강화 학습에 관심이 있다면, Bilibili(B站)나 샤오위저우(小宇宙) FM에서 제 이름을 검색하시면 저희의 공개 강의를 볼 수 있고, 제가 그 위에서 진행한 일부 과학 교양 팟캐스트를 보실 수도 있습니다.
[원문 중국어 문장]: 所以這就是今天我分享的內容,我叫吳翼,我在清華大學交叉信息院研究強化學習,謝謝大家。 (Suǒyǐ zhè jiù shì jīntiān wǒ fēnxiǎng de nèiróng, wǒ jiào Wú Yì, wǒ zài Qīnghuá Dàxué Jiāochā Xìnxī Yuàn yánjiū qiánghuà xuéxí, xièxie dàjiā.) 이것이 오늘 제가 공유한 내용이며, 저는 우이(吳翼)이고 칭화대학 교차정보원에서 강화 학습을 연구하고 있습니다. 감사합니다.