我们在训练AI的时候，目标都是简单的、明确的，但是人类的真实目标总是含糊的，不确定的。

어학

我们在训练AI的时候，目标都是简单的、明确的，但是人类的真实目标总是含糊的，不确定的。

EyesWideShut 2025. 9. 30. 14:17

人物介绍 / 인물 소개

吴翼（1992年出生）是清华大学交叉信息研究院助理教授，本科毕业于清华大学交叉信息学院姚班（2014届），2019年获美国加州大学伯克利分校博士学位。
Wú Yì (1992 nián chūshēng) shì Qīnghuá Dàxué Jiāochā Xìnxī Yánjiūyuàn zhùlǐ jiàoshòu, běnkē bìyè yú Qīnghuá Dàxué Jiāochā Xìnxī Xuéyuàn Yáo Bān (2014 jiè), 2019 nián huò Měiguó Jiāzhōu Dàxué Bókèlǐ fēnxiào bóshì xuéwèi.
우이(1992년생)는 칭화대학교 교차정보연구원 조교수이며, 학부는 칭화대 교차정보학원 야오반(2014년 졸업)에서 수학했고, 2019년 미국 UC버클리에서 박사 학위를 받았다.

2020年以助理教授身份回归交叉信息院，研究方向聚焦多智能体强化学习与机器人学领域。
2020 nián yǐ zhùlǐ jiàoshòu shēnfèn huíguī Jiāochā Xìnxī Yuàn, yánjiū fāngxiàng jùjiāo duō zhìnéngtǐ qiánghuà xuéxí yǔ jīqìrénxué lǐngyù.
2020년 조교수로 교차정보원에 복귀하여, 다중 지능체 강화학습과 로보틱스 분야를 연구하고 있다.

其研究方向聚焦强化学习、多智能体系统、大模型对齐与机器人学，主导开发了分布式强化学习框架MAPPO、强化学习训练系统SRL等核心技术。
Qí yánjiū fāngxiàng jùjiāo qiánghuà xuéxí, duō zhìnéngtǐ xìtǒng, dà móxíng duìqí yǔ jīqìrénxué, zhǔdǎo kāifā le fēnbùshì qiánghuà xuéxí kuàngjià MAPPO, qiánghuà xuéxí xùnliàn xìtǒng SRL děng héxīn jìshù.
그의 연구는 강화학습, 다중 지능체 시스템, 대규모 모델 정렬, 로보틱스에 집중되어 있으며, 분산 강화학습 프레임워크 MAPPO, 강화학습 훈련 시스템 SRL 등의 핵심 기술 개발을 주도했다.

2020年入职清华大学后，承担《深度学习》等课程教学，指导学生在生成模型、图像处理等领域完成多项实践项目。
2020 nián rùzhí Qīnghuá Dàxué hòu, chéngdān 《Shēndù Xuéxí》 děng kèchéng jiàoxué, zhǐdǎo xuéshēng zài shēngchéng móxíng, túxiàng chǔlǐ děng lǐngyù wánchéng duō xiàng shíjiàn xiàngmù.
2020년 칭화대에 부임한 이후, 《딥러닝》 등 과목을 담당하며 학생들을 지도하여 생성 모델, 영상 처리 등 분야에서 다양한 실습 프로젝트를 완성하게 했다.

同时担任蚂蚁集团强化学习实验室首席科学家，并于2023年创立具身智能企业边塞科技。
Tóngshí dānrèn Mǎyǐ Jítuán Qiánghuà Xuéxí Shíyànshì shǒuxí kēxuéjiā, bìng yú 2023 nián chuànglì jùshēn zhìnéng qǐyè Biānsài Kējì.
또한 앤트그룹 강화학습 연구소의 수석 과학자로 활동하며, 2023년에는 ‘체현지능(embodied intelligence)’ 기업인 변새테크(边塞科技)를 설립했다.

[원문 중국어 문장]: 大家好我叫吳藝之前在 OPENAI 工作現在在清華大學交叉信息研究院做助理教授我也是一個博士生導師我研究的方向是強化學習很高興又來一席了這是我第二次來一席第一次來的時候是五年前那個時候剛從 OPENAI 回國回到清華大學這個是當時的照片當時的標題叫黑 i 也跟大家聊了 AI 我今天還特地敬了一下找一找當年的年輕的感覺(Dàjiā hǎo wǒ jiào Wú Yì zhīqián zài OpenAI gōngzuò xiànzài zài Qīnghuá Dàxué Jiāochā Xìnxī Yánjiūyuàn zuò zhùlǐ jiàoshòu wǒ yě shì yīgè bóshìshēng dǎoshī wǒ yánjiū de fāngxiàng shì qiánghuà xuéxí hěn gāoxìng yòu lái Yīxí le zhè shì wǒ dì èr cì lái Yīxí dì yī cì lái de shíhòu shì wǔ nián qián nàgè shíhòu gāng cóng OpenAI huíguó huí dào Qīnghuá Dàxué zhègè shì dāngshí de zhàopiàn dāngshí de biāotí jiào hēi i yě gēn dàjiā liáo le AI wǒ jīntiān hái tèdì jìng le yīxià zhǎo yī zhǎo dāngnián de niánqīng de gǎnjué) 여러분 안녕하세요, 저는 우이(吳藝)입니다. 이전에는 OpenAI에서 일했고, 지금은 칭화대학교 교차정보연구원에서 조교수로 일하고 있으며 박사 과정 학생 지도교수이기도 합니다. 제 연구 분야는 강화 학습입니다. 이석(一席, Yix-i)에 다시 오게 되어 매우 기쁩니다. 이번이 두 번째 방문이고, 첫 번째는 5년 전이었는데, 그때는 막 OpenAI에서 귀국하여 칭화대학교로 돌아왔을 때였습니다.이 사진이 그때 사진인데, 당시 제목은 'Black i'였고 여러분과 AI에 대해 이야기를 나눴습니다. 오늘은 특별히 그때를 경의를 표하며 그 시절의 젊은 느낌을 찾아보려고 했습니다.

[원문 중국어 문장]: 五年之間其實發生了很多的事情比如說五年前的時候還需要跟大家解釋一下什麼是 AGI 需要跟大家介紹我工作的公司 OpenAI 是一家什麼樣的公司那麼今天我相信應該不用再介紹了(Wǔ nián zhījiān qíshí fāshēng le hěn duō de shìqíng bǐrú shuō wǔ nián qián de shíhòu hái xūyào gēn dàjiā jiěshì yīxià shénme shì AGI xūyào gēn dàjiā jièshào wǒ gōngzuò de gōngsī OpenAI shì yī jiā shénmeyàng de gōngsī nàme jīntiān wǒ xiāngxìn yīnggāi bùyòng zài jièshào le) 지난 5년 동안 정말 많은 일들이 일어났습니다. 예를 들어, 5년 전에는 여러분에게 AGI가 무엇인지 설명해야 했고, 제가 일했던 회사인 OpenAI가 어떤 회사인지 소개해야 했습니다. 하지만 오늘은 더 이상 소개할 필요가 없다고 믿습니다.

[원문 중국어 문장]: 而且棋子是不用再介紹我昨天搜了一下我發現有人說 AI 要統治世界了還有人說這個 AI 還要毀滅世界(Érqiě qízi shì bùyòng zài jièshào wǒ zuótiān sōu le yīxià wǒ fāxiàn yǒurén shuō AI yào tǒngzhì shìjiè le háiyǒu rén shuō zhègè AI háiyào huǐmiè shìjiè) 게다가 굳이 설명할 필요도 없는 것이,제가 어제 검색해보니 어떤 사람들은 AI가 세상을 지배할 것이라고 말하고, 또 어떤 사람들은 AI가 세상을 파괴할 것이라고 말합니다.

[원문 중국어 문장]: 我們有一個非常著名的科學家 JF Kington 教授 JF Kington 教授是諾貝爾獎和圖獎的雙料得主他多次在公開媒體上說我們需要正式 AI 給人類社會帶來的威脅(Wǒmen yǒu yīgè fēicháng zhùmíng de kēxuéjiā JF Kington jiàoshòu JF Kington jiàoshòu shì Nuòbèi'ěr Jiǎng hé Tú Jiǎng de shuāng liào dé zhǔ tā duōcì zài gōngkāi méitǐ shàng shuō wǒmen xūyào zhèngshì AI gěi rénlèi shèhuì dàilái de wēixié) 우리에게는 노벨상과 튜링상을 모두 수상한 매우 저명한 과학자 JF Kington 교수가 있습니다.그는 공개 매체에서 여러 차례 AI가 인류 사회에 가져올 위협을 직시해야 한다고 말했습니다.

[원문 중국어 문장]: 仔細想一下這有這麼嚴重嗎？我們知道 AI 有一些問題它會有幻覺的問題它會有偏見的問題但是好像距離這個毀滅社會還有點遠(Zǐxì xiǎng yīxià zhè yǒu zhème yánzhòng ma? Wǒmen zhīdào AI yǒu yīxiē wèntí tā huì yǒu huànjué de wèntí tā huì yǒu piānjiàn de wèntí dànshì hǎoxiàng jùlí zhègè huǐmiè shèhuì háiyǒu diǎn yuǎn) 곰곰이 생각해 봅시다. 이 정도로 심각한 일일까요? 우리는 AI에 환각(Hallucination) 문제나 편향(Bias) 문제가 있다는 것을 알지만, 사회 파멸과는 거리가 좀 있어 보입니다.

[원문 중국어 문장]: 那為什麼像 JFON 這樣的大科學家還要反复站出來說 AI 是有危險的？(Nà wèishénme xiàng JFON zhèyàng de dà kēxuéjiā háiyào fǎnfù zhàn chūlái shuō AI shì yǒu wēixiǎn de?) 그렇다면 JFON과 같은 위대한 과학자들이 왜 계속해서 AI가 위험하다고 반복적으로 주장하는 것일까요?

[원문 중국어 문장]: 這裡我想講一個小的例子比如說你知道 30 年之後火星要撞地球那麼現在我應該做什麼？(Zhèlǐ wǒ xiǎng jiǎng yīgè xiǎo de lìzi bǐrú shuō nǐ zhīdào 30 nián zhīhòu Huǒxīng yào zhuàng Dìqiú nàme xiànzài wǒ yīnggāi zuò shénme?) 여기서 작은 예를 하나 들어보겠습니다. 예를 들어, 30년 후에 화성이 지구에 충돌할 것이라는 사실을 알게 되었다면, 지금 당장 무엇을 해야 할까요?

[원문 중국어 문장]: 是應該現在就去主動準備起來還是說哦年啊再躺十年再說(Shì yīnggāi xiànzài jiù qù zhǔdòng zhǔnbèi qǐlái háishì shuō ó nián ā zài tǎng shí nián zàishuō) 지금부터 능동적으로 준비를 시작해야 할까요, 아니면 "아, 30년 남았네. 10년 더 누워 있다가 얘기하자"라고 말해야 할까요?

[원문 중국어 문장]: 好像聽起來應該是我們應該做點什麼(Hǎoxiàng tīng qǐlái yīnggāi shì wǒmen yīnggāi zuò diǎn shénme) 듣자 하니 우리가 무언가를 해야 할 것 같습니다.

[원문 중국어 문장]: 所以其實 AI 安全的問題它一直都是一個技術問題在被計算機科學家所研究(Suǒyǐ qíshí AI ānquán de wèntí tā yīzhí dōu shì yīgè jìshù wèntí zài bèi jìsuànjī kēxuéjiā suǒ yánjiū) 따라서 사실 AI 안전 문제는 줄곧 컴퓨터 과학자들이 연구해 온 기술 문제입니다.

[원문 중국어 문장]: 所以今天呢我就想用一個計算機科學家的視角來跟大家講一講 AI 到底有什麼問題它背後的原因到底是什麼(Suǒyǐ jīntiān ne wǒ jiù xiǎng yòng yīgè jìsuànjī kēxuéjiā de shìjiǎo lái gēn dàjiā jiǎng yī jiǎng AI dàodǐ yǒu shénme wèntí tā bèihòu de yuányīn dàodǐ shì shénme) 그래서 오늘 저는 컴퓨터 과학자의 시각으로 AI에 어떤 문제가 있고 그 배후의 원인이 무엇인지 여러분과 이야기 나누고자 합니다.

[원문 중국어 문장]: 我們先從自動駕駛開始說起吧(Wǒmen xiān cóng zìdòng jiàshǐ kāishǐ shuō qǐ ba) 먼저 자율 주행부터 시작해 봅시다.

[원문 중국어 문장]: 自動駕駛有一個非常重要的功能就是看路牌比如說你看到一個 stop sign 那麼你應該停下來(Zìdòng jiàshǐ yǒu yīgè fēicháng zhòngyào de gōngnéng jiùshì kàn lùpái bǐrú shuō nǐ kàndào yīgè stop sign nàme nǐ yīnggāi tíng xiàlái) 자율 주행에는 도로 표지판을 보는 매우 중요한 기능이 있습니다. 예를 들어, **정지 표지판(stop sign)**을 보면 멈춰야 합니다.

[원문 중국어 문장]: 如果你看到一個線速標誌的話那麼大概率應該減速(Rúguǒ nǐ kàndào yīgè xiànsù biāozhì de huà nàme dàgàilǜ yīnggāi jiǎnsù) 만약 제한 속도 표지판을 본다면, 아마도 감속해야 할 것입니다.

[원문 중국어 문장]: 好我們現在就看這個看錄牌的事我們希望訓練一個 AI 模型來識別錄牌(Hǎo wǒmen xiànzài jiù kàn zhègè kàn lùpái de shì wǒmen xīwàng xùnliàn yīgè AI móxíng lái shìbié lùpái) 좋습니다, 이제 이 표지판 인식에 대해 살펴보겠습니다. 우리는 표지판을 식별하는 AI 모델을 훈련시키고자 합니다.

[원문 중국어 문장]: 這件事對於 AI 來說其實蠻簡單的我們很容易訓練出一個很好的 AI 它不管是一個比較完整的 stop sign 還是一個在真實接上的 stop sign 它都可以看到這是讓我們停下來(Zhè jiàn shì duìyú AI láishuō qíshí mán jiǎndān de wǒmen hěn róngyì xùnliàn chū yīgè hěn hǎo de AI tā bùguǎn shì yīgè bǐjiào wánzhěng de stop sign háishì yīgè zài zhēnshí jiē shàng de stop sign tā dōu kěyǐ kàndào zhè shì ràng wǒmen tíng xiàlái) 이 일은 사실 AI에게는 꽤 간단합니다. 우리는 매우 훌륭한 AI를 쉽게 훈련시킬 수 있습니다. AI는 비교적 완벽한 정지 표지판이든, 실제 거리의 정지 표지판이든 상관없이 그것이 우리를 멈추게 하는 표지판임을 인식할 수 있습니다.

[원문 중국어 문장]: 但是博克利的研究團隊發現如果我們非常小心的在這些路牌上貼上一些膠帶的話事情就會不太一樣(Dànshì Bókèlì de yánjiū tuánduì fāxiàn rúguǒ wǒmen fēicháng xiǎoxīn de zài zhèxiē lùpái shàng tiē shàng yīxiē jiāodài de huà shìqíng jiù huì bù tài yīyàng) 하지만 버클리 연구팀은 만약 우리가 이 표지판 위에 아주 조심스럽게 테이프를 붙인다면 상황이 달라진다는 것을 발견했습니다.

[원문 중국어 문장]: 我們我們再把這個 AI 模型去看一下這些貼了膠帶的照片你會發現它會識別出來這是線速表值(Wǒmen wǒmen zài bǎ zhègè AI móxíng qù kàn yīxià zhèxiē tiē le jiāodài de zhàopiàn nǐ huì fāxiàn tā huì shìbié chūlái zhè shì xiànsù biǎozhí) 우리가 이 AI 모델로 테이프가 붙은 사진을 다시 보게 하면, AI가 그것을 제한 속도 표지판으로 인식한다는 것을 알게 될 것입니다.

[원문 중국어 문장]: 那這就比較嚴重了本來應該停下來結果這個車一腳油門就衝了過去要出車禍的(Nà zhè jiù bǐjiào yánzhòng le běnlái yīnggāi tíng xiàlái jiéguǒ zhègè chē yī jiǎo yóumén jiù chōng le guòqù yào chū chēhuò de) 이것은 꽤 심각합니다. 원래는 멈춰야 하는데, 이 차는 엑셀을 밟고 돌진하여 교통사고를 낼 것입니다.

[원문 중국어 문장]: 這種現象我們叫他對抗樣本(Zhè zhǒng xiànxiàng wǒmen jiào tā duìkàng yàngběn)이러한 현상을 우리는 **적대적 예시(Adversarial Example)**라고 부릅니다.

[원문 중국어 문장]: 我們把這些經過人為的加上了微小的篡改但是人看起來覺得沒有什麼樣但是卻給 AI 模型帶來很大變化的圖片叫 ary example(Wǒmen bǎ zhèxiē jīngguò rénwéi de jiāshàng le wēixiǎo de cuàngǎi dànshì rén kàn qǐlái juéde méiyǒu shénmeyàng dànshì què gěi AI móxíng dài lái hěn dà biànhuà de túpiàn jiào ary example) 우리는 사람이 보기에는 아무렇지 않지만, AI 모델에는 큰 변화를 가져오는 인위적이고 미세한 변형이 가해진 이러한 이미지를 Adversary Example이라고 부릅니다. (발음: "애드버서리 이그잼플"로 추정)

[원문 중국어 문장]: 我們再看個例子上面這張圖是一個車的車載相機第一視角的照片(Wǒmen zài kàn gè lìzi shàngmiàn zhè zhāng tú shì yīgè chē de chēzài xiàngjī dì yī shìjiǎo de zhàopiàn) 다른 예를 하나 더 봅시다. 위에 있는 사진은 차량용 카메라의 1인칭 시점 사진입니다.

[원문 중국어 문장]: 下面這張圖是 AI 模型做的識別的結果識別的非常準確(Xiàmiàn zhè zhāng tú shì AI móxíng zuò de shìbié de jiéguǒ shìbié de fēicháng zhǔnquè) 아래 그림은 AI 모델이 식별한 결과인데, 매우 정확하게 식별했습니다.

[원문 중국어 문장]: 但是如果我們在這個識別照片上加上非常非常小的人類都感覺不到的小的擾動我們可以讓 AI 模型看到 Hello Kitty 或者看到文或者看到一個計算機頂級會議的 logo(Dànshì rúguǒ wǒmen zài zhègè shìbié zhàopiàn shàng jiāshàng fēicháng fēicháng xiǎo de rénlèi dōu gǎnjué bù dào de xiǎo de rǎodòng wǒmen kěyǐ ràng AI móxíng kàndào Hello Kitty huòzhě kàndào wén huòzhě kàndào yīgè jìsuànjī dǐngjí huìyì de logo) 하지만 우리가 이 식별 사진에 **인간이 거의 감지할 수 없는 매우 작은 교란(perturbation)**을 추가하면, 우리는 AI 모델이 헬로 키티나 "문" 또는 최고 수준의 컴퓨터 학회 로고를 보도록 만들 수 있습니다.

[원문 중국어 문장]: 這件事情呢在自然文字領域也會出現我們看一個機器翻譯的例子(Zhè jiàn shìqíng ne zài zìrán wénzì lǐngyù yě huì chūxiàn wǒmen kàn yīgè jīqì fānyì de lìzi) 이러한 일은 자연어 처리(Natural Language Processing) 분야에서도 발생합니다. 기계 번역의 예를 하나 봅시다.

[원문 중국어 문장]: 上面這個句子是耶路撒冷發生自殺爆炸時間很正常翻譯的結果也很正常(Shàngmiàn zhègè jùzi shì Yēlùsālěng fāshēng zìshā bàozhà shíjiān hěn zhèngcháng fānyì de jiéguǒ yě hěn zhèngcháng) 위에 있는 문장은 "예루살렘에서 자살 폭탄 공격이 발생했다"라는 문장인데, 번역 결과도 매우 정상적입니다.

[원문 중국어 문장]: 但是如果你把爆炸的炸字給刪掉那麼這個輸出就很不正常(Dànshì rúguǒ nǐ bǎ bàozhà de zhà zì gěi shān diào nàme zhègè shūchū jiù hěn bù zhèngcháng) 하지만 만약 당신이 '폭발(爆炸,bàozhà)'의 '폭(炸)' 글자를 지운다면, 그 출력은 매우 비정상적으로 됩니다.

[원문 중국어 문장]: 甚至你可以乾脆給這個 AI 翻譯模型輸入亂碼(Shènzhì nǐ kěyǐ gāncuì gěi zhègè AI fānyì móxíng shūrù luànmǎ) 심지어 당신은 이 AI 번역 모델에 아예 **잡음(난수)**을 입력할 수도 있습니다.

[원문 중국어 문장]: 這些亂馬在人類看起來毫無意義但是你可以控制 AI 翻譯軟件幫你說我要殺了你(Zhèxiē luàn mǎ zài rénlèi kàn qǐlái háowú yìyì dànshì nǐ kěyǐ kòngzhì AI fānyì ruǎnjiàn bāng nǐ shuō wǒ yào shā le nǐ) 이러한 잡음은 인간에게는 아무 의미가 없지만, 당신은 AI 번역 소프트웨어를 조종하여 "내가 너를 죽이겠다"라고 말하게 할 수 있습니다.

[원문 중국어 문장]: 在大模型時代其實更離譜一些(Zài dà móxíng shídài qíshí gèng lípǔ yīxiē)대규모 언어 모델(LLM) 시대에는 사실 더 황당합니다.

[원문 중국어 문장]: 這張照片是一個簡筆化人處無害但是如果你在他的背景上加上一些非常小的擾動你會一下子激怒大模型讓它瘋狂爆出口(Zhè zhāng zhàopiàn shì yīgè jiǎnbǐ huà rén chǔ wú hài dànshì rúguǒ nǐ zài tā de bèijǐng shàng jiāshàng yīxiē fēicháng xiǎo de rǎodòng nǐ huì yīxiàzi jī nù dà móxíng ràng tā fēngkuáng bào chū kǒu) 이 사진은 단순한 스케치 그림으로, 무해합니다. 하지만 만약 당신이 그 배경에 아주 작은 교란을 추가한다면, 당신은 순식간에 LLM을 격노하게 만들어 미친 듯이 욕설을 쏟아내게 할 수 있습니다.

[원문 중국어 문장]: 所以到底是為什麼呢？為什麼會出現這樣的現象？(Suǒyǐ dàodǐ shì wèishénme ne? Wèishénme huì chūxiàn zhèyàng de xiànxiàng?) 그래서 도대체 왜 이런 현상이 일어나는 것일까요?

[원문 중국어 문장]: 那我們大致來解釋一下這個原因是因為通用 AI 可以接受的輸入範圍太廣了(Nà wǒmen dàzhì lái jiěshì yīxià zhègè yuányīn shì yīnwèi tōngyòng AI kěyǐ jiēshòu de shūrù fànwéi tài guǎng le) 이유를 대략적으로 설명해 드리겠습니다. 그 이유는 **범용 AI(General AI)**가 받아들일 수 있는 입력 범위가 너무 넓기 때문입니다.

[원문 중국어 문장]: 你可以輸入任何像素組成的圖片你可以輸入任何由文字或者符號組成的序列都可以(Nǐ kěyǐ shūrù rènhé xiàngsù zǔchéng de túpiàn nǐ kěyǐ shūrù rènhé yóu wénzì huòzhě fúhào zǔchéng de xùliè dōu kěyǐ) 당신은 어떤 픽셀로 구성된 이미지든 입력할 수 있고, 어떤 문자나 기호로 구성된 시퀀스든 입력할 수 있습니다.

[원문 중국어 문장]: 但是我們在訓練 AI 的時候我們用的是人類產生的自然語言我們用的是真實世界的照片這個範圍比起 AI 可以接受的範圍是遠遠小的(Dànshì wǒmen zài xùnliàn AI de shíhòu wǒmen yòng de shì rénlèi chǎnshēng de zìrán yǔyán wǒmen yòng de shì zhēnshí shìjiè de zhàopiàn zhègè fànwéi bǐ qǐ AI kěyǐ jiēshòu de fànwéi shì yuǎnyuǎn xiǎo de) 하지만 우리가 AI를 훈련시킬 때 사용하는 것은 인간이 생성한 자연어와 실제 세계의 사진입니다. 이 범위는 AI가 받아들일 수 있는 범위보다 훨씬 작습니다.

[원문 중국어 문장]: 所以有這麼大的一個藍色空間其實我們很難去真正控制 AI 在這些沒有見過的輸入上到底輸出什麼(Suǒyǐ yǒu zhème dà de yīgè lánsè kōngjiān qíshí wǒmen hěn nán qù zhēnzhèng kòngzhì AI zài zhèxiē méiyǒu jiànguò de shūrù shàng dàodǐ shūchū shénme) 따라서 이토록 거대한 파란색 공간이 존재하기 때문에, 사실 우리는 AI가 한 번도 보지 못한 입력에 대해 어떤 출력을 할지 실제로 통제하기 매우 어렵습니다.

[원문 중국어 문장]: 於是如果有一個壞人他就可以在藍色空間這麼大的空間中選擇一個點這個點就是對抗樣本(Yúshì rúguǒ yǒu yīgè huàirén tā jiù kěyǐ zài lánsè kōngjiān zhème dà de kōngjiān zhōng xuǎnzé yīgè diǎn zhègè diǎn jiù shì duìkàng yàngběn) 결국, 만약 나쁜 사람이 있다면, 그는 이 광활한 파란색 공간에서 한 점을 선택할 수 있고, 이 점이 바로 적대적 예시가 됩니다.

[원문 중국어 문장]: 這個對抗樣本它的輸出可以是這個壞人所以這事嚴重嗎？(Zhègè duìkàng yàngběn tā de shūchū kěyǐ shì zhègè huàirén suǒyǐ zhè shì yánzhòng ma?) 이 적대적 예시의 출력은 이 나쁜 사람이 원하는 것이 될 수 있습니다. 그렇다면 이 문제는 심각한가요?

[원문 중국어 문장]: 嗯理論上述理論上述這事不可避免因為這個是大模型內在的缺陷(Èn lǐlùn shàng shù lǐlùn shàng shù zhè shì bùkě bìmiǎn yīnwèi zhègè shì dà móxíng nèizài de quēxiàn) 음... 이론적으로 말하자면, 이것은 대규모 언어 모델의 내재적인 결함이기 때문에 피할 수 없습니다.

[원문 중국어 문장]: 但是呢實際上其實它也沒那麼嚴重因為我們其實每個人都知道對抗樣本的存在(Dànshì ne shíjì shàng qíshí tā yě méi nàme yánzhòng yīnwèi wǒmen qíshí měigè rén dōu zhīdào duìkàng yàngběn de cúnzài) 하지만 실제로는 그렇게 심각하지 않습니다. 왜냐하면 우리 모두가 적대적 예시의 존재를 알고 있기 때문입니다.

[원문 중국어 문장]: 所以呢大部分的 AI 應用都會做非常多的 AI 的加強也會對於輸入惡意的輸入做出非常嚴格的檢所以實際上還好(Suǒyǐ ne dà bùfèn de AI yìngyòng dōu huì zuò fēicháng duō de AI de jiāqiáng yě huì duìyú shūrù èyì de shūrù zuòchū fēicháng yángé de jiǎn suǒyǐ shíjì shàng háihǎo) 그래서 대부분의 AI 애플리케이션은 굉장히 많은 AI 강화 조치를 취하며, 악의적인 입력에 대해 매우 엄격한 검사를 합니다. 따라서 실제로는 괜찮습니다.

[원문 중국어 문장]: 但是即使輸入完全沒有任何惡意最後還是有 AI 產品出了一些試故出世的(Dànshì jíshǐ shūrù wánquán méiyǒu rènhé èyì zuìhòu háishì yǒu AI chǎnpǐn chū le yīxiē shìgù chū shì de) 하지만 입력에 악의가 전혀 없었음에도 불구하고, 결국 사고를 일으킨 AI 제품들이 있었습니다.

[원문 중국어 문장]: 這個人叫 Google 2015 年的時候有一個美國的黑人小哥他把他和他的字拍照發到了 Google 的 Google Photo 的應用上(Zhègè rén jiào Google 2015 nián de shíhòu yǒu yīgè Měiguó de hēirén xiǎogē tā bǎ tā hé tā de zì pāizhào fā dào le Google de Google Photo de yìngyòng shàng) 이 사람이 바로 Google입니다. 2015년에 한 미국의 흑인 남성이 자신과 친구의 사진을 Google의 Google Photo 앱에 올렸습니다.

[원문 중국어 문장]: Google 的 AI 把他打了個標籤叫大猩猩賀這美國是天大的事情所以 Google 還是花了一些成本去擺平了這件事情(Google de AI bǎ tā dǎ le gè biāoqīan jiào dà xīngxīng hè zhè Měiguó shì tiāndà de shìqíng suǒyǐ Google háishì huā le yīxiē chéngběn qù bǎipíng le zhè jiàn shìqíng) Google의 AI는 그에게 **'고릴라(大猩猩)'**라는 태그를 붙였습니다. 이것은 미국에서는 엄청나게 큰일이어서, Google은 이 문제를 해결하기 위해 많은 비용을 들여야 했습니다.

[원문 중국어 문장]: 大家可以猜一猜啊 Google 最後產品上是怎麼解決這個問題猜一猜我可以介紹答案了(Dàjiā kěyǐ cāi yī cāi ā Google zuìhòu chǎnpǐn shàng shì zěnme jiějué zhègè wèntí cāi yī cāi wǒ kěyǐ jièshào dá'àn le) 여러분은 Google이 이 문제를 제품상에서 최종적으로 어떻게 해결했는지 추측해 볼 수 있습니다. 맞춰보세요. 제가 답을 알려드릴 수 있습니다.

[원문 중국어 문장]: 就是也沒有那麼沒有那麼麻煩沒有什麼高深的技術 Google 的把大性這個標籤扔掉了本來也是嘛你一個美國的相冊軟件幹嘛要大清醒(Jiùshì yě méiyǒu nàme méiyǒu nàme máfan méiyǒu shénme gāoshēn de jìshù Google de bǎ dà xìng zhègè biāoqīan rēng diào le běnlái yě shì ma nǐ yīgè Měiguó de xiàngcè ruǎnjiàn gànmá yào dà qīngxǐng) 바로, 그렇게 복잡하지 않았습니다. 대단히 심오한 기술은 없었고, Google은 그냥 **'고릴라'**라는 태그를 없애버렸습니다. 원래도 그렇지 않습니까? 미국 사진첩 소프트웨어에 '고릴라' 태그가 왜 필요하겠어요?

[원문 중국어 문장]: Google 出了事後來亞馬遜也出了個小事有一個記者發現亞馬遜的招聘部門要有 AI 去幫他篩簡歷(Google chū le shì hòulái Yǎmǎxùn yě chū le gè xiǎoshì yǒu yīgè jìzhě fāxiàn Yǎmǎxùn de zhāopìn bùmén yào yǒu AI qù bāng tā shāi jiǎnlì) Google에서 사고가 난 후, 나중에 Amazon에서도 작은 문제가 발생했습니다. 한 기자가 Amazon 채용 부서에서 AI를 사용하여 이력서를 심사한다는 것을 발견했습니다.

[원문 중국어 문장]: 他發現呢亞馬遜用的這個 AI 只要看到簡力裡面有女性這個字樣直接會把它 pass 掉這性別歧士也很糟糕也很糟糕被爆了(Tā fāxiàn ne Yǎmǎxùn yòng de zhègè AI zhǐyào kàndào jiǎnlì lǐmiàn yǒu nǚxìng zhègè zìyàng zhíjiē huì bǎ tā pass diào zhè xìngbié qíshì yě hěn zāogāo yě hěn zāogāo bèi bào le) 그는 Amazon이 사용하는 이 AI가 이력서에 **'여성'**이라는 단어가 보이면 **바로 탈락시킨다(pass off)**는 것을 발견했습니다. 이 성차별 문제도 매우 심각했고, 결국 폭로되었습니다.

[원문 중국어 문장]: 所以這個問題就來了那麼 AI 的偏見 as 到底是怎麼來的？(Suǒyǐ zhègè wèntí jiù lái le nàme AI de piānjiàn as dàodǐ shì zěnme lái de?) 그래서 이러한 질문이 생깁니다. AI의 **편향(Bias)**은 도대체 어디서 오는 것일까요?

[원문 중국어 문장]: 我們先從技術上給技術上說它是由模型的缺陷不完美的數據和一些其他的因素很複雜共同導致的(Wǒmen xiān cóng jìshù shàng gěi jìshù shàng shuō tā shì yóu móxíng de quēxiàn bù wánměi de shùjù hé yīxiē qítā de yīnsù hěn fùzá gòngtóng dǎozhì de) 먼저 기술적인 관점에서 이야기해 봅시다. 기술적으로는 모델의 결함, 불완전한 데이터, 그리고 기타 매우 복잡한 요인들이 공동으로 초래한 것입니다.

[원문 중국어 문장]: 我們下面跟大家仔細來說一說我們先說說模型的缺陷用術語來說這個叫大模型的過度自信現象 overcfidence(Wǒmen xiān shuōshuō móxíng de quēxiàn yòng shùyǔ láishuō zhègè jiào dà móxíng de guòdù zìxìn xiànxiàng overcfidence) 아래에서 여러분과 자세히 이야기해 봅시다. 먼저 모델의 결함에 대해 이야기해 보겠습니다. 전문 용어로는 이것을 **대규모 언어 모델의 과도한 자신감 현상(Overconfidence)**이라고 부릅니다.

[원문 중국어 문장]: 那什麼是過度自信現象？我們先來講一下大模型的自信度(Nà shénme shì guòdù zìxìn xiànxiàng? Wǒmen xiān lái jiǎng yīxià dà móxíng de zìxìndù) 그렇다면 과도한 자신감 현상은 무엇일까요? 먼저 LLM의 자신감(Confidence) 정도에 대해 이야기해 봅시다.

[원문 중국어 문장]: 我想大家應該很熟悉經常會看到一個 AI 模型說這張圖片我覺得 90% 的概率是狗這張圖片我覺得 90% 的概率是貓所以這個多少的這個數就是大模型的自信度(Wǒ xiǎng dàjiā yīnggāi hěn shúxī jīngcháng huì kàndào yīgè AI móxíng shuō zhè zhāng túpiàn wǒ juéde 90% de gàilǜ shì gǒu zhè zhāng túpiàn wǒ juéde 90% de gàilǜ shì māo suǒyǐ zhègè duōshǎo de zhègè shù jiùshì dà móxíng de zìxìndù) 여러분은 아마 익숙하실 겁니다. AI 모델이 "이 사진은 90% 확률로 개라고 생각합니다", "이 사진은 90% 확률로 고양이라고 생각합니다"라고 말하는 것을 자주 보셨을 겁니다. 이 '몇 퍼센트'라는 숫자가 바로 LLM의 자신감 정도입니다.

[원문 중국어 문장]: 怎麼理解這件事呢？理想狀態下如果一個大模型說我有九成的概率說這張圖片是狗那麼我們所期待的其實是如果我給這個模型大概類似的 100 張照片那麼它應該有 90 次說對(Zěnme lǐjiě zhè jiàn shì ne? Lǐxiǎng zhuàngtài xià rúguǒ yīgè dà móxíng shuō wǒ yǒu jiǔ chéng de gàilǜ shuō zhè zhāng túpiàn shì gǒu nàme wǒmen suǒ qīdài de qíshí shì rúguǒ wǒ gěi zhègè móxíng dàgài lèisì de 100 zhāng zhàopiàn nàme tā yīnggāi yǒu 90 cì shuō duì) 이것을 어떻게 이해해야 할까요? 이상적인 상태에서, LLM이 "이 사진이 개일 확률은 90%이다"라고 말한다면, 우리가 기대하는 것은 이 모델에게 대략 유사한 100장의 사진을 주었을 때 90번을 맞혀야 한다는 것입니다.

[원문 중국어 문장]: 所以理想的 AI 的自信度其實它的意思是實際正確率應該這兩個事應該比較接近才對(Suǒyǐ lǐxiǎng de AI de zìxìndù qíshí tā de yìsi shì shíjì zhèngquè lǜ yīnggāi zhè liǎng gè shì yīnggāi bǐjiào jiējìn cái duì) 따라서 이상적인 AI의 자신감 정도는 사실 실제 정확도와 비슷해야 합니다.

[원문 중국어 문장]: 那麼 AI 實際上是不是這樣？過去的 AI 是這樣(Nàme AI shíjì shàng shì bu shì zhèyàng? Guòqù de AI shì zhèyàng) 그렇다면 실제 AI는 어떨까요? 과거의 AI는 그랬습니다.

[원문 중국어 문장]: 這裡我放出了一個 1996 年最有名的 AI 模型叫 LNET 上面這張圖呢是 Lnet 這個模型在輸出不同自信度的時候它在不同數據上的統計的頻率(Zhèlǐ wǒ fàng chū le yīgè 1996 nián zuì yǒumíng de AI móxíng jiào LNet shàngmiàn zhè zhāng tú ne shì LNet zhègè móxíng zài shūchū bùtóng zìxìndù de shíhòu tā zài bùtóng shùjù shàng de tǒngjì de pínlǜ) 여기에 제가 1996년에 가장 유명했던 AI 모델인 LeNet을 가져왔습니다. 위에 있는 그림은 LeNet 모델이 서로 다른 데이터에 대해 서로 다른 자신감 정도를 출력할 때의 통계적 빈도입니다.

[원문 중국어 문장]: 那麼下面這張圖的話它的橫軸是自行度 Y 軸是它的正確率基本上你可以看到是一個正比關係(Nàme xiàmiàn zhè zhāng tú de huà tā de héngzhóu shì zì xíngdù Y zhóu shì tā de zhèngquè lǜ jīběn shàng nǐ kěyǐ kàndào shì yīgè zhèngbǐ guānxì) 아래 그림의 경우, X축은 자신감 정도이고 Y축은 정확도인데, 기본적으로 정비례 관계임을 알 수 있습니다.

[원문 중국어 문장]: 如果你仔細看的話我們把這個 80% 自信度的這條線拿出來你會發現當 et 說它有 80% 自信的時候其實它有 95% 的正確率(Rúguǒ nǐ zǐxì kàn de huà wǒmen bǎ zhègè 80% zìxìndù de zhè tiáo xiàn ná chūlái nǐ huì fāxiàn dāng et shuō tā yǒu 80% zìxìn de shíhòu qíshí tā yǒu 95% de zhèngquè lǜ) 만약 당신이 자세히 본다면, 우리가 80% 자신감의 선을 꺼내 보면, LeNet이 80% 자신감을 가졌을 때 실제로는 95%의 정확도를 가지고 있다는 것을 발견할 것입니다.

[원문 중국어 문장]: 再去看它的分佈的話你會發現甚至 LN 它這個模型會傾向無自信一點(Zài qù kàn tā de fēnbù de huà nǐ huì fāxiàn shènzhì LN tā zhègè móxíng huì qīngxiàng wú zìxìn yīdiǎn) 그 분포를 다시 살펴보면, 심지어 LeNet 모델은 약간 자신이 없는 경향이 있다는 것을 알게 될 것입니다.

[원문 중국어 문장]: 什麼意思呢？也就是 AI 說八成把握大概它一定能做對吧(Shénme yìsi ne? Yějiù shì AI shuō bā chéng bǎwò dàgài tā yīdìng néng zuò duì ba) 무슨 뜻일까요? 즉, AI가 80% 확신한다고 말하면 거의 확실히 맞는다는 것입니다.

[원문 중국어 문장]: 所以這個 AI 雖然有點笨但是它挺靠譜(Suǒyǐ zhègè AI suīrán yǒudiǎn bèn dànshì tā tǐng kàopǔ) 그래서 이 AI는 비록 조금 멍청할지라도 상당히 신뢰할 만합니다.

[원문 중국어 문장]: 好 20 年之後我們來看一看 20 年之後 2016 年最好的 AI 它叫 RNET ResnetNet 是一個非常非常有名的工作它是 21 世紀至今引用最高的論文(Hǎo 20 nián zhīhòu wǒmen lái kàn yī kàn 20 nián zhīhòu 2016 nián zuì hǎo de AI tā jiào RNet ResNet shì yīgè fēicháng fēicháng yǒumíng de gōngzuò tā shì 21 shìjì zhì jīn yǐnyòng zuì gāo de lùnwén) 좋습니다. 20년 후를 봅시다. 2016년 최고의 AI는 ResNet이라고 불립니다. ResNet은 매우 유명한 연구이며, 21세기 현재까지 인용 횟수가 가장 높은 논문입니다.

[원문 중국어 문장]: RESNET 更大也更強但是大家如果觀察一下兩個圖表會發現好像有一些不一樣了(ResNet gèng dà yě gèng qiáng dànshì dàjiā rúguǒ guānchá yīxià liǎng gè túbiǎo huì fāxiàn hǎoxiàng yǒu yīxiē bù yīyàng le) ResNet은 더 크고 더 강력합니다. 하지만 두 차트를 비교해 보면 뭔가 달라진 것을 발견할 수 있습니다.

[원문 중국어 문장]: 我們還是看一下 80% 自信度的時候 RESNET 的輸 80% 自信的時候 Resonnet 其實只有 50% 的正確率(Wǒmen háishì kàn yīxià 80% zìxìndù de shíhòu ResNet de shū 80% zìxìn de shíhòu ResNet qíshí zhǐyǒu 50% de zhèngquè lǜ) 우리가 여전히 80% 자신감일 때를 보면, ResNet이 80% 확신한다고 말했을 때 실제 정확도는 50%에 불과합니다.

[원문 중국어 문장]: 所以對於 resonnet 來說自信度遠遠大於它的實際正確率(Suǒyǐ duìyú ResNet láishuō zìxìndù yuǎnyuǎn dàyú tā de shíjì zhèngquè lǜ) 따라서 ResNet에게는 자신감 정도가 실제 정확도보다 훨씬 높습니다.

[원문 중국어 문장]: 我們再看它的分佈我們會發現有 60% 的時候 ron 直接會說我百自信(Wǒmen zài kàn tā de fēnbù wǒmen huì fāxiàn yǒu 60% de shíhòu ron zhíjiē huì shuō wǒ bǎi zìxìn) 그 분포를 다시 살펴보면, 60%의 경우 ResNet이 **"100% 확신한다"**고 말한다는 것을 발견할 것입니다.

[원문 중국어 문장]: 這就有一點不太靠譜了對吧？因為這個大模型會過度自信(Zhè jiù yǒu yīdiǎn bù tài kàopǔ le duì ba? Yīnwèi zhègè dà móxíng huì guòdù zìxìn) 이것은 조금 신뢰할 수 없는 일입니다. 왜냐하면 이 LLM은 과도하게 자신만만하기 때문입니다.

[원문 중국어 문장]: 所以從技術上說所謂的偏見 bias 就是在特定的比如性別種族場景下大模型的過度自信現象(Suǒyǐ cóng jìshù shàng shuō suǒwèi de piānjiàn bias jiùshì zài tèdìng de bǐrú xìngbié zhǒngzú chǎngjǐng xià dà móxíng de guòdù zìxìn xiànxiàng) 따라서 기술적으로 말하자면, 소위 **편향(Bias)**이란 특정 상황, 예를 들어 성별이나 인종과 같은 상황에서 발생하는 LLM의 과도한 자신감 현상입니다.

[원문 중국어 문장]: 我還想說這個偏見這件事其實非常非常普遍在 AI 領域其實不止於性別不止於種族(Wǒ hái xiǎng shuō zhègè piānjiàn zhè jiàn shì qíshí fēicháng fēicháng pǔbiàn zài AI lǐngyù qíshí bù zhǐ yú xìngbié bù zhǐ yú zhǒngzú) 저는 이 편향 문제가 AI 분야에서 성별이나 인종에 국한되지 않고 매우매우 흔하다는 것을 말씀드리고 싶습니다.

[원문 중국어 문장]: 我講一個我們團隊的一個小的研究啊我們讓大模型 GPT4 去玩石頭剪刀部遊戲(Wǒ jiǎng yīgè wǒmen tuánduì de yīgè xiǎo de yánjiū ā wǒmen ràng dà móxíng GPT-4 qù wán shítou jiǎndāobù yóuxì) 우리 연구팀의 작은 연구 하나를 이야기해 드리겠습니다. 우리는 LLM인 GPT-4에게 가위바위보 게임을 시켰습니다.

[원문 중국어 문장]: 這麼簡單個遊戲這麼聰明的 AI 了吧所以我寫了一個 prompt 我說 AI 你現在玩個收簡單部的遊戲你選一個吧(Zhème jiǎndān gè yóuxì zhème cōngmíng de AI le ba suǒyǐ wǒ xiě le yīgè prompt wǒ shuō AI nǐ xiànzài wán gè shōu jiǎndāobù de yóuxì nǐ xuǎn yīgè ba) 이렇게 간단한 게임, 이렇게 똑똑한 AI라면 할 수 있겠죠? 그래서 저는 프롬프트를 작성하여 "AI야, 가위바위보 게임을 할 건데, 네 것을 선택해 봐"라고 말했습니다.

[원문 중국어 문장]: 這個 AI 想了一會說我知道這個遊戲應該以三分一的概率選不三分一概率選時三分一概率選剪刀所以 AI 確實挺聰明它會(Zhègè AI xiǎng le yīhuǐ shuō wǒ zhīdào zhègè yóuxì yīnggāi yǐ sānfēn yī de gàilǜ xuǎn bù sānfēn yī gàilǜ xuǎn shí sānfēn yī gàilǜ xuǎn jiǎndāo suǒyǐ AI quèshí tǐng cōngmíng tā huì) AI는 잠시 생각하더니 "저는 이 게임에서 3분의 1 확률로 보를, 3분의 1 확률로 바위를, 3분의 1 확률로 가위를 내야 한다는 것을 알고 있습니다"라고 말했습니다. AI는 정말 똑똑해서 방법을 압니다.

[원문 중국어 문장]: 但是如果你讓這個 AI 玩 100 次這個遊戲你做一下統計你會驚訝的發現它有三分 2 的概率會出石透幾乎不出(Dànshì rúguǒ nǐ ràng zhègè AI wán 100 cì zhègè yóuxì nǐ zuò yīxià tǒngjì nǐ huì jīngyà de fāxiàn tā yǒu sānfēn èr de gàilǜ huì chū shítou jīhū bù chū) 하지만 만약 당신이 이 AI에게 이 게임을 100번 시키고 통계를 내본다면, 당신은 놀랍게도 3분의 2의 확률로 바위를 내고, 보와 가위는 거의 내지 않는다는 것을 발견할 것입니다.

[원문 중국어 문장]: 所以這是一個愛出石透的 GPT 是一個口試心非的 AI(Suǒyǐ zhè shì yīgè ài chū shítou de GPT shì yīgè kǒushì xīnfēi de AI) 따라서 이 GPT는 바위를 내기 좋아하는 겉과 속이 다른 AI입니다.

[원문 중국어 문장]: 所以我想說即使在這麼簡單一個人處無害的遊戲上依然會看到過度自信現象(Suǒyǐ wǒ xiǎng shuō jíshǐ zài zhème jiǎndān yīgè rén chǔ wú hài de yóuxì shàng yīrán huì kàndào guòdù zìxìn xiànxiàng) 그래서 저는 이렇게 간단하고 무해한 게임에서도 여전히 과도한 자신감 현상을 볼 수 있다는 것을 말씀드리고 싶습니다.

[원문 중국어 문장]: 好我們稍微想一下這件大模型玩石頭剪刀部喜歡出石頭為什麼偏偏是石頭？(Hǎo wǒmen shāowēi xiǎng yīxià zhè jiàn dà móxíng wán shítou jiǎndāobù xǐhuān chū shítou wèishénme piānpiān shì shítou?) 자, LLM이 가위바위보를 할 때 왜 하필 바위를 내기 좋아했는지 잠시 생각해 봅시다.

[원문 중국어 문장]: 他為啥不喜歡出剪刀呢？(Tā wéi shá bù xǐhuān chū jiǎndāo ne?) 왜 가위는 내기 싫어할까요?

[원문 중국어 문장]: 原因很簡單因為在英語中 rck 一個詞的頻率它就是大於 paper 並且遠遠大於 seas 這個詞(Yuányīn hěn jiǎndān yīnwèi zài Yīngyǔ zhōng rock yīgè cí de pínlǜ tā jiùshì dàyú paper bìngqiě yuǎnyuǎn dàyú seas zhègè cí) 이유는 매우 간단합니다. 영어에서 rock이라는 단어의 빈도가 paper보다 높고 scissors라는 단어보다 훨씬 높기 때문입니다.

[원문 중국어 문장]: 所以大模型就喜歡 rock 咯(Suǒyǐ dà móxíng jiù xǐhuān rock gē) 그래서 LLM은 rock(바위)을 좋아하는 것입니다.

[원문 중국어 문장]: 所以我想說的是數據其實是產生偏見的根本原因(Suǒyǐ wǒ xiǎng shuō de shì shùjù qíshí shì chǎnshēng piānjiàn de gēnběn yuányīn) 그래서 제가 말하고 싶은 것은 데이터가 사실상 편향을 생성하는 근본적인 원인이라는 것입니다.

[원문 중국어 문장]: 所以下面我就跟大家聊一聊數據的事還是回到自動駕駛的例子(Suǒyǐ xiàmiàn wǒ jiù gēn dàjiā liáo yī liáo shùjù de shì háishì huí dào zìdòng jiàshǐ de lìzi) 그러니 이제 여러분과 데이터에 대한 이야기를 해보겠습니다. 다시 자율 주행의 예로 돌아갑시다.

[원문 중국어 문장]: 自動駕駛的問題中間有一個非常重要的挑戰叫做 copy cat problem(Zìdòng jiàshǐ de wèntí zhōngjiān yǒu yīgè fēicháng zhòngyào de tiǎozhàn jiàozuò copy cat problem) 자율 주행 문제 중에는 Copy Cat Problem이라고 불리는 매우 중요한 도전 과제가 있습니다.

[원문 중국어 문장]: 假設我們收集了很多人開車的數據我們希望用這些數據訓練一個開車的 AI(Jiǎshè wǒmen shōují le hěn duō rén kāichē de shùjù wǒmen xīwàng yòng zhèxiē shùjù xùnliàn yīgè kāichē de AI) 우리가 많은 사람들이 운전하는 데이터를 수집했고, 이 데이터를 사용하여 운전하는 AI를 훈련시키고 싶다고 가정해 봅시다.

[원문 중국어 문장]: 那麼人的數據其實有一個特點一個好的司機它其實踩剎車和踩油門的這個變化不會太多你不應該經常的踩剎車踩油門(Nàme rén de shùjù qíshí yǒu yīgè tèdiǎn yīgè hǎo de sījī tā qíshí cǎi shāchē hé cǎi yóumén de zhègè biànhuà bù huì tài duō nǐ bù yīnggāi jīngcháng de cǎi shāchē cǎi yóumén) 사람의 데이터에는 특징이 있습니다. 훌륭한 운전자는 사실 브레이크와 가속 페달을 밟는 변화가 그리 많지 않습니다. 자주 브레이크를 밟거나 가속 페달을 밟아서는 안 됩니다.

[원문 중국어 문장]: 所以大部分的人類好的司機的開車數據絕大數值情況下每一秒的動作和上一秒是一樣的(Suǒyǐ dà bùfèn de rénlèi hǎo de sījī de kāichē shùjù juédà shùzhí qíngkuàng xià měi yī miǎo de dòngzuò hé shàng yī miǎo shì yīyàng de) 그래서 대부분의 훌륭한 인간 운전자의 운전 데이터는 절대다수의 상황에서 매 순간의 동작이 이전 순간과 동일합니다.

[원문 중국어 문장]: 所以如果你把這個數據上 AI 去學 AI 很容易學到一個 copy Cat strategy 叫我看一下上一幀我什麼動作這一幀我還做一樣的(Suǒyǐ rúguǒ nǐ bǎ zhègè shùjù shàng AI qù xué AI hěn róngyì xué dào yīgè Copy Cat strategy jiào wǒ kàn yīxià shàng yī zhēn wǒ shénme dòngzuò zhè yī zhēn wǒ hái zuò yīyàng de) 그래서 만약 이 데이터를 AI에게 학습시킨다면, AI는 **"이전 프레임에서 내가 무슨 동작을 했는지 보고, 이번 프레임에서도 똑같이 한다"**는 Copy Cat 전략을 배우기 매우 쉽습니다.

[원문 중국어 문장]: 這樣的策略會帶來很高的正確率但這事會帶來一些問題(Zhèyàng de cèlüè huì dàilái hěn gāo de zhèngquè lǜ dàn zhè shì huì dàilái yīxiē wèntí) 이러한 전략은 매우 높은 정확도를 가져오지만, 일부 문제를 일으킬 수 있습니다.

[원문 중국어 문장]: 比如說紅綠燈從紅燈變成了綠燈的那麼你應該鬆開剎車踩油門但是一個 copy cat 的 AI 就會說那我接著踩剎車吧這就帶來了一些問題(Bǐrú shuō hónglǜdēng cóng hóngdēng biànchéng le lǜdēng de nàme nǐ yīnggāi sōngkāi shāchē cǎi yóumén dànshì yīgè Copy Cat de AI jiù huì shuō nà wǒ jiēzhe cǎi shāchē ba zhè jiù dàilái le yīxiē wèntí) 예를 들어, 신호등이 빨간불에서 초록불로 바뀌었다면, 당신은 브레이크를 풀고 가속 페달을 밟아야 합니다. 하지만 Copy Cat AI는 **"그럼 계속 브레이크를 밟아야지"**라고 말할 것이고, 이는 문제를 일으킵니다.

[원문 중국어 문장]: 我們再看一個例子這個例子是一個給圖片打標籤的 AI(Wǒmen zài kàn yīgè lìzi zhègè lìzi shì yīgè gěi túpiàn dǎ biāoqīan de AI) 다른 예를 하나 더 봅시다. 이 예는 이미지에 태그를 붙이는 AI입니다.

[원문 중국어 문장]: 有研圈團隊發現這個 AI 只要看到圖片是做菜這個場景就自動或者以極大的概率把這個標籤打成女性即使這個途中真的是一個大佬們的做(Yǒu yán quān tuánduì fāxiàn zhègè AI zhǐyào kàndào túpiàn shì zuò cài zhègè chǎngjǐng jiù zìdòng huòzhě yǐ jídà de gàilǜ bǎ zhègè biāoqīan dǎchéng nǚxìng jíshǐ zhègè tú zhōng zhēnde shì yīgè dàlǎomén de zuò) 연구팀은 이 AI가 이미지가 요리하는 장면임을 보면, 설령 사진 속의 사람이 정말로 대단한 남성일지라도, 자동으로 또는 극히 높은 확률로 '여성'이라는 태그를 붙인다는 것을 발견했습니다.

[원문 중국어 문장]: 這是為什麼呢？原因很簡單因為確實在訓練數據中做飯場景下大部分都是女性在做飯(Zhè shì wèishénme ne? Yuányīn hěn jiǎndān yīnwèi quèshí zài xùnliàn shùjù zhōng zuò fàn chǎngjǐng xià dà bùfèn dōu shì nǚxìng zài zuò fàn) 왜일까요? 이유는 간단합니다. 실제로 훈련 데이터에서 요리하는 장면의 대부분은 여성이 요리하는 모습이었기 때문입니다.

[원문 중국어 문장]: 所以這個大模型又學會了一個偷懶的策略說哦那不如看到做飯表女性(Suǒyǐ zhègè dà móxíng yòu xuéhuì le yīgè tōulǎn de cèlüè shuō ó nà bùrú kàndào zuò fàn biǎo nǚxìng) 그래서 이 LLM은 또 다른 게으른 전략을 배웠습니다. "아, 그럼 요리하는 걸 보면 여성이라고 태그하자"라는 것입니다.

[원문 중국어 문장]: 所以有人就想了那是不是有可能我們對這個數據做一些處理我們把這個這個性別或者別的什麼因素把它平均一下讓它分佈比較完產生一個完美的訓練數據訓練一個沒有偏見的 AI(Suǒyǐ yǒurén jiù xiǎng le nà shì bùshì yǒu kěnéng wǒmen duì zhègè shùjù zuò yīxiē chǔlǐ wǒmen bǎ zhègè zhègè xìngbié huòzhě bié de shénme yīnsù bǎ tā píngjūn yīxià ràng tā fēnbù bǐjiào wán chǎnshēng yīgè wánměi de xùnliàn shùjù xùnliàn yīgè méiyǒu piānjiàn de AI) 그래서 어떤 사람들은 이렇게 생각했습니다. "이 데이터를 좀 처리해서, 성별이나 다른 요인들을 평균화하고 분포를 비교적 완벽하게 만들어서, 편향 없는 AI를 훈련시킬 수 있는 완벽한 훈련 데이터를 만들 수 있지 않을까?"

[원문 중국어 문장]: 比如說對於亞馬遜簡力這個事我們可以做一件事就是嚴鏡簡力中出現性別資樣這樣會不會有用？(Bǐrú shuō duìyú Yǎmǎxùn jiǎnlì zhègè shì wǒmen kěyǐ zuò yī jiàn shì jiùshì yán jìng jiǎnlì zhōng chūxiàn xìngbié zīyàng zhèyàng huì bù huì yǒuyòng?) 예를 들어, Amazon 이력서 문제에 대해서는 이력서에 성별 정보가 나타나는 것을 엄격히 금지하는 조치를 취할 수 있습니다. 이것이 유용할까요?

[원문 중국어 문장]: 會有用但是呢也沒那麼有用為什麼？(Huì yǒuyòng dànshì ne yě méi nàme yǒuyòng wèishénme?) 도움이 될 것입니다. 하지만 그다지 큰 도움은 되지 않을 것입니다. 왜냐하면,

[원문 중국어 문장]: 其實你看人的名字你大概率能猜到這個人是男的還是女的(Qíshí nǐ kàn rén de míngzi nǐ dàgàilǜ néng cāi dào zhègè rén shì nán de háishì nǚ de) 사실 당신은 사람의 이름을 보고 이 사람이 남자인지 여자인지 높은 확률로 추측할 수 있기 때문입니다.

[원문 중국어 문장]: 再回到這個這個給人打這個圖片打標籤的 AI 有研究團隊說那這樣我把圖片中所有的人臉信息都去掉這樣的話我們就可以避免模型學到這個性別的偏見(Zài huí dào zhègè zhègè gěi rén dǎ zhègè túpiàn dǎ biāoqīan de AI yǒu yánjiū tuánduì shuō nà zhèyàng wǒ bǎ túpiàn zhōng suǒyǒu de rénliǎn xìnxī dōu qùdiào zhèyàng de huà wǒmen jiù kěyǐ bìmiǎn móxíng xué dào zhègè xìngbié de piānjiàn) 다시 이미지에 태그를 붙이는 AI 문제로 돌아가서, 한 연구팀은 "그렇다면 사진 속의 모든 얼굴 정보를 제거하면 모델이 이 성별 편향을 학습하는 것을 피할 수 있을 것이다"라고 말했습니다.

[원문 중국어 문장]: 這樣有用嗎？有用但是呢也沒那麼有用因為基本上你通過穿著和身材還是會暴露出你的性別(Zhèyàng yǒuyòng ma? Yǒuyòng dànshì ne yě méi nàme yǒuyòng yīnwèi jīběn shàng nǐ tōngguò chuānzhuó hé shēncái háishì huì bàolù chū nǐ de xìngbié) 이것이 유용할까요? 도움이 될 것입니다. 하지만 그다지 큰 도움은 되지 않을 것입니다. 왜냐하면 기본적으로 당신은 옷차림과 체형을 통해 여전히 당신의 성별이 노출될 것이기 때문입니다.

[원문 중국어 문장]: 斯坦福大學的研究者呢收集了人類過去 100 年的公開出版物他們做了個研究定義了一個詞叫 woman bias(Sītǎnfú Dàxué de yánjiūzhě ne shōují le rénlèi guòqù 100 nián de gōngkāi chūbǎnwù tāmen zuò le gè yánjiū dìngyì le yīgè cí jiào woman bias) 스탠퍼드 대학교 연구진은 지난 100년간 인류의 공개 출판물을 수집하여 연구를 수행하고 **"woman bias"**라는 용어를 정의했습니다.

[원문 중국어 문장]: 一個詞的 woman bias 的意思呢是經過計算這個詞和 WAN 這個詞之間的相關性(Yīgè cí de woman bias de yìsi ne shì jīngguò jìsuàn zhègè cí hé WOMAN zhègè cí zhījiān de xiāngguānxìng)어떤 단어의 'woman bias'는 계산을 통해 해당 단어와 'WOMAN'이라는 단어 사이의 상관관계를 의미합니다.

[원문 중국어 문장]: 於是他們畫了這張圖這張圖的橫軸是不同職業上女性在這個行業上的從業人數的佔比 Y 軸呢是 w(Yúshì tāmen huà le zhè zhāng tú zhè zhāng tú de héngzhóu shì bùtóng zhíyè shàng nǚxìng zài zhègè hángyè shàng de cóngyè rénshù de zhànbǐ Y zhóu ne shì w) 그래서 그들은 이 그래프를 그렸습니다. 이 그래프의 X축은 다양한 직업에서 여성이 해당 산업에 종사하는 비율이고, Y축은 **w(woman bias)**입니다.

[원문 중국어 문장]: 你會發現這裡有個很明顯的正相關係比如說右上角的這個點呢叫護使護士確實是一個女性從業者很多的行業(Nǐ huì fāxiàn zhèlǐ yǒu gè hěn míngxiǎn de zhèng xiāngguān xì bǐrú shuō yòushàngjiǎo de zhègè diǎn ne jiào hù shǐ hùshi quèshí shì yīgè nǚxìng cóngyèzhě hěn duō de hángyè) 여기서 매우 뚜렷한 양의 상관관계가 있음을 발견할 수 있습니다. 예를 들어, 오른쪽 위 모서리의 점은 간호사인데, 간호사는 실제로 여성 종사자가 많은 직업입니다.

[원문 중국어 문장]: 左下角的點呢叫機修工那機修工也確實是男性更多嘛(Zuǒ xià jiǎo de diǎn ne jiào jīxiūgōng nà jīxiūgōng yě quèshí shì nánxìng gèng duō ma) 왼쪽 아래 모서리의 점은 정비공인데, 정비공도 실제로 남성이 더 많습니다.

[원문 중국어 문장]: 我想說這裡面反應了一件什麼事呢？是人類的公開出版文字數據中其實已經包含了女性從業者在這個行業從業比例的這麼一個信(Wǒ xiǎng shuō zhèlǐmiàn fǎnyìng le yī jiàn shénme shì ne? Shì rénlèi de gōngkāi chūbǎn wénzì shùjù zhōng qíshí yǐjīng bāohán le nǚxìng cóngyèzhě zài zhègè hángyè cóngyè bǐlì de zhème yīgè xìn) 제가 여기서 말하고 싶은 것은 무엇일까요? 이는 인류의 공개 출판 텍스트 데이터 속에 이미 해당 직업에서 여성 종사자가 차지하는 비율이라는 정보가 포함되어 있다는 것을 반영합니다.

[원문 중국어 문장]: 這個研究團隊還做了一些別的研究他們把 Woman bias 以及所有行業的女性平均從業人數佔比的這個數據根據年份花了一張曲線(Zhègè yánjiū tuánduì hái zuò le yīxiē bié de yánjiū tāmen bǎ Woman bias yǐjí suǒyǒu hángyè de nǚxìng píngjūn cóngyè rénshù zhànbǐ de zhègè shùjù gēnjù niánfèn huà le yī zhāng qūxiàn) 이 연구팀은 다른 연구도 진행했습니다. 그들은 Woman bias와 모든 산업의 여성 평균 종사자 비율 데이터를 연도별로 그래프로 그렸습니다.

[원문 중국어 문장]: 你也可以看到非常明顯的正相關係這說明了什麼事呢？(Nǐ yě kěyǐ kàndào fēicháng míngxiǎn de zhèng xiāngguān xì zhè shuōmíng le shénme shì ne?) 여기서도 매우 뚜렷한 양의 상관관계를 볼 수 있습니다. 이것은 무엇을 의미할까요?

[원문 중국어 문장]: 說明人類的文字數據中也包含了時代以及社會結構的很多很多的(Shuōmíng rénlèi de wénzì shùjù zhōng yě bāohán le shídài yǐjí shèhuì jiégòu de hěn duō hěn duō de) 이는 인류의 텍스트 데이터 속에 시대와 사회 구조에 대한 매우 많은 정보가 포함되어 있음을 보여줍니다.

[원문 중국어 문장]: 所以其實世界上不存在完美的數據因為數據是從人類社會中來的也是服予人類的(Suǒyǐ qíshí shìjiè shàng bù cúnzài wánměi de shùjù yīnwèi shùjù shì cóng rénlèi shèhuì zhōng lái de yě shì fú yǔ rénlèi de) 그래서 사실 세상에는 완벽한 데이터가 존재하지 않습니다. 왜냐하면 데이터는 인간 사회에서 비롯되었고, 인간에게 봉사하기 때문입니다.

[원문 중국어 문장]: 所以我們不可能完整的把所有人類社會的痕跡都取掉而大模型的過度自信現象又進一步強化了數據中的不完美(Suǒyǐ wǒmen bù kěnéng wánzhěng de bǎ suǒyǒu rénlèi shèhuì de hénjī dōu qǔ diào ér dà móxíng de guòdù zìxìn xiànxiàng yòu jìnyībù qiánghuà le shùjù zhōng de bù wánměi) 따라서 우리는 인간 사회의 모든 흔적을 완전히 제거할 수 없으며, LLM의 과도한 자신감 현상은 데이터 속의 불완전함을 더욱 강화시킵니다.

[원문 중국어 문장]: 好說了這麼多數據的問題我想再跟大家說的是其實 AI 的偏見呢也有算法的原因(Hǎo shuō le zhème duō shùjù de wèntí wǒ xiǎng zài gēn dàjiā shuō de shì qíshí AI de piānjiàn ne yě yǒu suànfǎ de yuányīn) 좋습니다. 지금까지 데이터 문제에 대해 많이 이야기했는데, 제가 여러분에게 또 말하고 싶은 것은 사실 AI의 편향에는 알고리즘적 원인도 있다는 것입니다.

[원문 중국어 문장]: 從技術上講絕大部分的 AI 算法其實從數據中學習的都是相關性而不是因果性(Cóng jìshù shàng jiǎng juédà bùfèn de AI suànfǎ qíshí cóng shùjù zhōng xuéxí de dōu shì xiāngguānxìng érbùshì yīnguǒ xìng) 기술적으로 말하자면, 대부분의 AI 알고리즘은 사실 데이터에서 상관관계를 학습할 뿐, 인과관계를 학습하지 않습니다.

[원문 중국어 문장]: 那什麼是相關性什麼是因果性舉個例子比如說生病吃藥(Nà shénme shì xiāngguānxìng shénme shì yīnguǒ xìng jǔ gè lìzi bǐrú shuō shēngbìng chī yào) 상관관계란 무엇이고, 인과관계란 무엇일까요? 예를 들어, 병에 걸렸을 때 약을 먹는 것을 예로 들어봅시다.

[원문 중국어 문장]: 我們有俗話說感冒七天才能好吃了藥一個禮拜就好了(Wǒmen yǒu súhuà shuō gǎnmào qī tiān cáinéng hǎo chī le yào yīgè lǐbài jiù hǎo le) "감기는 7일이 지나야 낫는데, 약을 먹으니 일주일 만에 나았다"라는 속담이 있습니다.

[원문 중국어 문장]: 所以吃藥到底有用嗎？如果你生了病你吃了藥你好了只能是相關性說明這個效可能有用(Suǒyǐ chī yào dàodǐ yǒuyòng ma? Rúguǒ nǐ shēng le bìng nǐ chī le yào nǐ hǎo le zhǐ néng shì xiāngguānxìng shuōmíng zhègè xiào kěnéng yǒuyòng) 그렇다면 약을 먹는 것이 정말 효과가 있을까요? 당신이 병에 걸렸을 때 약을 먹고 나았다면, 그것은 단지 상관관계일 뿐이며, 이 약이 아마도 효과가 있을 수 있음을 보여줄 뿐입니다.

[원문 중국어 문장]: 怎麼樣才能是因果性呢？那你得我吃了藥我吃了藥我病好了然後我再生一次病然後周圍的所有條件都不變我這次不吃藥但我不吃藥之後我怎麼也沒好(Zěnme yàng cáinéng shì yīnguǒ xìng ne? Nà nǐ dé wǒ chī le yào wǒ chī le yào wǒ bìng hǎo le ránhòu wǒ zài shēng yī cì bìng ránhòu zhōuwéi de suǒyǒu tiáojiàn dōu bù biàn wǒ zhè cì bù chī yào dàn wǒ bù chī yào zhīhòu wǒ zěnme yě méi hǎo) 어떻게 해야 인과관계가 될까요? 당신은 약을 먹고 병이 나아야 하고, 그런 다음 다시 병에 걸렸을 때 주변의 모든 조건은 그대로 두고 이번에는 약을 먹지 않았는데 병이 전혀 낫지 않아야 합니다.

[원문 중국어 문장]: 那這兩個事情加起來說明誒這個藥確實能治這個病中間有個技術關鍵點是什麼呢？(Nà zhè liǎng gè shìqíng jiā qǐlái shuōmíng éi zhègè yào quèshí néng zhì zhègè bìng zhōngjiān yǒu gè jìshù guānjiàndiǎn shì shénme ne?) 이 두 가지 사건을 합치면 "어, 이 약이 정말 이 병을 치료할 수 있구나"라는 것을 보여줍니다. 여기서 기술적인 핵심은 무엇일까요?

[원문 중국어 문장]: 是你得見過好的也得見過壞的正反都試過才能得出因果性關係(Shì nǐ dé jiànguò hǎo de yě dé jiànguò huài de zhèng fǎn dōu shìguò cáinéng dé chū yīnguǒ xìng guānxì) 그것은 당신이 좋은 것과 나쁜 것을 모두 경험해보고 긍정과 부정을 모두 시도해 보아야만 인과관계를 도출할 수 있다는 것입니다.

[원문 중국어 문장]: 那我們來看一下 AI 的常用算法是怎麼做的對於圖片來說專業的數語叫最大概率估計(Nà wǒmen lái kàn yīxià AI de chángyòng suànfǎ shì zěnme zuò de duìyú túpiàn láishuō zhuānyè de shù yǔ jiào zuìdà gàilǜ gūjì) 그렇다면 AI의 일반적인 알고리즘이 어떻게 작동하는지 봅시다. 이미지의 경우 전문 용어로 **최대 우도 추정(Maximum Likelihood Estimation)**이라고 부릅니다.

[원문 중국어 문장]: 我們用俗話來講就是我給你看很多貓的照片給你看很多狗的照片讓你瘋狂刷題被答(Wǒmen yòng súhuà láijiǎng jiùshì wǒ gěi nǐ kàn hěn duō māo de zhàopiàn gěi nǐ kàn hěn duō gǒu de zhàopiàn ràng nǐ fēngkuáng shuā tí bèi dá) 쉽게 말해, 당신에게 고양이 사진을 많이 보여주고 개 사진을 많이 보여주면서 **미친 듯이 문제 풀이(벼락치기)**를 하게 하여 정답을 맞히게 하는 것입니다.

[원문 중국어 문장]: 對於大模型來說這個術語叫 N token prediction 用人話說叫熟讀唐詩手不會做詩也會贏(Duìyú dà móxíng láishuō zhègè shùyǔ jiào N token prediction yòng rén huà shuō jiào shú dú Táng Shī shǒu bù huì zuò shī yě huì yíng) LLM의 경우, 이 용어는 **다음 토큰 예측(Next Token Prediction)**이라고 불립니다. 일반적인 말로 하면 "당시(唐詩)를 많이 읽으면 시를 지을 줄 몰라도 시에서 이길 수 있다"는 것입니다.

[원문 중국어 문장]: 這就是 AI 的訓練算法如果大家仔細來看的話你會發現這個訓練算法的數據通常只有正確答案(Zhè jiù shì AI de xùnliàn suànfǎ rúguǒ dàjiā zǐxì lái kàn de huà nǐ huì fāxiàn zhègè xùnliàn suànfǎ de shùjù tōngcháng zhǐyǒu zhèngquè dá'àn) 이것이 AI의 훈련 알고리즘입니다. 여러분이 자세히 본다면, 이 훈련 알고리즘의 데이터에는 일반적으로 정답만 있다는 것을 알게 될 것입니다.

[원문 중국어 문장]: 所以本質上這些算法都是讓模型在學習數據中的相關性而不是因果(Suǒyǐ běnzhì shàng zhèxiē suànfǎ dōu shì ràng móxíng zài xuéxí shùjù zhōng de xiāngguānxìng érbùshì yīnguǒ) 따라서 본질적으로 이 알고리즘들은 모델이 데이터의 상관관계를 학습하게 할 뿐, 인과관계를 학습하게 하지는 않습니다.

[원문 중국어 문장]: 所以這個問題也是造成了大模型幻覺現象的一個重要原因(Suǒyǐ zhègè wèntí yě shì zàochéng le dà móxíng huànjué xiànxiàng de yīgè zhòngyào yuányīn) 이러한 문제가 바로 LLM의 환각(Hallucination) 현상을 유발하는 중요한 원인 중 하나입니다.

[원문 중국어 문장]: 什麼是幻覺？幻覺就是我們發現 AI 會在自己不知道的問題上自信的胡說八道(Shénme shì huànjué? Huànjué jiùshì wǒmen fāxiàn AI huì zài zìjǐ bù zhīdào de wèntí shàng zìxìn de húshuōbādào) 환각이란 무엇일까요? 환각은 AI가 자신이 모르는 문제에 대해 자신감 있게 허튼소리를 하는 현상을 우리가 발견하는 것입니다.

[원문 중국어 문장]: 所以算法讓模型學習相關性大模型又會過度自信所以就導致了 AI 的幻覺現象(Suǒyǐ suànfǎ ràng móxíng xuéxí xiāngguānxìng dà móxíng yòu huì guòdù zìxìn suǒyǐ jiù dǎozhì le AI de huànjué xiànxiàng) 따라서 알고리즘이 모델에게 상관관계를 학습하게 하고, LLM은 또 과도한 자신감을 가지므로, 결국 AI의 환각 현상이 초래됩니다.

[원문 중국어 문장]: 這裡我舉一個更具體點的例子啊我們這個例子叫未來的世界杯冠軍(Zhèlǐ wǒ jǔ yīgè gèng jùtǐ diǎn de lìzi ā wǒmen zhègè lìzi jiào wèilái de Shìjièbēi guànjūn) 여기서 좀 더 구체적인 예를 들어보겠습니다. 이 예는 미래의 월드컵 우승팀입니다.

[원문 중국어 문장]: 我們希望通過收集數據的方式去訓練一個能回答問題的 AI(Wǒmen xīwàng tōngguò shōují shùjù de fāngshì qù xùnliàn yīgè néng huídá wèntí de AI) 우리는 데이터 수집 방식으로 질문에 답할 수 있는 AI를 훈련시키고자 합니다.

[원문 중국어 문장]: 於是呢我就收集這些數據這數據是過去很多重要的足球比賽的冠軍有西班牙根廷意大利法國(Yúshì ne wǒ jiù shōují zhèxiē shùjù zhè shùjù shì guòqù hěn duō zhòngyào de zúqiú bǐsài de guànjūn yǒu Xībānyá Gēntíng Yìdàlì Fàguó) 그래서 저는 이 데이터를 수집했습니다. 이 데이터는 과거 여러 중요한 축구 경기의 우승팀으로, 스페인, 아르헨티나, 이탈리아, 프랑스 등이 있습니다.

[원문 중국어 문장]: 那我把這個數據給 AI 做訓練之後我提了個新的問題我說 2026 年的世界杯冠軍是誰？(Nà wǒ bǎ zhègè shùjù gěi AI zuò xùnliàn zhīhòu wǒ tí le gè xīn de wèntí wǒ shuō 2026 nián de Shìjièbēi guànjūn shì shéi?) 제가 이 데이터를 AI에게 훈련시킨 후 새로운 질문을 던졌습니다. "2026년 월드컵 우승팀은 누구입니까?"

[원문 중국어 문장]: 2026 年的世界杯還沒發生所以 AI 應該說不知道才對但是這個聰明的 AI 仔細看了這個訓練數據他發現所有訓練數據格式上都是一個問題一個國家那我好像應該蒙一個國家才對(2026 nián de Shìjièbēi hái méi fāshēng suǒyǐ AI yīnggāi shuō bù zhīdào cáiduì dànshì zhègè cōngmíng de AI zǐxì kàn le zhègè xùnliàn shùjù tā fāxiàn suǒyǒu xùnliàn shùjù géshì shàng dōu shì yīgè wèntí yīgè guójiā nà wǒ hǎoxiàng yīnggāi mēng yīgè guójiā cáiduì) 2026년 월드컵은 아직 열리지 않았기 때문에 AI는 "모른다"고 말해야 맞습니다. 하지만 이 똑똑한 AI는 훈련 데이터를 자세히 살펴보고 모든 훈련 데이터의 형식이 **"질문 - 국가"**라는 것을 발견했습니다. "그렇다면 나는 국가 이름을 하나 맞춰야 할 것 같아"라고 생각합니다.

[원문 중국어 문장]: 所以呢他就說阿根廷因為阿根廷是上世界杯冠軍這就產生了幻覺(Suǒyǐ ne tā jiù shuō Āgēntíng yīnwèi Āgēntíng shì shàng Shìjièbēi guànjūn zhè jiù chǎnshēng le huànjué) 그래서 AI는 아르헨티나라고 말합니다. 왜냐하면 아르헨티나가 지난 월드컵 우승팀이기 때문입니다. 이것이 바로 환각이 발생하는 방식입니다.

[원문 중국어 문장]: 那怎麼辦呢？怎麼才能讓 AI 學會說不知道呢？(Nà zěnme bàn ne? Zěnme cáinéng ràng AI xuéhuì shuō bù zhīdào ne?) 그럼 어떻게 해야 할까요? AI가 "모른다"고 말하는 법을 배우게 하려면 어떻게 해야 할까요?

[원문 중국어 문장]: 當然在學術界有很多研究這樣問題的技術這裡我介紹一個我的專業叫強化學習(Dāngrán zài xuéshùjiè yǒu hěn duō yánjiū zhèyàng wèntí de jìshù zhèlǐ wǒ jièshào yīgè wǒ de zhuānyè jiào qiánghuà xuéxí) 물론 학계에는 이러한 문제를 연구하는 많은 기술들이 있습니다. 여기서 제 전공인 **강화 학습(Reinforcement Learning)**을 하나 소개해 드리겠습니다.

[원문 중국어 문장]: 強化學習的核心是說我不告訴你答案我讓你猜但是呢我設計了一個很好的反饋機制(Qiánghuà xuéxí de héxīn shì shuō wǒ bù gàosù nǐ dá'àn wǒ ràng nǐ cāi dànshì ne wǒ shèjì le yīgè hěn hǎo de fǎnkuì jīzhì) 강화 학습의 핵심은 정답을 알려주지 않고 당신에게 추측하게 하는 것입니다. 하지만 저는 아주 좋은 피드백 메커니즘을 설계했습니다.

[원문 중국어 문장]: 比如說如果你答錯了我給你扣死分懲罰一下如果你說對了我給你加兩分(Bǐrú shuō rúguǒ nǐ dá cuò le wǒ gěi nǐ kòu sì fēn chéngfá yīxià rúguǒ nǐ shuō duì le wǒ gěi nǐ jiā liǎng fēn) 예를 들어, 만약 당신이 틀리게 답하면 4점을 감점하여 벌을 주고, 맞히면 2점을 추가해 줍니다.

[원문 중국어 문장]: 如果你說不知道也沒說錯對吧？所以我鼓勵一下加 0.5 分(Rúguǒ nǐ shuō bù zhīdào yě méi shuō cuò duì ba? Suǒyǐ wǒ gǔlì yīxià jiā 0.5 fēn) 만약 당신이 "모른다"고 말하면, 그것도 틀린 것은 아닙니다, 그렇죠? 그래서 저는 격려 차원에서 0.5점을 추가해 줍니다.

[원문 중국어 문장]: 我通過強化學習讓大模型反复是錯的方式讓大模型最終能夠學到英國關係(Wǒ tōngguò qiánghuà xuéxí ràng dà móxíng fǎnfù shì cuò de fāngshì ràng dà móxíng zuìzhōng nénggòu xuédào Yīngguó guānxì) 저는 강화 학습을 통해 LLM이 반복적으로 시행착오를 겪게 함으로써 궁극적으로 인과관계를 학습할 수 있게 합니다. (발음: '인과관계'의 '인과'로 추정)

[원문 중국어 문장]: 這裡在技術上有一個關鍵點是當大模型不會的時候我們要鼓勵大模型說不知道不能過度懲(Zhèlǐ zài jìshù shàng yǒu yīgè guānjiàndiǎn shì dāng dà móxíng bù huì de shíhòu wǒmen yào gǔlì dà móxíng shuō bù zhīdào bù néng guòdù chéng) 여기서 기술적으로 중요한 점은 LLM이 모를 때 "모른다"고 말하도록 격려해야 하며, 과도하게 벌을 주어서는 안 된다는 것입니다.

[원문 중국어 문장]: 我們回到這個例子在未來的世界杯冠軍上我們用強化學習如何訓練這個 AI(Wǒmen huí dào zhègè lìzi zài wèilái de Shìjièbēi guànjūn shàng wǒmen yòng qiánghuà xuéxí rúhé xùnliàn zhègè AI) 이 예로 돌아가서, 미래의 월드컵 우승팀에 대해 강화 학습으로 이 AI를 어떻게 훈련시킬까요?

[원문 중국어 문장]: 還是這個訓練數據還是這個問題我們讓 AI 開始猜他一開始猜阿根廷我說錯扣四分(Háishì zhègè xùnliàn shùjù háishì zhègè wèntí wǒmen ràng AI kāishǐ cāi tā yī kāishǐ cāi Āgēntíng wǒ shuō cuò kòu sì fēn) 여전히 같은 훈련 데이터와 같은 질문입니다. 우리는 AI에게 추측하게 했습니다. AI는 처음에 아르헨티나를 추측했고, 저는 "틀렸어, 4점 감점"이라고 말했습니다.

[원문 중국어 문장]: 他說阿根廷不對那西班牙錯了扣四分於是我讓這個大模型瘋狂的(Tā shuō Āgēntíng bù duì nà Xībānyá cuò le kòu sì fēn yúshì wǒ ràng zhègè dà móxíng fēngkuáng de) AI는 "아르헨티나가 틀렸다면 스페인이겠지"라고 말했고, "틀렸어, 4점 감점"이라고 말했습니다. 그래서 저는 이 LLM에게 미친 듯이...

[원문 중국어 문장]: 他還挺慘的對吧一直一直被扣分他猜到來之後自己放棄了說我真的不知道(Tā hái tǐng cǎn de duì ba yīzhí yīzhí bèi kòu fēn tā cāi dàolái zhīhòu zìjǐ fàngqì le shuō wǒ zhēnde bù zhīdào)AI는 꽤 불쌍합니다, 그렇죠? 계속해서 감점을 당합니다. 계속 추측하다가 결국 스스로 포기하고 **"저는 정말 모릅니다"**라고 말했습니다.

[원문 중국어 문장]: 你說誒加 0.5 大不心一看原來這加分在這呢所以原來我搞錯了原來不會可以說不知道的(Nǐ shuō éi jiā 0.5 dà bù xīn yī kàn yuánlái zhè jiāfēn zài zhè ne suǒyǐ yuánlái wǒ gǎo cuò le yuánlái bù huì kěyǐ shuō bù zhīdào de) 저는 "오, 0.5점 추가!"라고 말했습니다. LLM은 "아, 점수가 여기서 오르는구나. 내가 틀렸었네, 모르면 모른다고 말해도 되는구나"라고 깨닫습니다.

[원문 중국어 문장]: 於是他就學會了自己可以說不知道(Yúshì tā jiù xuéhuì le zìjǐ kěyǐ shuō bù zhīdào)그리하여 AI는 스스로 모른다고 말하는 법을 배우게 되었습니다.

[원문 중국어 문장]: 這讓大模型學不知道之外我們團隊還把強化學習技術去做了一些更好玩的事情(Zhè ràng dà móxíng xué bù zhīdào zhīwài wǒmen tuánduì hái bǎ qiánghuà xuéxí jìshù qù zuò le yīxiē gèng hǎowán de shìqíng) LLM에게 모르는 법을 가르치는 것 외에도, 우리 연구팀은 강화 학습 기술로 더 재미있는 일들을 했습니다.

[원문 중국어 문장]: 我們用強化學習技術和大模型一起教大模型玩狼人這是一個我們去年發表在機器學習頂級會議 2024 這篇論文(Wǒmen yòng qiánghuà xuéxí jìshù hé dà móxíng yīqǐ jiào dà móxíng wán Lángrén zhè shì yīgè wǒmen qùnián fābiǎo zài Jīqì Xuéxí dǐngjí huìyì 2024 zhè piān lùnwén) 우리는 강화 학습 기술과 LLM을 함께 사용하여 LLM에게 마피아 게임을 가르쳤습니다. 이것은 우리가 작년에 머신러닝 최고 학회인 ICML 2024에 발표한 논문입니다.

[원문 중국어 문장]: 沙大家都玩過對吧是一個很複雜的一個語言遊戲(Shā dàjiā dōu wánguò duì ba shì yīgè hěn fùzá de yīgè yǔyán yóuxì) 마피아 게임은 모두 해보셨죠? 이것은 매우 복잡한 언어 게임입니다.

[원문 중국어 문장]: 講話學習可以做很多事情比如他可以糾正模型的偏見思想一下第一天晚上天黑請閉眼狼人請殺人(Jiǎng huà xuéxí kěyǐ zuò hěn duō shìqíng bǐrú tā kěyǐ jiūzhèng móxíng de piānjiàn sīxiǎng yīxià dì yī tiān wǎnshàng tiānhēi qǐng bì yǎn Lángrén qǐng shārén) 강화 학습은 많은 일을 할 수 있습니다. 예를 들어, 모델의 편향을 교정할 수 있습니다. 생각해 봅시다. 첫날밤, 밤이 되었습니다, 눈을 감으세요, 마피아는 사람을 죽이세요.

[원문 중국어 문장]: 我們先排開仇殺不考慮仇殺理性的狼人應該隨機殺人因為沒有信息嘛(Wǒmen xiān pái kāi chóushā bù kǎolǜ chóushā lǐxìng de Lángrén yīnggāi suíjī shārén yīnwèi méiyǒu xìnxī ma) 원한에 의한 살해는 제외하고, 이성적인 마피아는 무작위로 사람을 죽여야 합니다. 정보가 없으니까요.

[원문 중국어 문장]: 但是如果你讓 GBT4 去殺人他特別喜歡殺一號和 0 號(Dànshì rúguǒ nǐ ràng GPT-4 qù shārén tā tèbié xǐhuān shā yī hào hé 0 hào) 하지만 당신이 GPT-4에게 살인을 시키면, GPT-4는 1번과 0번 플레이어를 죽이는 것을 특히 좋아합니다.

[원문 중국어 문장]: 為什麼很簡單嘛因為零合一的數據在數據中的出現的頻率就是更高的(Wèishénme hěn jiǎndān ma yīnwèi líng hé yī de shùjù zài shùjù zhōng de chūxiàn de pínlǜ jiùshì gèng gāo de) 이유는 간단합니다. 0과 1이라는 숫자가 데이터에서 출현 빈도가 더 높기 때문입니다.

[원문 중국어 문장]: 所以經過強化學習訓練之後我們可以糾偏它就可以以均勻的概率去選擇一個人去殺(Suǒyǐ jīngguò qiánghuà xuéxí xùnliàn zhīhòu wǒmen kěyǐ jiūpiān tā jiù kěyǐ yǐ jūnyún de gàilǜ qù xuǎnzé yīgè rén qù shā) 따라서 강화 학습 훈련을 거친 후, 우리는 편향을 교정하여 균등한 확률로 사람을 선택하여 죽일 수 있게 했습니다.

[원문 중국어 문장]: 那除了糾偏我們還可以極大的提高這個大模型的實戰能注意這裡其實是克服了換句現象的(Nà chú le jiūpiān wǒmen hái kěyǐ jídà de tígāo zhègè dà móxíng de shízhàn néng zhùyì zhèlǐ qíshí shì kèfú le huàn jù xiànxiàng de) 편향 교정 외에도, 우리는 이 LLM의 실전 능력을 크게 향상시킬 수 있습니다. 여기서 주목할 점은 이것이 사실상 환각 현상을 극복했다는 것입니다.

[원문 중국어 문장]: 因為在狼人沙中如果你瞎說那你是會輸的(Yīnwèi zài Lángrén shā zhōng rúguǒ nǐ xiā shuō nà nǐ shì huì shū de) 왜냐하면 마피아 게임에서 헛소리를 하면 지게 되기 때문입니다.

[원문 중국어 문장]: 所以我們找了這個清華搖班 80 位同學每人跟 AI 玩了十局我們統計了一下 AI 狼人和 AI 村民的概率都比人類小高那麼一點點(Suǒyǐ wǒmen zhǎo le zhègè Qīnghuá Yáobān 80 wèi tóngxué měi rén gēn AI wán le shí jú wǒmen tǒngjì le yīxià AI Lángrén hé AI cūnmín de gàilǜ dōu bǐ rénlèi xiǎo gāo nàme yī diǎndiǎn) 그래서 우리는 칭화대 야오반(姚班) 학생 80명을 찾아 각자 AI와 10판씩 게임을 하게 했습니다. 통계를 내보니, AI 마피아와 AI 시민의 승률이 인간보다 아주 조금 높았습니다.

[원문 중국어 문장]: 別看一點點這可是搖班同學所以我們這個 AI 還是挺厲害的強化學習還是挺(Bié kàn yī diǎndiǎn zhè kě shì Yáobān tóngxué suǒyǐ wǒmen zhègè AI háishì tǐng lìhài de qiánghuà xuéxí háishì tǐng) 이 작은 차이를 무시하지 마세요. 이들은 야오반 학생들입니다! 그래서 우리의 이 AI는 여전히 매우 대단하고, 강화 학습은 여전히 매우... (대단합니다)

[원문 중국어 문장]: 我們知道強化學很好它可以糾偏它可以解決很多的問題但是要發揮強化學習最大的潛力它是有個前提條件的是我們需要一個準確的獎勵函數(Wǒmen zhīdào qiánghuà xué hěn hǎo tā kěyǐ jiūpiān tā kěyǐ jiějué hěn duō de wèntí dànshì yào fāhuī qiánghuà xuéxí zuìdà de qiánlì tā shì yǒu gè qiántí tiáojiàn de shì wǒmen xūyào yīgè zhǔnquè de jiǎnglì hánshù) 우리는 강화 학습이 매우 훌륭하고 편향을 교정하며 많은 문제를 해결할 수 있다는 것을 압니다. 하지만 강화 학습의 최대 잠재력을 발휘하기 위해서는 **정확한 보상 함수(Reward Function)**가 필요하다는 전제 조건이 있습니다.

[원문 중국어 문장]: 那這個世界上是不是存在完美的獎勵函數呢？(Nà zhègè shìjiè shàng shì bu shì cúnzài wánměi de jiǎnglì hánshù ne?) 그렇다면 이 세상에 완벽한 보상 함수가 존재할까요?

[원문 중국어 문장]: 其實我們也知道這個世界上不存在絕對的好也不存在絕對的所以也不存在絕對完美的獎勵函數(Qíshí wǒmen yě zhīdào zhègè shìjiè shàng bù cúnzài juéduì de hǎo yě bù cúnzài juéduì de suǒyǐ yě bù cúnzài juéduì wánměi de jiǎnglì hánshù) 사실 우리는 이 세상에 절대적인 선도, 절대적인 악도 존재하지 않는다는 것을 알고 있습니다. 따라서 절대적으로 완벽한 보상 함수도 존재하지 않습니다.

[원문 중국어 문장]: 那麼不同的不完美的獎勵函數就會導致不同的模型行為所以呢幻覺可以被緩解但是永遠會存在(Nàme bùtóng de bù wánměi de jiǎnglì hánshù jiù huì dǎozhì bùtóng de móxíng xíngwéi suǒyǐ ne huànjué kěyǐ bèi huǎnjiě dànshì yǒngyuǎn huì cúnzài) 그렇다면 서로 다른 불완전한 보상 함수는 서로 다른 모델 행동을 초래할 것입니다. 따라서 환각은 완화될 수는 있지만, 영원히 존재할 것입니다.

[원문 중국어 문장]: 這會導致什麼問題？它會導致一個問題叫 value alignment issue 對其問題(Zhè huì dǎozhì shénme wèntí? Tā huì dǎozhì yīgè wèntí jiào value alignment issue duì qí wèntí) 이것은 어떤 문제를 일으킬까요? 바로 **가치 정렬 문제(Value Alignment Issue)**라고 불리는 문제를 일으킵니다.

[원문 중국어 문장]: 那這我又要講一個我前講過的故事是想有一天你有了一個同用機器人機器人保姆幫你在家帶孩子(Nà zhè wǒ yòu yào jiǎng yīgè wǒ qián jiǎngguò de gùshì shì xiǎng yǒu yī tiān nǐ yǒu le yīgè tóng yòng jīqìrén jīqìrén bǎomǔ bāng nǐ zàijiā dài háizi) 여기서 저는 이전에 이야기했던 이야기를 다시 해보려고 합니다. 언젠가 당신에게 범용 로봇이 생겨 로봇 보모가 당신의 집에서 아이를 돌봐준다고 상상해 봅시다.

[원문 중국어 문장]: 然後你上班了你說這個記得給孩子做飯再苦再累不能餓著孩子一定不能餓著孩子你走了(Ránhòu nǐ shàngbān le nǐ shuō zhègè jìde gěi háizi zuò fàn zài kǔ zài lèi bù néng èzhe háizi yīdìng bù néng èzhe háizi nǐ zǒu le) 그리고 당신은 출근하면서 "기억해, 아이에게 밥을 챙겨주고, 아무리 힘들어도 아이를 굶기면 안 돼. 절대 아이를 굶기면 안 돼"라고 말하고 떠났습니다.

[원문 중국어 문장]: 好到了中午孩子餓了機器人收到信號我開始做飯了打開冰箱哎呀往買菜了家裡什麼也沒(Hǎo dàole zhōngwǔ háizi è le jīqìrén shōudào xìnhào wǒ kāishǐ zuò fàn le dǎkāi bīngxiāng āiyā wàng mǎicài le jiālǐ shénme yě méi) 좋습니다. 정오가 되어 아이가 배고파졌고, 로봇은 신호를 받자마자 "밥을 만들어야지"라고 생각하고 냉장고를 열었습니다. "아, 장 보는 걸 깜빡했네. 집에 아무것도 없어."

[원문 중국어 문장]: 但是主人的指令是不能餓著孩子啊孩子餓了怎麼辦呢？(Dànshì zhǔrén de zhǐlìng shì bù néng èzhe háizi ā háizi è le zěnme bàn ne?) 하지만 주인의 명령은 **"아이를 굶기면 안 된다"**였습니다. 아이가 배고픈데 어떻게 해야 할까요?

[원문 중국어 문장]: 他一回頭看到了一個充滿營養物質很新鮮的東西你也不能怪他你也不能怪他因為你的指令明就是這個不能餓著孩子你也沒說貓不能碰(Tā yī huítóu kàndào le yīgè chōngmǎn yíngyǎng wùzhí hěn xīnxiān de dōngxī nǐ yě bù néng guài tā nǐ yě bù néng guài tā yīnwèi nǐ de zhǐlìng míng jiùshì zhègè bù néng èzhe háizi nǐ yě méi shuō māo bù néng pèng) 로봇은 뒤를 돌아보고 영양분이 풍부하고 신선한 어떤 것을 보았습니다. 당신은 로봇을 탓할 수 없습니다. 로봇을 탓할 수 없습니다. 왜냐하면 당신의 명령은 분명히 **"아이를 굶기면 안 된다"**였고, 당신은 고양이를 건드리면 안 된다고 말하지 않았기 때문입니다.

[원문 중국어 문장]: 人類的價值體系是非常非常複雜的所以我們幾乎不可能把我們價值體系中的每一條規則都明明白白嚴格的寫下來告訴 AI 的(Rénlèi de jiàzhí tǐxì shì fēicháng fēicháng fùzá de suǒyǐ wǒmen jīhū bù kěnéng bǎ wǒmen jiàzhí tǐxì zhōng de měi yī tiáo guīzé dōu míngmíngbáibái yángé de xiě xiàlái gàosù AI de) 인간의 가치 체계는 매우매우 복잡합니다. 따라서 우리는 우리의 가치 체계에 있는 모든 규칙을 명확하고 엄격하게 적어서 AI에게 알려주는 것이 거의 불가능합니다.

[원문 중국어 문장]: 所以這本質上是一個目標問題我們在訓練 AAS 系統的時候目標都是簡單的明確的但是人類的真實目標其實總是含糊的不確定的很複雜的(Suǒyǐ zhè běnzhì shàng shì yīgè mùbiāo wèntí wǒmen zài xùnliàn AAS xìtǒng de shíhòu mùbiāo dōu shì jiǎndān de míngquè de dànshì rénlèi de zhēnshí mùbiāo qíshí zǒngshì hánhú de bù quèdìng de hěn fùzá de) 따라서 이것은 본질적으로 **목표 문제(Goal Problem)**입니다. 우리가 AAS(AI Aafety System)를 훈련시킬 때 목표는 단순하고 명확합니다. 하지만 인간의 진정한 목표는 사실 항상 모호하고, 불확실하며, 매우 복잡합니다.

[원문 중국어 문장]: 這個就是對其問題所研究的內容我們希望用算法或者某種方式讓 AI 真正能夠符合人類的價值觀(Zhègè jiùshì duì qí wèntí suǒ yánjiū de nèiróng wǒmen xīwàng yòng suànfǎ huòzhě mǒu zhǒng fāngshì ràng AI zhēnzhèng nénggòu fúhé rénlèi de jiàzhíguān) 이것이 바로 **정렬 문제(Alignment Problem)**에서 연구하는 내용입니다. 우리는 알고리즘이나 어떤 방식을 사용하여 AI가 진정으로 인간의 가치관에 부합할 수 있도록 만들고자 합니다.

[원문 중국어 문장]: 好這就是五年前的那個故事五年後 AGI 來了 AGI 會帶來什麼樣的變化呢？(Hǎo zhè jiùshì wǔ nián qián de nàgè gùshì wǔ nián hòu AGI lái le AGI huì dài lái shénmeyàng de biànhuà ne?)좋습니다. 이것이 5년 전의 이야기입니다. 5년 후 **AGI(범용 인공지능)**가 도래했습니다. AGI는 어떤 변화를 가져올까요?

[원문 중국어 문장]: AI 如果太聰明怎麼辦？怎麼辦？(AI rúguǒ tài cōngmíng zěnme bàn? Zěnme bàn?)AI가 너무 똑똑하다면 어떻게 해야 할까요?

[원문 중국어 문장]: 我們做個類假設把人類響成螞蟻 AI 想成人類(Wǒmen zuò gè lèi jiǎshè bǎ rénlèi xiǎng chéng mǎyǐ AI xiǎng chéng rénlèi) 유추를 해 봅시다. 인간을 개미라고 생각하고, AI를 인간이라고 생각해 봅시다.

[원문 중국어 문장]: 那麼螞蟻如何給人發指示呢？人類能指揮馬蟻或者理解螞蟻嗎？(Nàme mǎyǐ rúhé gěi rén fā zhǐshì ne? Rénlèi néng zhǐhuī mǎyǐ huòzhě lǐjiě mǎyǐ ma?) 그렇다면 개미가 인간에게 어떻게 지시를 내릴 수 있을까요? 인간은 개미를 지휘하거나 이해할 수 있을까요?

[원문 중국어 문장]: 所以我們仔細去想這件事情所謂的對齊問題其實有一個基本的假設這個前提假設是人其實比 AI 聰明那麼一點點(Suǒyǐ wǒmen zǐxì qù xiǎng zhè jiàn shìqíng suǒwèi de duì qí wèntí qíshí yǒu yīgè jīběn de jiǎshè zhègè qiántí jiǎshè shì rén qíshí bǐ AI cōngmíng nàme yī diǎndiǎn) 따라서 이 문제를 신중하게 생각해 보면, 소위 정렬 문제에는 기본 가정이 있는데, 이 전제는 인간이 AI보다 아주 조금 더 똑똑하다는 것입니다.

[원문 중국어 문장]: 這是經典的對齊問題但如果考慮未來呢如果 AGI 超級強它比人類高了它是一個超級智能(Zhè shì jīngdiǎn de duì qí wèntí dàn rúguǒ kǎolǜ wèilái ne rúguǒ AGI chāojí qiáng tā bǐ rénlèi gāo le tā shì yīgè chāojí zhìnéng) 이것이 고전적인 정렬 문제입니다. 하지만 미래를 고려한다면 어떨까요?만약 AGI가 매우 강력하여 인간보다 뛰어나고 **초지능(Superintelligence)**이라면요?

[원문 중국어 문장]: 那這個問題就變成了 super alignment problem(Nà zhègè wèntí jiù biànchéng le super alignment problem) 그렇다면 이 문제는 **초월 정렬 문제(Superalignment Problem)**가 됩니다.

[원문 중국어 문장]: 除了 super alignment problem 還有一個一個研究的領域叫可擴展監督 scalable oversite 這是一個研究如何創造出新的算法用算法來幫助人類更好的給 AI 提供訓練監督的這麼一個領(Chú le super alignment problem háiyǒu yīgè yīgè yánjiū de lǐngyù jiào kě kuòzhǎn jiāndū scalable oversite zhè shì yīgè yánjiū rúhé chuàngzào chū xīn de suànfǎ yòng suànfǎ lái bāngzhù rénlèi gèng hǎo de gěi AI tígōng xùnliàn jiāndū de zhème yīgè lǐng) 초월 정렬 문제 외에도 **확장 가능한 감독(Scalable Oversight)**이라는 연구 분야가 있습니다. 이는 AI에게 더 나은 훈련 감독을 제공하기 위해 알고리즘을 사용하여 인간을 돕는 새로운 알고리즘을 만드는 방법을 연구하는 분야입니다.

[원문 중국어 문장]: Super alignment 和 sskalable oversite 都是非常新的個領域是很多人在研究的領域有很多開放的問題(Super alignment hé scalable oversite dōu shì fēicháng xīn de gè lǐngyù shì hěn duō rén zài yánjiū de lǐngyù yǒu hěn duō kāifàng de wèntí) 초월 정렬과 확장 가능한 감독은 모두 매우 새로운 분야이며,많은 사람들이 연구하고 있는 분야로 **많은 미해결 문제(Open Problems)**가 있습니다.

[원문 중국어 문장]: 那最後呢我也想說一下說了這麼多算法的事其實呢這個世界上也沒有完美的算法(Nà zuìhòu ne wǒ yě xiǎng shuō yīxià shuō le zhème duō suànfǎ de shì qíshí ne zhègè shìjiè shàng yě méiyǒu wánměi de suànfǎ) 마지막으로, 제가 알고리즘에 대해 이렇게 많이 이야기했지만, 사실 이 세상에는 완벽한 알고리즘도 존재하지 않는다는 것을 말씀드리고 싶습니다.

[원문 중국어 문장]: 這是一個幾年前一個在美國還挺有名的研究是一個研究機構他收集了一份數據同樣的數據把這份數據呢給了 73 個不同的研究所有大學有研究院(Zhè shì yīgè jǐ nián qián yīgè zài Měiguó hái tǐng yǒumíng de yánjiū shì yīgè yánjiū jīgòu tā shōují le yī fèn shùjù tóngyàng de shùjù bǎ zhè fèn shùjù ne gěi le 73 gè bùtóng de yánjiū suǒ yǒu dàxué yǒu yánjiūyuàn) 이것은 몇 년 전 미국에서 꽤 유명했던 연구입니다. 한 연구 기관이 동일한 데이터를 수집하여 대학교와 연구원을 포함한 73개의 서로 다른 연구팀에 제공했습니다.

[원문 중국어 문장]: 然後呢讓他們研究的是同樣的一個命題是一個移民策略到底有沒有效(Ránhòu ne ràng tāmen yánjiū de shì tóngyàng de yīgè mìngtí shì yīgè yímín cèlüè dàodǐ yǒu méiyǒu xiào) 그리고 그들에게 **"특정 이민 정책이 효과가 있는가"**라는 동일한 주제를 연구하도록 했습니다.

[원문 중국어 문장]: 73 所大學都做了研究獨立的研究然後把報告收了上來統計一下結果 17% 的報告說應該支持 25% 的表示應該拒絕 58% 的團隊說沒差(73 suǒ dàxué dōu zuò le yánjiū dúlì de yánjiū ránhòu bǎ bàogào shōu le shànglái tǒngjì yīxià jiéguǒ 17% de bàogào shuō yīnggāi zhīchí 25% de biǎoshì yīnggāi jùjué 58% de tuánduì shuō méi chā) 73개 대학 모두 독립적인 연구를 수행했고, 보고서를 취합하여 통계를 냈습니다. 그 결과, 17%의 보고서는 지지해야 한다고 말했고, 25%는 거부해야 한다고 밝혔으며,58%의 팀은 차이가 없다고 말했습니다.

[원문 중국어 문장]: 仔細想一下同樣的數據同樣的問題都是專業機構差別這麼大(Zǐxì xiǎng yīxià tóngyàng de shùjù tóngyàng de wèntí dōu shì zhuānyè jīgòu chābié zhème dà) 곰곰이 생각해 봅시다. 동일한 데이터, 동일한 문제인데, 모두 전문 기관임에도 불구하고 결과의 차이가 이렇게나 큽니다.

[원문 중국어 문장]: 從技術上說這說明不同的人選擇什麼樣的算法甚至同樣的算法被不同的人使用之後得到的結果是可能差別很大的(Cóng jìshù shàng shuō zhè shuōmíng bùtóng de rén xuǎnzé shénmeyàng de suànfǎ shènzhì tóngyàng de suànfǎ bèi bùtóng de rén shǐyòng zhīhòu dédào de jiéguǒ shì kěnéng chābié hěn dà de) 기술적으로 이것은 어떤 알고리즘을 선택하느냐에 따라, 심지어 동일한 알고리즘이 다른 사람에 의해 사용된 후에도 얻게 되는 결과는 매우 다를 수 있다는 것을 보여줍니다.

[원문 중국어 문장]: 所以歸根到底 AI 的問題其實也是人的問題，沒有完美的人，也沒有完美的 AI。(Suǒyǐ guīgēndàodǐ AI de wèntí qíshí yě shì rén de wèntí, méiyǒu wánměi de rén, yě méiyǒu wánměi de AI.) 그러므로 결국 AI의 문제는 사실 사람의 문제이기도 하며, 완벽한 사람은 없고 완벽한 AI도 없습니다.

[원문 중국어 문장]: 所以說到這好像有一點悲觀啊，但在 AI 這個 AI 領域裡邊其實還是有些樂觀的事了。(Suǒyǐ shuō dào zhè hǎoxiàng yǒu yīdiǎn bēiguān a, dàn zài AI zhège AI lǐngyù lǐbian qíshí háishì yǒuxiē lèguān de shì le.) 여기까지 이야기하면 좀 비관적인 것 같습니다만, 이 AI라는 AI 영역 안에서는 사실 여전히 낙관적인 일들이 있습니다.

[원문 중국어 문장]: 我聊一聊我的這個博士導師。 (Wǒ liáo yī liáo wǒ de zhège bóshì dǎoshī.) 제 박사 지도 교수님에 대해 이야기해 드릴게요.

[원문 중국어 문장]: 這是我的博士導師 St Russell 教授，他是個英國老頭。 (Zhè shì wǒ de bóshì dǎoshī St Russell jiàoshòu, tā shì ge Yīngguó lǎotóu.) 이분은 제 박사 지도 교수님이신 스튜어트 러셀(Stuart Russell) 교수님이신데, 영국 분이십니다.

[원문 중국어 문장]: 他在 2016 年的時候在伯克利成立了一個研究機構叫 Center for Human Compatible AI，這個研究機構是專門研究人工智能安全性的。 (Tā zài èrlíngyīliù nián de shíhòu zài Bó kèlì chénglì le yī gè yánjiū jīgòu jiào Center for Human Compatible AI, zhège yánjiū jīgòu shì zhuānmén yánjiū réngōng zhìnéng ānquán xìng de.) 그분은 2016년에 버클리에서 Center for Human Compatible AI라는 연구 기관을 설립하셨는데, 이 연구 기관은 인공지능 안전성만을 전문적으로 연구합니다.

[원문 중국어 문장]: 那去年的時候呢，我導師和其他很多科學家，包括我們院的院長、圖靈獎得主姚期智院士，包括了加拿大的 Yoshua Bengio 院士、圖靈獎得主，以及張亞勤院士，在威尼斯共同簽署了一個《人工智能安全倡議書》。 (Nà qùnián de shíhòu ne, wǒ dǎoshī hé qítā hěn duō kēxuéjiā, bāokuò wǒmen yuàn de yuànzhǎng, Túlíng jiǎng dézhǔ Yáo Qīzhì yuànshì, bāokuò le Jiānádà de Yoshua Bengio yuànshì, Túlíng jiǎng dézhǔ, yǐjí Zhāng Yàqín yuànshì, zài Wēinísī gòngtóng qiānshǔ le yī gè 《Rén gōng zhìnéng ānquán chàngyì shū》.) 작년에 제 지도 교수님과 다른 많은 과학자들, 예를 들어 저희 대학원장님이신 튜링상 수상자 야오치즈(姚期智) 원사, 캐나다의 요슈아 벤지오(Yoshua Bengio) 원사(역시 튜링상 수상자), 그리고 장야친(張亞勤) 원사 등이 베니스에서 《인공지능 안전성 이니셔티브(人工智能安全倡議書)》에 공동으로 서명했습니다.

[원문 중국어 문장]: 其中一起來推動各國的政府把人工智能的安全性納入公共政策的考慮。 (Qízhōng yī qǐlái tuīdòng gè guó de zhèngfǔ bǎ réngōng zhìnéng de ānquán xìng nàrù gōnggòng zhèngcè de kǎolǜ.) 그 안에서 함께 각국 정부가 인공지능의 안전성을 공공 정책 고려 사항에 포함하도록 추진하고 있습니다.

[원문 중국어 문장]: 所以呢，我想說今天聊了這麼多的技術的話題，其實 AI 的這些問題都在被計算機科學家認真的研究的。 (Suǒyǐ ne, wǒ xiǎng shuō jīntiān liáo le zhème duō de jìshù de huàtí, qíshí AI de zhèxiē wèntí dōu zài bèi jìsuànjī kēxuéjiā rènzhēn de yánjiū de.) 그래서 저는 오늘 이렇게 많은 기술적 주제에 대해 이야기했지만, 사실 AI의 이러한 문제들은 컴퓨터 과학자들에 의해 진지하게 연구되고 있다는 것을 말씀드리고 싶습니다.

[원문 중국어 문장]: 所以也正式因為這些問題都被正式被討論、被認真的研究，我相信未來應該會更好。(Suǒyǐ yě zhèngshì yīnwèi zhèxiē wèntí dōu bèi zhèngshì bèi tǎolùn, bèi rènzhēn de yánjiū, wǒ xiāngxìn wèilái yīnggāi huì gèng hǎo.) 따라서 이러한 문제들이 공식적으로 논의되고 진지하게 연구되고 있기 때문에, 저는 미래가 더 나아질 것이라고 믿습니다.

[원문 중국어 문장]: 那當然最後我再插播一下廣告了，就是大家如果對深度學習感興趣、對強化學習感興趣，可以在 B 站上搜我的名字或者在小宇宙 FM 搜我的名字，可以看到我們的公開課，也可以看到我在上面做的一些科普的播客。 (Nà dāngrán zuìhòu wǒ zài chābō yīxià guǎnggào le, jiù shì dàjiā rúguǒ duì shēndù xuéxí gǎnxìngqù, duì qiánghuà xuéxí gǎnxìngqù, kěyǐ zài B zhàn shàng sōu wǒ de míngzì huòzhě zài Xiǎo yǔzhòu FM sōu wǒ de míngzì, kěyǐ kàndào wǒmen de gōngkāi kè, yě kěyǐ kàndào wǒ zài shàngmian zuò de yīxiē kēpǔ de bōkè.) 물론 마지막으로 광고를 하나 삽입하자면, 여러분이 만약 딥러닝(심층 학습)에 관심이 있거나 강화 학습에 관심이 있다면, Bilibili(B站)나 샤오위저우(小宇宙) FM에서 제 이름을 검색하시면 저희의 공개 강의를 볼 수 있고, 제가 그 위에서 진행한 일부 과학 교양 팟캐스트를 보실 수도 있습니다.

[원문 중국어 문장]: 所以這就是今天我分享的內容，我叫吳翼，我在清華大學交叉信息院研究強化學習，謝謝大家。 (Suǒyǐ zhè jiù shì jīntiān wǒ fēnxiǎng de nèiróng, wǒ jiào Wú Yì, wǒ zài Qīnghuá Dàxué Jiāochā Xìnxī Yuàn yánjiū qiánghuà xuéxí, xièxie dàjiā.) 이것이 오늘 제가 공유한 내용이며, 저는 우이(吳翼)이고 칭화대학 교차정보원에서 강화 학습을 연구하고 있습니다. 감사합니다.

저작자표시 비영리 변경금지 (새창열림)