夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

李飛飛斯坦佛公開課:AI的基石是視覺,從5.4億年前的眼睛到深度學(xué)習(xí)革命

0
分享至


來源:圖靈人工智能

本文內(nèi)容整理自Fei-Fei LiStanford Online頻道的專訪,公開發(fā)表于2025年09月03日。原始內(nèi)容參考:https://www.youtube.com/watch?v=2fq9wYslV0A

內(nèi)容提要: 李飛飛在斯坦福大學(xué)2025春季CS231N課程上的首次公開課

  • 人工智能的高度跨學(xué)科性:AI已成為一個高度跨學(xué)科的領(lǐng)域,計算機(jī)視覺作為其不可或缺的一部分,與自然語言處理、語音識別、機(jī)器人技術(shù),以及數(shù)學(xué)、神經(jīng)科學(xué)、計算機(jī)科學(xué)、心理學(xué)、物理學(xué)、生物學(xué)等眾多學(xué)科深度交叉。

  • 視覺是智能的基石:視覺不僅是智能的一部分,更是智能的基石。解開視覺智能的奧秘,就是系統(tǒng)性地解開整個智能的奧秘。

  • 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的核心地位:機(jī)器學(xué)習(xí)(或統(tǒng)計機(jī)器學(xué)習(xí))是解決AI問題的重要數(shù)學(xué)工具,而作為機(jī)器學(xué)習(xí)領(lǐng)域過去十多年重大革命的深度學(xué)習(xí),正是本課程的核心。

  • 視覺進(jìn)化的歷史與智能發(fā)展:視覺的歷史可追溯至5.4億年前的寒武紀(jì)大爆發(fā)。眼睛(感光細(xì)胞)的出現(xiàn),是驅(qū)動動物物種爆發(fā)和智能進(jìn)化的關(guān)鍵,生命體也因此從被動“新陳代謝”的角色,轉(zhuǎn)變?yōu)槟苤鲃舆m應(yīng)環(huán)境的個體。

  • 人類的視覺特征:人類是典型的視覺動物,大腦皮層中超過一半的細(xì)胞都參與視覺處理,擁有一個極其復(fù)雜精密的視覺系統(tǒng)。

  • 制造“看見”的機(jī)器的探索:從達(dá)芬奇的暗箱研究到現(xiàn)代相機(jī)的普及,人類一直在探索制造能夠“看見”的機(jī)器。但相機(jī)與人眼一樣,本身只是工具,真正的“看見”需要更深層次的理解。

  • 神經(jīng)科學(xué)對計算機(jī)視覺的啟發(fā):Hubel和Wiesel對哺乳動物視覺通路的研究,揭示了神經(jīng)元的“感受野”(對特定空間區(qū)域響應(yīng))和視覺通路的分層結(jié)構(gòu),這為神經(jīng)網(wǎng)絡(luò)算法的設(shè)計提供了至關(guān)重要的靈感。

  • 計算機(jī)視覺的早期探索與里程碑:Larry Roberts在1963年的博士論文標(biāo)志著計算機(jī)視覺作為一門學(xué)科的誕生;David Marr在20世紀(jì)70年代的著作為視覺處理研究構(gòu)建了系統(tǒng)性框架,提出了從“原始草圖”、“2.5D草圖”到3D表示的經(jīng)典概念。

  • 從2D圖像恢復(fù)3D信息的挑戰(zhàn):從2D圖像中恢復(fù)3D信息本質(zhì)上是一個不適定問題。自然界通過多視角(如三角測量)來解決,人類也演化出了這種能力,但其精度仍有局限。

  • 語言與視覺的本質(zhì)區(qū)別:語言是純粹由人類創(chuàng)造的生成性建構(gòu),而視覺則根植于物理世界,遵循物理定律。這一根本區(qū)別對AI算法的設(shè)計具有深遠(yuǎn)影響。

  • AI寒冬與暗流涌動:20世紀(jì)80年代末至90年代,AI領(lǐng)域雖經(jīng)歷“寒冬”,但計算機(jī)視覺、自然語言處理、機(jī)器人學(xué)等領(lǐng)域的研究仍在積蓄力量,認(rèn)知科學(xué)和神經(jīng)科學(xué)的蓬勃發(fā)展也為AI的未來指明了方向。

  • 人類視覺處理的驚人速度和效率:認(rèn)知神經(jīng)科學(xué)研究表明,人類大腦能在看到圖像后的150毫秒內(nèi)完成初步的物體分類,其神經(jīng)處理效率極高。大腦中甚至存在專門負(fù)責(zé)識別人臉、地點(diǎn)等特定類別物體的區(qū)域。

  • 深度學(xué)習(xí)的崛起與ImageNet挑戰(zhàn):21世紀(jì)初,互聯(lián)網(wǎng)和數(shù)碼相機(jī)的普及帶來了海量數(shù)據(jù)。2012年,AlexNet在ImageNet挑戰(zhàn)賽中取得突破性成果,將錯誤率大幅降低,正式拉開了深度學(xué)習(xí)革命的序幕。

  • 深度學(xué)習(xí)的關(guān)鍵要素:深度學(xué)習(xí)的成功歸功于兩大關(guān)鍵:一是被稱為“反向傳播”(backpropagation)的學(xué)習(xí)算法,二是海量數(shù)據(jù)的應(yīng)用。數(shù)據(jù)真正驅(qū)動了高容量模型的發(fā)展。

  • 計算機(jī)視覺任務(wù)的多樣化:除了圖像分類,計算機(jī)視覺還涵蓋語義分割、目標(biāo)檢測、實例分割、視頻分類、多模態(tài)視頻理解、圖像檢索、圖像描述生成、物體關(guān)系理解、風(fēng)格遷移、三維表示生成等豐富多樣的任務(wù)。

  • 生成式AI的爆炸式發(fā)展:如今,以DALL·E、Midjourney和擴(kuò)散模型為代表的生成式AI,能夠根據(jù)文本提示生成圖像,融合了理解、創(chuàng)造和控制,標(biāo)志著AI進(jìn)入了一個激動人心的全新時代。

  • 硬件(GPU)的飛躍式發(fā)展:以NVIDIA GPU為代表的硬件,其計算能力(每美元浮點(diǎn)運(yùn)算次數(shù))的指數(shù)級增長,是驅(qū)動AI大爆發(fā)的重要引擎。

  • AI倫理與社會影響:AI算法(尤其是大型模型)可能會繼承并放大人類社會存在的偏見,導(dǎo)致歧視性結(jié)果(如人臉識別中的偏差)。AI在影響貸款審批、求職資格等人類生活關(guān)鍵領(lǐng)域的巨大潛力,也帶來了嚴(yán)峻的倫理挑戰(zhàn),亟需我們關(guān)注以人為本的應(yīng)用和影響。

  • AI在醫(yī)學(xué)和醫(yī)療保健領(lǐng)域的應(yīng)用:AI在醫(yī)學(xué)影像分析、老年人口和病患護(hù)理等方面展現(xiàn)出巨大的應(yīng)用價值,是AI向善發(fā)展的重要方向。

  • 人類視覺的精妙與AI的局限:盡管計算機(jī)視覺已取得巨大成就,但人類視覺所擁有的細(xì)膩、豐富、復(fù)雜和情感維度,仍是AI需要持續(xù)探索的遠(yuǎn)大目標(biāo)。

  • 本課程的結(jié)構(gòu):課程將從深度學(xué)習(xí)基礎(chǔ)講起,逐步深入探討計算機(jī)視覺的核心任務(wù)、關(guān)鍵模型(CNN、RNN、Transformer等)、大規(guī)模分布式訓(xùn)練、生成式與交互式視覺智能(自監(jiān)督學(xué)習(xí)、生成模型、視覺語言模型、3D視覺),最后將關(guān)注以人為中心的應(yīng)用及其社會影響。

  • 核心學(xué)習(xí)目標(biāo):將計算機(jī)視覺問題形式化為具體任務(wù);學(xué)習(xí)開發(fā)和訓(xùn)練視覺模型;深入了解該領(lǐng)域的現(xiàn)狀與未來方向。

李飛飛簡介

李飛飛(Fei-Fei Li)是一位享譽(yù)全球的人工智能(AI)科學(xué)家,在計算機(jī)視覺領(lǐng)域做出了開創(chuàng)性貢獻(xiàn)。她目前擔(dān)任斯坦福大學(xué)計算機(jī)科學(xué)系教授,并領(lǐng)導(dǎo)斯坦福人工智能實驗室(SAIL)。

李飛飛教授最廣為人知的成就是她創(chuàng)建了ImageNet。這是一個規(guī)模宏大、標(biāo)注精細(xì)的圖像數(shù)據(jù)庫,包含數(shù)千萬張涵蓋數(shù)千個物體類別的圖片。ImageNet的誕生極大地推動了深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的革命性進(jìn)步,為自動駕駛、醫(yī)療影像分析等眾多AI技術(shù)的突破奠定了堅實基礎(chǔ)。

除了ImageNet,李飛飛教授的研究還涵蓋機(jī)器學(xué)習(xí)、機(jī)器人學(xué)及AI倫理等多個方向。她曾擔(dān)任谷歌云AI/ML首席科學(xué)家,并在白宮科技政策辦公室任職,積極推動AI的負(fù)責(zé)任發(fā)展與應(yīng)用。李飛飛教授不僅是一位杰出的研究者,更是一位充滿熱情的教育家與倡導(dǎo)者,致力于讓AI技術(shù)造福全人類。

公開課實錄

李飛飛:大家好,這里是CS231N課程,我是計算機(jī)科學(xué)系的李飛飛。本學(xué)期,我將與Ehsan Adeli教授以及我的研究生Zane共同授課。稍后大家還會見到我們優(yōu)秀的助教團(tuán)隊。好了,我們正式開始。

人工智能已經(jīng)成為一個高度跨學(xué)科的領(lǐng)域,這一點(diǎn)令我非常興奮。雖然這門課的技術(shù)性很強(qiáng),專注于計算機(jī)視覺和深度學(xué)習(xí),但我真心希望大家能將所學(xué)知識活學(xué)活用,應(yīng)用到你們所熱愛和從事的任何領(lǐng)域中去。

我們常說人工智能,那么計算機(jī)視覺和本課程在其中處于什么位置呢?如果把人工智能想象成一個巨大的整體,那么計算機(jī)視覺是其不可或缺的一部分。我曾多次說過,視覺不僅是智能的一部分,更是智能的基石。解開視覺智能的奧秘,就是系統(tǒng)性地解開整個智能的奧秘。

解決人工智能問題最重要的數(shù)學(xué)工具之一是機(jī)器學(xué)習(xí),也有人稱之為統(tǒng)計機(jī)器學(xué)習(xí),這正是本課程的核心內(nèi)容。在機(jī)器學(xué)習(xí)領(lǐng)域,過去十多年我們經(jīng)歷了一場名為“深度學(xué)習(xí)”的重大革命。我將簡要解釋深度學(xué)習(xí)的內(nèi)涵。

深度學(xué)習(xí)包含了一整套圍繞“神經(jīng)網(wǎng)絡(luò)”算法構(gòu)建的技術(shù)。如果要界定本課程的范圍,我們無法涵蓋計算機(jī)視覺、機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的全部內(nèi)容,但我們將聚焦于這幾個領(lǐng)域最核心的交叉地帶。

與人工智能一樣,計算機(jī)視覺也日益成為一個跨學(xué)科領(lǐng)域。我們使用的許多技術(shù)和研究的問題,都與自然語言處理、語音識別、機(jī)器人技術(shù)等領(lǐng)域息息相關(guān)。此外,人工智能還與數(shù)學(xué)、神經(jīng)科學(xué)、計算機(jī)科學(xué)、心理學(xué)、物理學(xué)、生物學(xué)等基礎(chǔ)學(xué)科緊密相連,并在醫(yī)學(xué)、法律、教育、商業(yè)等領(lǐng)域有著廣泛的應(yīng)用。

在今天的第一節(jié)課中,我將簡要回顧計算機(jī)視覺和深度學(xué)習(xí)的歷史,之后Adeli教授會介紹課程的整體安排,并闡明我們對大家的期望。

視覺的歷史,并非始于人類的誕生,而是可以追溯到5.4億年前。你們可能會問,為什么是5.4億年前?為什么是進(jìn)化史上這樣一個精確的時間點(diǎn)?這是因為大量化石研究指向了一個被稱為“寒武紀(jì)大爆發(fā)”的神秘時期?;涗涳@示,在進(jìn)化史上大約1000萬年的時間里——這對于進(jìn)化而言轉(zhuǎn)瞬即逝。

動物物種經(jīng)歷了一次大爆發(fā)。在寒武紀(jì)大爆發(fā)之前,地球上的生命相當(dāng)平靜,主要存在于水中,陸地上還是一片荒蕪。動物們只是在水中漂浮。那么,是什么觸發(fā)了物種的大爆發(fā)呢?對此有許多理論,從氣候變化到海洋化學(xué)成分的改變,但其中最引人注目的理論之一,是眼睛的出現(xiàn)。最早的動物,如三葉蟲,演化出了感光細(xì)胞。


我們所說的眼睛,并非如今復(fù)雜的晶狀體、視網(wǎng)膜和神經(jīng)系統(tǒng),而僅僅是能夠采集光線的簡單針孔。一旦生命體獲得了采集光線的能力,一切都變得截然不同。沒有感官,生命就只剩下被動的新陳代謝,周而復(fù)始。而感官的出現(xiàn),讓生命體成為了環(huán)境的主動參與者,渴望在其中生存、適應(yīng)和改變。某些動植物會成為你的晚餐,而你,也可能成為別人的盤中餐。

因此,進(jìn)化的力量開始驅(qū)動智能的演化,這正是源于感官,特別是視覺和觸覺的出現(xiàn)——這是動物最古老的兩種感官。這長達(dá)5.4億年的視覺進(jìn)化史,本質(zhì)上就是一部智能的進(jìn)化史。視覺作為動物最主要的感官之一,驅(qū)動了神經(jīng)系統(tǒng)與智能的協(xié)同發(fā)展。

如今,地球上幾乎所有我們已知的動物都擁有視覺,或?qū)⑵渥鳛橹饕泄僦?。人類更是典型的視覺動物。我們大腦皮層中超過一半的細(xì)胞都參與視覺處理,我們擁有一個極其復(fù)雜和精密的視覺系統(tǒng)。這就是我投身視覺研究并為之著迷的原因,我也希望它能同樣點(diǎn)燃你們的熱情。


現(xiàn)在,讓我們從寒武紀(jì)大爆發(fā)快進(jìn)到人類文明。人類富于創(chuàng)造,我們不僅自己能看見,還渴望制造出能“看見”的機(jī)器。這里有一些達(dá)芬奇的畫作,這位對萬物充滿好奇的巨匠,曾深入研究暗箱(camera obscura),探索制造“看見”的機(jī)器的方法。

事實上,在他之前,古希臘和古代中國的思想家與哲學(xué)家就已記載過如何通過針孔來投射并創(chuàng)造物體影像。當(dāng)然,在現(xiàn)代生活中,相機(jī)已經(jīng)無處不在。然而,相機(jī)本身并不能“看見”,正如眼睛本身不足以帶來真正的理解。它們都只是采集信息的工具。


我們需要理解的是視覺智能如何產(chǎn)生,而這正是本課程的核心。讓我們花些時間,回顧一下那段將我們引向深度學(xué)習(xí)與計算機(jī)視覺交匯點(diǎn)的歷史。

讓我把時間撥回到20世紀(jì)50年代。那時,一系列至關(guān)重要的神經(jīng)科學(xué)實驗,特別是針對哺乳動物視覺通路的研究,取得了突破。這項開創(chuàng)性工作主要由Hubel和Wiesel完成,他們通過電極來研究麻醉狀態(tài)下的活貓。他們探查了位于初級視覺皮層中神經(jīng)元的感受野,并得出了兩個至關(guān)重要的發(fā)現(xiàn)。

首先,他們發(fā)現(xiàn)初級視覺皮層中負(fù)責(zé)視覺的神經(jīng)元,都有其各自的“感受野”(receptive field)。所謂感受野,是指每個神經(jīng)元能夠“看見”的特定空間區(qū)域。這些區(qū)域范圍有限,只對應(yīng)一小片空間。在這些區(qū)域內(nèi),神經(jīng)元會對特定的簡單模式作出反應(yīng),尤其是在視覺通路的早期階段。例如,在位于大腦后部的初級視覺皮層,神經(jīng)元能夠響應(yīng)特定方向的邊緣或運(yùn)動的邊緣。不同的神經(jīng)元會對不同方向的邊緣產(chǎn)生響應(yīng),這標(biāo)志著大腦中視覺信息計算的開端。


第二個重要發(fā)現(xiàn)是視覺通路具有分層結(jié)構(gòu)。隨著信息在視覺系統(tǒng)中逐級傳遞,神經(jīng)元將信號傳輸給下一級神經(jīng)元。通路中更深層級的神經(jīng)元,會表現(xiàn)出更復(fù)雜的感受野。例如,最初對簡單邊緣作出反應(yīng)的神經(jīng)元,可能會將信息傳遞給能夠識別角點(diǎn)甚至物體的神經(jīng)元。這雖然是一個簡化的描述,但其核心思想——神經(jīng)元相互連接,構(gòu)成處理視覺信息的龐大網(wǎng)絡(luò)——正是關(guān)鍵所在。

當(dāng)然,在座的許多人可能已經(jīng)想到,這種對神經(jīng)結(jié)構(gòu)的描述,如何深刻地啟發(fā)了視覺建模,特別是神經(jīng)網(wǎng)絡(luò)算法的設(shè)計。大約二三十年后,也就是1981年,Hubel和Wiesel因其揭示視覺處理原理的開創(chuàng)性工作而榮獲諾貝爾生理學(xué)或醫(yī)學(xué)獎。

計算機(jī)視覺早期歷史的另一個里程碑,是該領(lǐng)域的第一篇博士論文。學(xué)界普遍認(rèn)為這項榮譽(yù)屬于Larry Roberts,他在1963年完成了第一篇完全專注于研究形狀識別的博士論文。

這項工作觸及了通過視覺感知來理解世界的一個根本性問題。其核心在于,我們能否讓機(jī)器像人類一樣,憑直覺理解一個形狀,識別出其表面、邊角和特征。

為此,他撰寫了一篇完整的博士論文來系統(tǒng)性地探究這個問題。這標(biāo)志著計算機(jī)視覺作為一個獨(dú)立學(xué)科的正式開端。

大約在1966年,麻省理工學(xué)院的一位教授組織了一個夏季項目,計劃聘請幾位非常聰明的本科生來研究視覺。他們的目標(biāo)是:在一個夏天之內(nèi)解決計算機(jī)視覺問題。當(dāng)然,這和人工智能歷史上的許多時刻一樣,我們總是傾向于對短期內(nèi)能取得的成就過于樂觀。

那個夏天當(dāng)然沒能解決視覺問題。事實上,從那時起,計算機(jī)視覺已經(jīng)發(fā)展成為一個龐大的計算機(jī)科學(xué)領(lǐng)域。如今,我們每年的頂級會議都能吸引上萬名參會者,可見其規(guī)模之盛。20世紀(jì)60年代是我們領(lǐng)域的一個重要節(jié)點(diǎn),其標(biāo)志性事件是拉里·羅伯茨(Larry Roberts)的博士論文以及與之相關(guān)的項目。我們將那個時期視為計算機(jī)視覺領(lǐng)域的開端。

大衛(wèi)·馬爾的開創(chuàng)性工作與計算機(jī)視覺的早期探索

20世紀(jì)70年代,大衛(wèi)·馬爾(David Marr)寫下了一本開創(chuàng)性的著作。他英年早逝,令人惋惜。他希望系統(tǒng)性地研究視覺,并開始思考視覺信息的處理過程。盡管沒有明確說明,但他的研究受到了神經(jīng)科學(xué)和認(rèn)知科學(xué)的深刻啟發(fā)。他思考的是,當(dāng)我們接收一張輸入圖像時,我們究竟是如何處理并理解它的?

也許第一層處理的是邊緣信息,他稱之為“原始草圖”(primal sketch)。然后是“二維半草圖”(two and a half D sketch),它負(fù)責(zé)將圖像中物體的不同深度分離開來。例如,球是前景,而地面是背景。他提出了“二維半草圖”這一概念,以輔助視覺理解。


最終,在大衛(wèi)·馬爾看來,視覺問題的終極圣杯,在于構(gòu)建完整的世界三維表示。這正是視覺領(lǐng)域最具挑戰(zhàn)性的難題。請允許我花20秒跑個題??v觀動物界的視覺系統(tǒng),你會發(fā)現(xiàn)這其實是一個不適定問題(ill-posed problem)。從最早的三葉蟲在水下收集光線開始,來自世界各處的光子,最終都會投射到一個大致為二維的表面上。

當(dāng)時,那只是動物身上的一個感光區(qū)域,但對我們而言,那就是視網(wǎng)膜。然而,真實世界是三維的。因此,如何從二維圖像中恢復(fù)完整的三維信息,至今仍是視覺處理領(lǐng)域的一大挑戰(zhàn)。

從二維圖像中恢復(fù)三維信息,既是自然演化必須攻克的根本難題,也是計算機(jī)視覺亟待解決的核心挑戰(zhàn)。從數(shù)學(xué)上講,這是一個不適定問題。那么,自然界是如何解決的呢?有人有大膽的猜測嗎?


李飛飛:自然界使用的技巧,就是演化出多只眼睛,通常是兩只,有些動物甚至更多。這樣便可以利用三角測量法來獲取深度信息。但僅有兩只眼睛還不夠,你還需要理解左右眼圖像之間的對應(yīng)關(guān)系等等。我們會簡單觸及這些話題,但斯坦福大學(xué)有其他專門討論3D視覺的計算機(jī)視覺課程。但重點(diǎn)在于,這是一個極其困難的問題。我們必須解決它。自然界已經(jīng)解決了,人類也解決了,只是精度還遠(yuǎn)不夠高。

事實上,人類的感知精度并不高。例如,我能大致感知物體的三維形狀,但無法精確掌握其幾何細(xì)節(jié)。這一點(diǎn),能讓我們更好地理解和體會這個問題的艱巨性。

另一件在計算機(jī)視覺和語言之間存在巨大差異的事,在哲學(xué)層面其實相當(dāng)微妙。語言并非自然之物。你無法指著世間萬物說:“看,那就是語言”。語言是純粹源自人類經(jīng)驗的生成式構(gòu)造。

它由我們的大腦生成,具有生成性、一維性和序列性的特點(diǎn)。這實際上對最新一浪的生成式AI算法產(chǎn)生了深遠(yuǎn)影響。這也解釋了為什么大型語言模型(LLM)——盡管超出了本課程的范圍——會如此強(qiáng)大,正是因為語言的這些特性使其易于建模。

但視覺則不同,它并非生成。我們眼前的,是一個遵循著物理與材料法則的真實物理世界。因此,視覺的任務(wù)也截然不同。我希望大家能體會到語言和視覺的根本區(qū)別,并由此贊嘆自然界解決視覺問題的精妙之道。

好的,我們繼續(xù)。20世紀(jì)70年代,在沒有海量數(shù)據(jù)、沒有強(qiáng)大算力、也沒有今天這樣成熟的數(shù)學(xué)工具的情況下,計算機(jī)視覺的早期先驅(qū)們就已經(jīng)開始挑戰(zhàn)一些領(lǐng)域內(nèi)最棘手的問題,例如物體識別。在斯坦福大學(xué),羅德尼·布魯克斯(Rodney Brooks)和湯姆·賓福德(Tom Binford)的“廣義圓柱體”(Generalized Cylinders)是一項開創(chuàng)性工作。

巧合的是,羅德尼·布魯克斯今天就在校園里,正在不遠(yuǎn)處的機(jī)器人會議上發(fā)表演講。他后來成為我們這個時代最偉大的機(jī)器人學(xué)家之一,是掃地機(jī)器人Roomba及許多其他機(jī)器人的創(chuàng)始人。而在帕洛阿爾托的另一端,也有研究人員致力于構(gòu)建人體和物體的組合模型。然后到了20世紀(jì)80年代,


數(shù)字照片開始出現(xiàn),至少人們可以對照片進(jìn)行數(shù)字化處理了。隨后,出現(xiàn)了一些出色的邊緣檢測工作。回顧這一切,你可能會感到一絲失望。如果這就是當(dāng)時計算機(jī)視覺的全部,那似乎并無太大進(jìn)展。

事實也的確如此。在你們許多人出生之前,人工智能領(lǐng)域步入了寒冬。領(lǐng)域之所以陷入寒冬,是因為人們對AI研究的熱情與投資都急劇降溫。許多承諾都未能兌現(xiàn):計算機(jī)視覺、專家系統(tǒng)、機(jī)器人技術(shù),無一實現(xiàn)突破。

然而,在寒冬的冰層之下,許多研究的種子正在計算機(jī)視覺、自然語言處理和機(jī)器人學(xué)等領(lǐng)域悄然發(fā)芽。因此,我們再來看看另一條對計算機(jī)視覺產(chǎn)生深遠(yuǎn)影響的研究脈絡(luò):認(rèn)知科學(xué)與神經(jīng)科學(xué)的持續(xù)發(fā)展。

尤其對計算機(jī)視覺領(lǐng)域而言,認(rèn)知科學(xué)與神經(jīng)科學(xué)為我們指明了值得追求的“北極星”問題。例如,心理學(xué)家告訴我們,觀察自然、真實的世界有其特殊之處。這是一項由歐文·比德曼(Irving Biederman)進(jìn)行的研究,他發(fā)現(xiàn),在兩張圖片中檢測同一輛自行車,其難度會因圖像背景是否被打亂而有所不同。從光子學(xué)的角度看,兩輛自行車的影像落在你視網(wǎng)膜上的位置完全相同,但背景信息卻以某種方式影響著觀察者感知物體的方式。

這告訴我們,看到全局——無論是整片森林還是整個世界——會影響我們對局部物體的感知。這也表明視覺處理的速度非???。另一個實驗則直接衡量了我們識別物體的速度。這是一項20世紀(jì)70年代初的實驗,受試者觀看一段視頻,任務(wù)是檢測視頻中是否出現(xiàn)人。我想你們每個人都在某一幀中看到了那個人。

想一想你的眼睛或大腦是多么卓越(remarkable),因為你從未看過這段視頻,我沒有告訴你目標(biāo)在哪一幀出現(xiàn),也沒有指明其樣貌、位置或姿態(tài),你卻毫不費(fèi)力地識別出了那個人。最關(guān)鍵的是,這些幀以10赫茲的頻率播放,意味著你觀看每幀的時間只有100毫秒。這充分說明了我們的視覺系統(tǒng)是多么卓越。

事實上,另一位認(rèn)知神經(jīng)科學(xué)家西蒙·索普(Simon Thorpe)測量了我們的視覺處理速度。如果你讓受試者戴上腦電圖(EEG)帽,向他們展示復(fù)雜的自然場景,并要求他們區(qū)分包含動物和不含動物的圖像,你就可以測量他們的腦電波。結(jié)果顯示,在看到一張照片僅150毫秒后,你的大腦中已經(jīng)產(chǎn)生了足以區(qū)分不同類別的信號。

與如今的GPU和現(xiàn)代芯片相比,150毫秒的速度或許并不驚艷。但你必須欣賞我們的“濕件”(wetware):大腦神經(jīng)元的工作速度遠(yuǎn)不及晶體管。盡管如此,對于神經(jīng)處理而言,150毫秒已經(jīng)快得驚人,這期間信號在大腦中僅傳遞了寥寥數(shù)步。

所以,這再次告訴我們,人類非常擅長觀察和分類物體。事實上,我們不僅擅長此道,甚至還演化出了專門處理特定類別的大腦區(qū)域,用于識別人臉、地點(diǎn)或身體部位。這些是麻省理工學(xué)院的神經(jīng)生理學(xué)家在20世紀(jì)90年代和21世紀(jì)初做出的發(fā)現(xiàn)。

所有這些研究都告訴我們,我們不應(yīng)僅僅局限于研究字符形狀或圖像草圖,而應(yīng)真正追求那些驅(qū)動視覺智能的核心基礎(chǔ)問題。其中一個被凸顯出來的問題,便是在自然場景下的物體識別。世界上的物體紛繁多樣,研究它們,正是解鎖視覺智能的關(guān)鍵一環(huán)。

作為一個領(lǐng)域,我們最初著眼于如何將前景物體從背景中分離出來,這被稱為“分組識別”(recognition by grouping),始于20世紀(jì)90年代。請記住,當(dāng)時我們?nèi)蕴幵贏I寒冬,但研究實際上仍在暗流涌動,不斷取得進(jìn)展。隨后出現(xiàn)了特征研究,有些人可能還記得SIFT特征及其匹配。


我讀研究生時,最激動人心的進(jìn)展是人臉檢測。我記得研究生第一年,一篇標(biāo)志性的論文發(fā)表,僅僅五年后,第一臺采用該論文算法的數(shù)碼相機(jī)便問世了,它利用人臉檢測技術(shù)實現(xiàn)了自動對焦。技術(shù)開始真正落地,并融入產(chǎn)業(yè)。

計算機(jī)視覺的重大進(jìn)展

進(jìn)入21世紀(jì)初,一件大事發(fā)生了:互聯(lián)網(wǎng)開始騰飛。隨著互聯(lián)網(wǎng)的擴(kuò)張,數(shù)據(jù)呈爆炸式增長。數(shù)碼相機(jī)與互聯(lián)網(wǎng)的結(jié)合,為計算機(jī)視覺領(lǐng)域提供了海量可供研究的數(shù)據(jù)。在早期,研究人員需要處理成千上萬張圖像來研究物體識別等問題。這一時期誕生了像Pascal VOC挑戰(zhàn)賽和Caltech 101這樣的數(shù)據(jù)集。


這標(biāo)志著計算機(jī)視覺發(fā)展的一個關(guān)鍵節(jié)點(diǎn)。你可能會好奇我為什么在這里停頓,因為我稍后會回到深度學(xué)習(xí)的話題。雖然視覺領(lǐng)域經(jīng)歷了從神經(jīng)生理學(xué)到計算機(jī)視覺,再到認(rèn)知神經(jīng)科學(xué),最后又回歸計算機(jī)視覺的演進(jìn)路徑,但與此同時,另一條獨(dú)立的研究路線也在并行發(fā)展,并最終催生了深度學(xué)習(xí)。這一發(fā)展始于對神經(jīng)網(wǎng)絡(luò)的早期研究,包括感知機(jī)等模型。大衛(wèi)·魯梅爾哈特(David Rumelhart)等研究人員參與了這項工作,而杰弗里·辛頓(Geoffrey Hinton)在早期也開始用少量感知機(jī)進(jìn)行實驗,探索它們處理信息和學(xué)習(xí)的方式。

此外,馬文·明斯基(Marvin Minsky)等知名學(xué)者也在感知的不同方面做出了貢獻(xiàn)。然而,明斯基也曾聲稱感知機(jī)無法學(xué)習(xí)某些邏輯函數(shù)(如異或)。這一論斷導(dǎo)致了神經(jīng)網(wǎng)絡(luò)發(fā)展的挫折,這凸顯了該領(lǐng)域在萌芽時期所面臨的挑戰(zhàn)。

盡管遭遇挫折,研究仍在繼續(xù)。在第一個轉(zhuǎn)折點(diǎn)到來之前,最重要的工作之一是日本科學(xué)家福島邦彥(Kunihiko Fukushima)的“神經(jīng)認(rèn)知機(jī)”(Neocognitron)。福島手工設(shè)計了一個神經(jīng)網(wǎng)絡(luò),它看起來是這樣的:大約有五六層,他為不同層級設(shè)計了不同的功能,其靈感正源于我前面描述的視覺通路(visual pathway)。還記得關(guān)于貓的視覺皮層實驗嗎?視覺信號從處理簡單特征的感受野(receptive fields)傳遞到處理復(fù)雜特征的感受野。他在這里也做了類似的事情。早期層級執(zhí)行簡單的功能,如卷積;而后期層級則執(zhí)行更復(fù)雜的功能,從卷積層中提取信息。因此,神經(jīng)認(rèn)知機(jī)在當(dāng)時堪稱一項工程壯舉,它的每一個參數(shù)都是手工設(shè)計的。他精心組合了數(shù)百個參數(shù),使得這個小小的神經(jīng)網(wǎng)絡(luò)能夠識別數(shù)字或字母。


真正的突破發(fā)生在1986年左右,當(dāng)時一種被稱為反向傳播(backpropagation)的學(xué)習(xí)算法被引入。這將是我們第一堂課的內(nèi)容。我們將討論魯梅爾哈特、杰弗里·辛頓等人如何采用神經(jīng)網(wǎng)絡(luò)架構(gòu),并引入一個用于糾正誤差的目標(biāo)函數(shù)。這個函數(shù)讓你能夠輸入數(shù)據(jù),將網(wǎng)絡(luò)的輸出與正確答案進(jìn)行比較,然后計算出差異。其目標(biāo)是將誤差信息沿網(wǎng)絡(luò)反向傳播,從而優(yōu)化網(wǎng)絡(luò)參數(shù)。這種從輸出端到輸入端的信息回流,便是“反向傳播”,其背后是微積分中的鏈?zhǔn)椒▌t。這對神經(jīng)網(wǎng)絡(luò)算法而言,是一個里程碑式的時刻。

當(dāng)然,在此期間,我們?nèi)蕴幵贏I寒冬之中,所以所有這些工作都在公眾視野之外默默進(jìn)行。然而,在研究界,這些都是重要的里程碑。反向傳播在神經(jīng)網(wǎng)絡(luò)中的早期應(yīng)用之一,是楊立昆(Yann LeCun)于20世紀(jì)90年代在貝爾實驗室開發(fā)的卷積神經(jīng)網(wǎng)絡(luò)。他構(gòu)建了一個稍大的七層網(wǎng)絡(luò),其魯棒性足以識別手寫字符。這項技術(shù)后來被應(yīng)用于美國郵政服務(wù)和部分銀行,用于讀取支票上的數(shù)字和字母。因此,它代表了早期神經(jīng)網(wǎng)絡(luò)的一項重要落地應(yīng)用。

杰弗里·辛頓和楊立昆繼續(xù)研究神經(jīng)網(wǎng)絡(luò)。然而,他們的進(jìn)展受到了限制。盡管對神經(jīng)網(wǎng)絡(luò)進(jìn)行了各種改進(jìn)和調(diào)整,但性能卻停滯不前。他們收集了大量手寫數(shù)字和字母的數(shù)據(jù)集,這些數(shù)據(jù)集相對簡單,識別效果尚可。但當(dāng)這些系統(tǒng)用于識別真實世界的照片時——比如貓、狗、微波爐、椅子和花——結(jié)果卻令人大失所望。

這個問題的一個重要原因是數(shù)據(jù)的缺乏。數(shù)據(jù)匱乏不僅是操作上的不便,更是一個深刻的數(shù)學(xué)挑戰(zhàn)。當(dāng)時的算法屬于高容量模型,它們極度依賴海量數(shù)據(jù)來學(xué)習(xí)泛化能力。泛化與過擬合背后,有著深刻的數(shù)學(xué)原理。不幸的是,數(shù)據(jù)的重要性常常被忽視,因為大多數(shù)研究人員只專注于算法架構(gòu),而沒有認(rèn)識到數(shù)據(jù)是機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的基石。

在21世紀(jì)初,我和我的學(xué)生們開始著手彌補(bǔ)這一疏忽。我們認(rèn)識到數(shù)據(jù)的重要性,并意識到整個領(lǐng)域可能都低估了它的價值。為此,我們啟動了一個名為ImageNet的項目,旨在構(gòu)建一個前所未有的超大規(guī)模數(shù)據(jù)集。我們從十億張圖片中篩選、清理,最終整理出包含1500萬張圖片的數(shù)據(jù)庫。這1500萬張圖片被分入22,000個不同的物體類別。我們還參考了大量認(rèn)知科學(xué)和心理學(xué)文獻(xiàn),以確保這22,000個類別的劃分是科學(xué)且有意義的。

這22,000個類別的數(shù)量級,與人類在生命早期學(xué)習(xí)識別的物體類別數(shù)量大致相當(dāng)。然后,我們開源了該數(shù)據(jù)集,并以此為基礎(chǔ),創(chuàng)辦了一項名為“ImageNet大規(guī)模視覺識別挑戰(zhàn)賽”(ILSVRC)的國際競賽。我們從ImageNet中選取了一個包含1000個類別、超過100萬張圖片的子集,用作競賽數(shù)據(jù)。這場國際挑戰(zhàn)賽持續(xù)了多年,旨在邀請全球的研究人員參與,構(gòu)建最優(yōu)秀的識別算法。算法類型不限,我們只用一個標(biāo)準(zhǔn)來衡量:看誰的算法能最準(zhǔn)確地識別出這1000個類別的物體。


在我們舉辦ImageNet挑戰(zhàn)賽的第一年,表現(xiàn)最佳的算法錯誤率仍接近30%,這成績相當(dāng)糟糕,因為人類的錯誤率還不到3%。2011年的結(jié)果并不盡如人意,但2012年,非凡的突破出現(xiàn)了。那一年,Geoffrey Hinton和他的學(xué)生們帶著卷積神經(jīng)網(wǎng)絡(luò)參賽,將錯誤率幾乎減半,一舉證明了深度學(xué)習(xí)算法的強(qiáng)大威力。


這個在2012年ImageNet挑戰(zhàn)賽中大放異彩的算法,就是著名的AlexNet。有趣的是,AlexNet的架構(gòu)與32年前福島邦彥(Kunihiko Fukushima)提出的Neocognitron并無本質(zhì)區(qū)別。

然而,在這三十多年間,有兩大突破至關(guān)重要。其一是反向傳播算法的問世。它提供了一種基于原則、數(shù)學(xué)上嚴(yán)謹(jǐn)?shù)膶W(xué)習(xí)規(guī)則,讓模型不再依賴于繁瑣的手工調(diào)參,這無疑是理論上的一大飛躍。

另一大突破,則是數(shù)據(jù)。人們逐漸認(rèn)識到,數(shù)據(jù)是驅(qū)動這些大容量模型(當(dāng)時參數(shù)已達(dá)數(shù)百萬,未來更將達(dá)到萬億級別)的核心動力。這種認(rèn)知,是點(diǎn)燃深度學(xué)習(xí)革命的火種,對其最終的成功起到了決定性作用。

因此,許多人將2012年AlexNet贏得ImageNet挑戰(zhàn)賽的這一刻,視為現(xiàn)代人工智能誕生或復(fù)興的歷史性轉(zhuǎn)折點(diǎn),是深度學(xué)習(xí)革命的真正開端。當(dāng)然,在座的許多人之所以會在這里,正是因為從那時起,我們迎來了一個深度學(xué)習(xí)的爆發(fā)時代。


以計算機(jī)視覺領(lǐng)域的頂級年度會議CVPR為例,其論文提交數(shù)量呈爆炸式增長;同樣,人工智能年度回顧(ARCA)的論文量也一路飆升。在隨后的幾年里,為了挑戰(zhàn)ImageNet,大量新算法如雨后春筍般涌現(xiàn)。我們將探討其中一些代表性的算法,但關(guān)鍵在于,AlexNet之后誕生的許多算法,都對計算機(jī)視覺領(lǐng)域及其應(yīng)用產(chǎn)生了深遠(yuǎn)影響。

所以,我們將要涵蓋的內(nèi)容非常豐富。ImageNet挑戰(zhàn)賽之后,計算機(jī)視覺領(lǐng)域高歌猛進(jìn)。我們不僅能精準(zhǔn)識別貓、狗、椅子等日常物品,更迅速發(fā)展出能夠理解復(fù)雜圖像場景的算法,例如圖像檢索、多目標(biāo)檢測和圖像分割等。在本課程中,你們將熟悉視覺識別領(lǐng)域的這些核心任務(wù),因為視覺的魅力遠(yuǎn)不止于識別貓狗,更在于其探索世界的細(xì)膩與深度。


此外,視覺的世界也并非靜止。在視頻分類和人類活動識別等領(lǐng)域,同樣有大量重要的研究在進(jìn)行。我展示這份概覽,是為了強(qiáng)調(diào)你們將學(xué)到的視覺任務(wù)是多么豐富多樣。大家現(xiàn)在不必完全理解其中的所有細(xì)節(jié),但重要的是認(rèn)識到這些應(yīng)用的廣闊前景。

在醫(yī)學(xué)影像領(lǐng)域,對于有醫(yī)學(xué)背景的同學(xué)來說——無論是放射學(xué)、病理學(xué)還是其他醫(yī)學(xué)分支——視覺分析都扮演著至關(guān)重要的角色,并對科學(xué)發(fā)現(xiàn)產(chǎn)生深遠(yuǎn)影響。一個典型的例子就是那張具有里程碑意義的首張黑洞照片,其背后就凝聚了大量的計算機(jī)視覺和計算攝影技術(shù)。

此外,計算機(jī)視覺在可持續(xù)發(fā)展和環(huán)境保護(hù)等領(lǐng)域也做出了廣泛貢獻(xiàn)。在ImageNet 2012這一里程碑之后,我們在圖像描述生成方面也取得了長足進(jìn)步。值得一提的是,這項工作正是由我的學(xué)生Andrej Karpathy主導(dǎo)完成的,他的博士論文便以此為題。


我們還進(jìn)一步探索如何理解物體間的關(guān)系,這體現(xiàn)了視覺智能不僅僅是識別像素層面的內(nèi)容。它還與風(fēng)格遷移這一迷人的研究領(lǐng)域相互交叉。本課程還將邀請在風(fēng)格遷移領(lǐng)域做出重要貢獻(xiàn)的Justin Johnson進(jìn)行客座講座,分享他的開創(chuàng)性見解。

當(dāng)然,在生成式AI時代,我們見證了許多令人驚嘆的成果,比如圖像生成。這是DALL-E早期的作品。我想這應(yīng)該是初代的DALL-E。如今,Midjourney和各類工具生成的圖像早已超越了這些牛油果椅子。我們正處在AI爆炸時代中最激動人心的時刻。

計算、算法和數(shù)據(jù)這三大力量的融合,將整個領(lǐng)域推向了前所未有的高度。我們已經(jīng)徹底走出了AI的寒冬,我甚至想說,我們正處在一個AI的“全球變暖”時代。無論好壞,這股熱潮絲毫沒有放緩的跡象。

另外,既然我們身處硅谷,就在黃仁勛大樓(Jensen Building)的英偉達(dá)報告廳(NVIDIA Auditorium),就不能不提硬件的進(jìn)步及其發(fā)揮的關(guān)鍵作用。這張圖表展示了NVIDIA GPU每美元所能提供的浮點(diǎn)運(yùn)算性能。在深度學(xué)習(xí)成為GPU和芯片設(shè)計的主要驅(qū)動力之前,性能增長曲線還算平穩(wěn);但之后,大家可以看到,每秒吉浮點(diǎn)運(yùn)算次數(shù)(G-flops)的曲線陡然起飛。

無論用哪個指標(biāo)衡量,我們都處在一條加速曲線上,擁有海量的算力和人工智能應(yīng)用。這些圖表展示了會議參與人數(shù)、初創(chuàng)公司數(shù)量以及企業(yè)在人工智能領(lǐng)域的投入,不僅覆蓋計算機(jī)視覺,也包括自然語言處理等,所有這些都呈現(xiàn)出爆炸式增長。


最后,同樣重要的是,盡管這一切令人振奮,也取得了諸多成功,但計算機(jī)視覺領(lǐng)域仍有大量工作亟待完成。這個問題遠(yuǎn)未被完全解決。

強(qiáng)大的工具往往伴隨著深遠(yuǎn)的影響。計算機(jī)視覺可以造福社會,也可能帶來傷害。例如,人類偏見。當(dāng)今的每一個AI算法,尤其是大型算法,都由數(shù)據(jù)驅(qū)動。而數(shù)據(jù),是人類在地球上生活與歷史活動的產(chǎn)物。這些數(shù)據(jù)承載著我們既有的偏見,并不可避免地將這些偏見注入到AI系統(tǒng)中。我們已經(jīng)看到,許多人臉識別算法就表現(xiàn)出與人類社會相同的偏見。

我們必須正視這一點(diǎn)。人工智能可以深刻影響人類生活,有些是積極的,比如在醫(yī)療影像領(lǐng)域的應(yīng)用;但有些則值得商榷。想象一下,如果AI完全主導(dǎo)了你是否能獲得一份工作或一筆貸款的決定,會是怎樣的情景?這再次凸顯了解決技術(shù)偏見和倫理問題的緊迫性。

這一切究竟是好是壞?這些都是極其復(fù)雜的問題。這也是為什么我總是特別歡迎來自醫(yī)學(xué)院、法學(xué)院、教育學(xué)院或商學(xué)院的學(xué)生來上我的課。因為AI的問題,不全是工程問題,更是關(guān)乎人類與社會的問題。


我個人對AI在醫(yī)學(xué)和醫(yī)療健康領(lǐng)域的應(yīng)用尤為關(guān)注,這也是我非常珍視的研究方向。Adeli教授、Zane以及我本人,作為本課程的聯(lián)合講師,正致力于研究面向老年人和病患的AI技術(shù),嘗試?yán)糜嬎銠C(jī)視覺為他們提供更好的關(guān)懷。這是AI向善的一個絕佳范例。

此外,即便是在技術(shù)層面,人類視覺的非凡之處也遠(yuǎn)超想象。我希望通過今天的課程以及后續(xù)的學(xué)習(xí),大家能認(rèn)識到,盡管計算機(jī)視覺成就斐然,但人類視覺所擁有的細(xì)膩、精妙、豐富、復(fù)雜乃至情感,仍是機(jī)器難以企及的??纯催@些孩子們探索未知的好奇眼神,或是這張圖片中所蘊(yùn)含的幽默感,這些都是計算機(jī)視覺目前還無法完全理解的。

我希望這種認(rèn)知能持續(xù)激發(fā)你們學(xué)習(xí)計算機(jī)視覺的熱情?,F(xiàn)在,我將講臺交給Adeli教授,由他為大家講解課程的后續(xù)內(nèi)容。謝謝。

Ehsan Adeli:太棒了。謝謝你,F(xiàn)eifei。這是一個非常精彩的開場,希望我的麥克風(fēng)工作正常。好的,我看到有人點(diǎn)頭了。


很高興能和大家在這里。希望你們能享受這門有趣且富有挑戰(zhàn)性的課程,我們擁有一支非常優(yōu)秀的聯(lián)合講師和助教團(tuán)隊。

在本課程中,我們將廣泛探討計算機(jī)視覺以及深度學(xué)習(xí)在該領(lǐng)域的應(yīng)用,內(nèi)容主要分為四大主題。

我們將從深度學(xué)習(xí)的基礎(chǔ)講起。讓我們先從一個簡單的問題開始:究竟什么是計算機(jī)視覺?從本質(zhì)上說,計算機(jī)視覺就是讓機(jī)器學(xué)會“觀察”并“理解”圖像。

這個領(lǐng)域最基礎(chǔ)的任務(wù),可以說是圖像分類。你給模型一張圖片,比如貓的照片,模型應(yīng)該能輸出“貓”這個標(biāo)簽。

就這么簡單。然而,這項看似簡單的任務(wù),卻是從自動駕駛到醫(yī)療診斷等無數(shù)復(fù)雜應(yīng)用的重要基石。那么,我們該如何教會機(jī)器完成這件事呢?最簡單的方法之一是使用線性分類器,就像大家在這張幻燈片上看到的。

想象一下,我們數(shù)據(jù)集中的每張圖片都是空間中的一個點(diǎn),坐標(biāo)軸代表從圖片中提取的某種特征。為了簡化,這里展示的是一個二維空間。線性分類器的任務(wù)就是找到一個超平面或線性函數(shù),將不同類別(比如貓和狗)分隔開。


但我們都知道,線性模型的局限性很大。當(dāng)數(shù)據(jù)無法用一條直線清晰地劃分時,它們就會束手無策。那么,下一步該怎么辦?我們將探討如何構(gòu)建能模擬更復(fù)雜模式的模型。

在構(gòu)建復(fù)雜模型的過程中,我們常常會遇到過擬合和欠擬合的挑戰(zhàn),這些都是課程早期會涵蓋的主題。為了達(dá)到理想的平衡,我們會運(yùn)用正則化等技術(shù)來控制模型復(fù)雜度,并通過優(yōu)化算法來尋找最佳參數(shù)。

這些都是深度學(xué)習(xí)的基石——訓(xùn)練出的模型不僅要能擬合現(xiàn)有數(shù)據(jù),更要能泛化到未見過的新數(shù)據(jù)上。

現(xiàn)在,讓我們進(jìn)入有趣的部分:神經(jīng)網(wǎng)絡(luò)。我們已經(jīng)多次提及它。與線性分類器不同,神經(jīng)網(wǎng)絡(luò)通過堆疊多層非線性操作來模擬復(fù)雜關(guān)系。

它能夠?qū)W習(xí)復(fù)雜的函數(shù),從而解決圖像分類等問題。從Google Photos到大家現(xiàn)在熟知的ChatGPT視覺模型,背后都是由這些模型驅(qū)動的。在本課程中,我們將深入探討它們的工作原理、訓(xùn)練方法,以及如何進(jìn)行調(diào)試和改進(jìn)。

在掌握了深度學(xué)習(xí)的基礎(chǔ)之后,我們將進(jìn)入下一個主題:感知和理解視覺世界。這是一個復(fù)雜的過程,需要我們解釋海量的視覺信息。為了實現(xiàn)這一目標(biāo),我們通常會先定義具體的任務(wù)來應(yīng)對特定的挑戰(zhàn)。

我們的目標(biāo)是解決諸如目標(biāo)檢測、場景理解、運(yùn)動檢測等問題。為此,我們使用不同的模型,這些模型是我們?yōu)榱四M或解釋視覺系統(tǒng)如何完成這些任務(wù)而開發(fā)的計算和理論框架。神經(jīng)網(wǎng)絡(luò)就是其中一個例子。

通過將模型與任務(wù)相結(jié)合,我們就能創(chuàng)建出能夠“看見”并“解讀”我們周圍世界的系統(tǒng)。說到任務(wù),讓我們回到圖像分類,也就是為整張圖片預(yù)測一個單一的標(biāo)簽。但現(xiàn)實世界中的計算機(jī)視覺遠(yuǎn)比這豐富得多。讓我們來看一些超越分類的任務(wù)。首先是語義分割。


我們不再僅僅標(biāo)記物體或整個圖像,比如“貓”或“樹”。在這里,我們的目標(biāo)是為圖像中的每一個像素分配一個標(biāo)簽。因此,每個像素都會被標(biāo)記為“草”、“貓”、“樹”或“天空”,但我們并不區(qū)分同類物體的不同個體。

接下來是目標(biāo)檢測,我們不僅要識別出圖像中有什么,還要精確地標(biāo)出它們的位置。為此,我們在物體周圍繪制邊界框,并將它們與相應(yīng)的標(biāo)簽關(guān)聯(lián)起來。

最后是實例分割,這是所有方法中最精細(xì)的一種。它結(jié)合了目標(biāo)檢測與語義分割的思路,為每一個獨(dú)立的物體實例都生成一個精確的掩碼。

這些任務(wù)要求模型具備更深層次、更細(xì)致的圖像理解能力,迫使它們不僅僅是識別類別。復(fù)雜性并不僅限于靜態(tài)圖像。讓我們看看一些涉及時間維度的任務(wù)。就像Feifei提到的視頻分類,我們希望理解視頻中正在發(fā)生什么。是有人在跑步、跳躍還是跳舞?

另一個主題是多模態(tài)視頻理解,它融合了視覺、聽覺和其他模態(tài)的信息。例如,在這個例子中,一個人正在演奏顫音琴。要真正理解發(fā)生了什么,我們必須同時利用視覺和音頻特征,才能全面把握整個場景。


最后,在本課程中,我們還會涵蓋可視化與理解這一主題,旨在解釋模型究竟學(xué)到了什么。我們將探索注意力機(jī)制和注意力圖等框架,以了解模型是如何做出正確分類等決策的。

接下來是模型。除了任務(wù),我們還會深入研究模型。我將要介紹的第一個主題是卷積神經(jīng)網(wǎng)絡(luò)(CNNs)。它由一系列操作組成。我們會在課堂上詳細(xì)講解,從輸入圖像開始,經(jīng)過一系列卷積、池化和全連接層,最終生成輸出。除了卷積神經(jīng)網(wǎng)絡(luò),我們還將學(xué)習(xí)用于處理序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò),以及像Transformers和基于注意力機(jī)制的框架這樣的先進(jìn)神經(jīng)架構(gòu)。接下來,我們將介紹大規(guī)模分布式訓(xùn)練,這是今年的一個新主題。相信大家都聽說過大型語言模型、大型視覺模型等等。我們將簡要討論這些模型實際上是如何訓(xùn)練的。

我們知道,數(shù)據(jù)和數(shù)據(jù)集的規(guī)模在不斷擴(kuò)大,大型模型也變得越來越龐大。為了訓(xùn)練這些模型,業(yè)界發(fā)展出了一些策略,例如數(shù)據(jù)并行化和模型并行化,我們將在課程中介紹這些策略。同時,這也會帶來許多挑戰(zhàn),比如模型與工作節(jié)點(diǎn)間的同步問題等,我們將在學(xué)期的某個講座中進(jìn)行探討。我們還會回顧訓(xùn)練這些大型模型的一些趨勢。

完成這個主題后,我們將探索生成式和交互式視覺智能,首先從自監(jiān)督學(xué)習(xí)開始。自監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個分支,模型通過從數(shù)據(jù)本身挖掘監(jiān)督信號來學(xué)習(xí)理解和表征數(shù)據(jù)。我們將介紹這個主題,因為它是利用海量無標(biāo)簽數(shù)據(jù)來訓(xùn)練大規(guī)模模型的關(guān)鍵途徑之一。

自監(jiān)督學(xué)習(xí)在近期的計算機(jī)視覺突破中扮演了至關(guān)重要的角色。我們也會簡要討論生成模型。它們超越了識別的范疇,進(jìn)入了創(chuàng)造的領(lǐng)域。

比如這張圖,它將一張斯坦福校園的照片,以梵高《星月夜》的風(fēng)格進(jìn)行了重構(gòu)。這就是“風(fēng)格遷移”,一個神經(jīng)生成技術(shù)的經(jīng)典應(yīng)用。

如今,生成模型已經(jīng)可以根據(jù)文本提示將語言轉(zhuǎn)化為圖像。像DALL-E、DALL-E 2這樣的模型能夠生成全新的圖像,這展示了生成式視覺模型如何在創(chuàng)造中融合理解力、創(chuàng)造力和控制力。大家最近可能也常聽到“擴(kuò)散模型”這個詞,這也是我們本學(xué)期將要介紹的另一個重要內(nèi)容。


這些模型的核心原理,是學(xué)習(xí)如何逆轉(zhuǎn)一個逐步添加噪聲的過程,從而生成全新的圖像。有趣的是,在課程的第三次作業(yè)中,你們將親手實現(xiàn)一個生成模型。這個模型能夠根據(jù)文本提示,例如“一個戴著牛仔帽的人臉”,從純粹的噪聲開始,逐步去噪,最終生成對應(yīng)的表情符號。

接下來,我們將探討另一個重要主題:視覺語言模型。這類模型通過構(gòu)建一個共享的表示空間,將文本和圖像緊密地聯(lián)系在一起。無論是給定一段文字描述來檢索或生成圖像,還是反過來,模型都能精準(zhǔn)匹配。這個領(lǐng)域發(fā)展迅猛,我們將介紹幾個關(guān)鍵案例。需要強(qiáng)調(diào)的是,這項技術(shù)是實現(xiàn)跨模態(tài)檢索、視覺問答等任務(wù)的核心,因此也是我們課程的重點(diǎn)。

超越二維圖像,現(xiàn)在的模型已經(jīng)能夠從單張圖片中重建并生成三維表示。在這里,大家可以看到一些例子,如體素重建、形狀補(bǔ)全,甚至僅憑一張圖像就能進(jìn)行三維物體檢測。三維視覺為我們帶來了更貼近物理世界的本質(zhì)理解,這對于機(jī)器人技術(shù)、增強(qiáng)現(xiàn)實(AR)和虛擬現(xiàn)實(VR)等應(yīng)用至關(guān)重要。

最后,視覺是賦予具身智能體在物理世界中行動能力的關(guān)鍵。這些智能體需要利用視覺進(jìn)行感知、規(guī)劃并最終執(zhí)行任務(wù),無論是打掃凌亂的房間,還是從人類的演示中學(xué)習(xí)并泛化新技能。圍繞這些主題,我們將深入探討生成式和交互式視覺智能的方方面面。課程的最后一部分,我們將探討以人為中心的應(yīng)用及其社會影響。

正如李飛飛(Fei-Fei Li)教授所闡述的,計算機(jī)視覺乃至整個人工智能領(lǐng)域,在過去幾年中產(chǎn)生了巨大的社會影響。因此,理解以人為中心的應(yīng)用和影響至關(guān)重要。這一點(diǎn),從授予該領(lǐng)域研究人員的至高榮譽(yù)中便可見一斑。

2018年,計算機(jī)視覺領(lǐng)域首次獲得了圖靈獎的認(rèn)可。圖靈獎是計算領(lǐng)域的最高榮譽(yù),旨在表彰那些做出了持久且重大貢獻(xiàn)的學(xué)者。Geoffrey Hinton、Yoshua Bengio 和 Yann LeCun因其在概念和工程上的突破而共同獲獎,正是這些突破,使得深度神經(jīng)網(wǎng)絡(luò)成為現(xiàn)代計算的核心組成部分。

此外,就在去年(2024年),Geoffrey Hinton 與 John Hopfield因其在神經(jīng)網(wǎng)絡(luò)領(lǐng)域的奠基性貢獻(xiàn),共同榮獲了諾貝爾物理學(xué)獎。

最后,我將簡要介紹本課程的學(xué)習(xí)目標(biāo):

首先,學(xué)習(xí)如何將實際的計算機(jī)視覺應(yīng)用,形式化為明確定義的任務(wù)。其次,掌握開發(fā)和訓(xùn)練視覺模型的核心技能,這些模型能夠處理圖像、視頻等各類視覺數(shù)據(jù)。再次,洞悉該領(lǐng)域的前沿動態(tài)與未來趨勢,這也是我們今年特別加入一些全新主題的原因。

課程前期,我們將用幾周時間,為大家講解我前面提到的四大主題的基礎(chǔ)知識。這部分內(nèi)容至關(guān)重要,需要大家耐心學(xué)習(xí),因為理解如何從零開始構(gòu)建模型是后續(xù)深入研究的基石。

在打好基礎(chǔ)之后,我們將進(jìn)入計算機(jī)視覺領(lǐng)域中那些更前沿、更激動人心的話題。最后,我們還會安排一場關(guān)于以人為本的AI與計算機(jī)視覺的專題講座。

在今天的結(jié)尾,我想預(yù)告一下下次課的內(nèi)容:圖像分類與線性分類器。這將是我們正式開啟 CS231N 課程的第一步。謝謝大家。

參考資料: https://www.youtube.com/watch?v=2fq9wYslV0A,公開發(fā)表于2025年09月03日

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
辛柏青現(xiàn)身大孤山!神態(tài)疲憊難掩悲傷,女兒貼心攙扶,李乃文也在

辛柏青現(xiàn)身大孤山!神態(tài)疲憊難掩悲傷,女兒貼心攙扶,李乃文也在

娛圈小愚
2025-10-22 13:22:12
中國顏值巔峰的6個AAAAA景區(qū),去過3個很幸福,去過6個此生無悔!

中國顏值巔峰的6個AAAAA景區(qū),去過3個很幸福,去過6個此生無悔!

戶外釣魚哥阿勇
2025-10-21 08:15:56
勝戰(zhàn)紅利!中國將拿下史上最大軍售,20艘戰(zhàn)艦和潛艇,第二個巴鐵

勝戰(zhàn)紅利!中國將拿下史上最大軍售,20艘戰(zhàn)艦和潛艇,第二個巴鐵

老謝談史
2025-10-22 09:58:54
貝林厄姆“空中懸浮”照引爆網(wǎng)絡(luò),真相竟是皇馬體能革命

貝林厄姆“空中懸浮”照引爆網(wǎng)絡(luò),真相竟是皇馬體能革命

星耀國際足壇
2025-10-21 23:37:24
88年《血戰(zhàn)臺兒莊》熱映,蔣經(jīng)國提一要求,中央考慮后批示:同意

88年《血戰(zhàn)臺兒莊》熱映,蔣經(jīng)國提一要求,中央考慮后批示:同意

鄉(xiāng)野小珥
2025-10-22 10:57:43
悲催!東莞一工廠稱沒訂單放假4個月,給員工交社保、發(fā)低?!?>
    </a>
        <h3>
      <a href=悲催!東莞一工廠稱沒訂單放假4個月,給員工交社保、發(fā)低?!?/a> 火山詩話
2025-10-21 14:14:50
狂轟39+11+7,依舊不是今日最佳,對不起,你碰上了更彪的巴特勒

狂轟39+11+7,依舊不是今日最佳,對不起,你碰上了更彪的巴特勒

體育新角度
2025-10-22 18:51:34
新一輪“國補(bǔ)”來了!國補(bǔ)政策10月23日最新消息:最后一輪第四批國補(bǔ)10月申領(lǐng)中,國補(bǔ)領(lǐng)取方法2025年12月31日結(jié)束

新一輪“國補(bǔ)”來了!國補(bǔ)政策10月23日最新消息:最后一輪第四批國補(bǔ)10月申領(lǐng)中,國補(bǔ)領(lǐng)取方法2025年12月31日結(jié)束

周口融媒
2025-10-22 11:55:03
3歲娃兩年多走了5個國家 重慶90后媽媽帶女兒“窮游”看世界

3歲娃兩年多走了5個國家 重慶90后媽媽帶女兒“窮游”看世界

上游新聞
2025-10-21 18:57:09
想問小米汽車和雷軍一個問題:您造車的時候真的執(zhí)行國家標(biāo)準(zhǔn)嗎?

想問小米汽車和雷軍一個問題:您造車的時候真的執(zhí)行國家標(biāo)準(zhǔn)嗎?

老頭和你隨便聊聊
2025-10-22 10:39:34
山東省政府:解聘襲燕省政府參事職務(wù)

山東省政府:解聘襲燕省政府參事職務(wù)

政知新媒體
2025-10-22 12:54:16
突發(fā)!韓國響應(yīng)美國制裁!凍結(jié)柬埔寨王子集團(tuán)912億銀行資金!

突發(fā)!韓國響應(yīng)美國制裁!凍結(jié)柬埔寨王子集團(tuán)912億銀行資金!

南宮一二
2025-10-22 08:22:28
國民黨春天來了!鄭麗文當(dāng)選后,或重用邱毅、蔡正元,盧秀燕傻眼

國民黨春天來了!鄭麗文當(dāng)選后,或重用邱毅、蔡正元,盧秀燕傻眼

健身狂人
2025-10-22 09:36:50
突破!量產(chǎn)!中國奇瑞發(fā)布全固態(tài)電池,能密翻倍續(xù)航1500公里!

突破!量產(chǎn)!中國奇瑞發(fā)布全固態(tài)電池,能密翻倍續(xù)航1500公里!

徐德文科學(xué)頻道
2025-10-20 19:42:10
浙大調(diào)查發(fā)現(xiàn):經(jīng)常吃面放醋的人,不出多久,血管或有這3個變化

浙大調(diào)查發(fā)現(xiàn):經(jīng)常吃面放醋的人,不出多久,血管或有這3個變化

阿纂看事
2025-10-22 09:20:06
上海各環(huán)線房價跌幅,差距驚人!

上海各環(huán)線房價跌幅,差距驚人!

魔都財觀
2025-10-22 07:43:06
釋新聞|美澳簽關(guān)鍵礦物協(xié)議,特朗普“一年后”會得到很多稀土嗎?

釋新聞|美澳簽關(guān)鍵礦物協(xié)議,特朗普“一年后”會得到很多稀土嗎?

澎湃新聞
2025-10-21 21:32:28
巴特勒:比賽很容易 每個人都只顧著盯庫里

巴特勒:比賽很容易 每個人都只顧著盯庫里

北青網(wǎng)-北京青年報
2025-10-22 14:24:03
微信悄悄更新,這功能終于來了!

微信悄悄更新,這功能終于來了!

果粉俱樂部
2025-10-22 11:26:01
羽球戰(zhàn)報!2大世界冠軍出局,國羽女單0-2慘敗,日本女雙造慘案

羽球戰(zhàn)報!2大世界冠軍出局,國羽女單0-2慘敗,日本女雙造慘案

知軒體育
2025-10-22 18:09:38
2025-10-22 19:28:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4267文章數(shù) 37328關(guān)注度
往期回顧 全部

科技要聞

鴻蒙6發(fā)布,今日公測,支持與蘋果設(shè)備互傳

頭條要聞

女兒嚴(yán)重高反 男子訂回程票出錯立即取消重訂被扣兩千

頭條要聞

女兒嚴(yán)重高反 男子訂回程票出錯立即取消重訂被扣兩千

體育要聞

頒獎儀式:俄城升總冠軍旗幟 火箭集體缺席

娛樂要聞

又嫁錯人?賈靜雯2600萬換女兒撫養(yǎng)權(quán)

財經(jīng)要聞

信也科技擔(dān)保模式之謎 擔(dān)保費(fèi)率達(dá)17.5%

汽車要聞

低調(diào)務(wù)實的零跑,在高端市場也“支棱”了

態(tài)度原創(chuàng)

親子
房產(chǎn)
本地
時尚
公開課

親子要聞

天天給孩子補(bǔ)鈣,為什么還長得慢?補(bǔ)對了沒有

房產(chǎn)要聞

22.95億!三亞海昌不夜城正式易主!

本地新聞

云游中國|一腳踏入萬州,才懂煙火江城的真意

人過五十別瞎穿!少碰花衣和緊身褲,這樣穿才叫越老越有味道

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 久久天天躁夜夜躁狠狠85| 丁香深爱婷婷| 沈阳45岁高潮女| 久久久久久美女| 精品国产免费一区二区三区| 久久久九九九精品AAA片黃色| 国产久免费热视频在线观看 | 琪琪电影午夜理论片八戒八戒| 亚洲欧美成人综合在线一区| 成人午夜在线视频观看| 影音先锋亚洲无码| 97亚洲国产精品无码| 激情综合女月天| 九九九九精品九九九九| 亚洲色无码中文字幕手机在线| 亚洲色婷婷中文字幕| 丰满少妇高潮大叫| 国产区精品一区二区不卡中文| 让我狠狠爱你狠狠想你| 国产91丝袜| 无码人妻精品一区二区三区不卡| 粉嫩高中生无码视频在线观看| 国产无码在线视频看看| 中文字幕av无码免费一区| 国产女乱婬真高清免费视频| 国产成人无码午夜视频在线播放| 欧美疯狂做受XXXX富婆| 久久久久久自慰出白浆| 2020无码专区| 熟女视频一区二区三区嫩草| 久久久久久久人妻一区精品| 日韩欧美一区在线观看| 综合av在线播放| www插插插无码视频网站| WWW.色婷| 久久人人爽人人爽人人片dvd| 亚洲免费成人av一区| av中文字幕潮喷人妻系列| 久久se精品一区二区三区| 精品欧美一区二区三区成人片| 亚洲色欲色欲大片www无码|