Google AI 產品經理：「軟件工程師現在能夠處理比過去複雜十倍的問題，Gemini 已成為性價比最高的 AI 開發首選平台」

「知道自己不知道什麼」意味著人類在解決問題時能意識到自己缺乏的信息，這種自我意識幫助我們主動尋找所需的知識或數據。然而，現有的大模型缺乏這種能力，限制了它們的有效性和適應性。

文 | 王啟隆

今年年初的時候，國外曾經打響過一場「人才爭奪戰」，當時的局面是微軟、蘋果、Google、OpenAI 螳螂捕蟬，馬斯克的 x.ai 黃雀在後。其中有一次引起過社區討論的人才變動，那就是 OpenAI 的開發者關係負責人 Logan Kilpatrick 被挖到了Google去當產品經理，負責 AI Studio 並為Google旗下的大模型 Gemini 提供 API 支持。

這次挖人相當轟轟烈烈，Google大神 Jeff Dean、CEO 皮查伊以及兩位Google副總同時拋出了橄欖枝，再加上 Logan 本就是Twitter上知名的「傳聲筒」，經常和網民們近距離互動。在 Logan 成為產品經理之後，他依舊沒有改變以前當開發者關係負責人的習慣，還是經常在Twitter上參與各類 AI 圈時事討論，樂於分享 AI 資訊與自己的意見。

時間轉到昨夜，Google 突發 Gemini 1.5 Pro 和 Flash 兩款大模型，價格有所降低，性能有所提升；本次模型的主要更新包括輸出 token 定價降低了 52%，而 Gemini 1.5 Flash 的速率限制提高 2 倍、Gemini 1.5 Pro 的速率限制提高 3 倍，同時還改善了模型延遲。

作為首席產品經理的 Logan 自然也是第一時間在Twitter上發佈了消息：「兩款全新的產品級 Gemini 模型。今天對於開發者來說是個好日子 🙂 」

不過，關於全新 Gemini 模型的更多消息，其實藏在了 Logan 和人工智能每日通訊 The Rundown AI 的創始人 Rowan Cheung 的最新採訪里。在 Rowan Cheung 昨天的Twitter內容里，他就提前爆料了今天會有一家「神秘公司」發佈一款對開發者來說意義重大的模型，並且還做了一場相關採訪。評論底下就是 Logan 本人的親自回覆，答案呼之慾出：

Rowan 的這個爆料套路，在上次採訪 Meta CEO 馬克·朱克伯格時就用過了一次，歡迎回顧當時的內容：《最強模型 Llama 3.1 如期而至！朱克伯格最新訪談：Llama 會成為 AI 界的 Linux》

下文是本次 Logan 最新採訪的全部內容：

三大亮點：上下文緩存、多模態、免費微調

主持人：Google今天發佈了一系列最新公告。能給我們簡要介紹一下這些公告的內容以及它們為什麼很重要嗎？

Logan Kilpatrick：當然，這真是令人興奮的時刻。在過去約 5 個月里，我們一直在收集開發者關於所有大語言模型及其使用方法的反饋。

今天我們推出了兩個新的可投入生產的 Gemini 模型，同時還改進了許多開發者反饋的問題，比如關於速率限制、Gemini 1.5 Pro 的定價，以及一些預設啟用的過濾器設置。這些改進都聚焦於讓開發者能夠開發更多他們想要的功能。

同時，這也是我們在過去兩個月發佈的所有實驗性模型的後續成果。我一直有收到開發者發來的消息或是私信，他們表示非常期待這些模型的正式推出，這樣他們就可以真正開始使用它們來構建應用了。

主持人：雖然我不確定自從你加入Google以來的進程是否真的有所改變，但至少在 X 平台上，你每天都會搬運各種最新的 AI 創新內容，這點做得非常出色。下一個問題。到底是什麼讓 Gemini 的最新模型如此與眾不同？

Logan Kilpatrick：這是個好問題。我認為它的重點不在於有多麼與眾不同，更多的是體現了我們正在經歷的總體發展趨勢，也就是大語言模型當前的最新進展。我工作中最棒的部分之一就是能夠與 Google DeepMind 的團隊合作。我對那個團隊和他們的發展方向有著堅定的信念。所以從開發者的角度來看，我一直在關注的是 Gemini 模型這次迭代的進展路徑。在某些基準測試中，我們甚至看到了指數級的增長，哪怕和上次 Google I/O 相比（今年五月的時候），這種進展也令人難以置信地興奮。

再次強調，這些改進都是基於開發者給我們的反饋，比如他們希望模型不要迴避問題。他們希望模型能夠直接回應他們提出的問題，而不是試圖迴避某些問題。在這方面，Gemini 已經有了很大的改進，包括數學能力、模型的編碼能力等，這對關心開發工作的人來說顯然非常重要。所以我們一直在傾聽並根據生態系統的反饋進行迭代。

主持人：你剛才提到了數學。我們能不能詳細談談這個？這些大語言模型在數學和推理方面有哪些新的改進？

Logan Kilpatrick：確實，這是當前最棘手的問題之一。我們甚至在內部討論如何向普通觀眾展示這些大語言模型在數學方面進步的一些微妙之處。在某種程度上，這其實仍是一個開放性問題。至少我看到的例子遠遠超出了我的能力範圍，而我只是學過三門微積分課程的人。

總的來說，大語言模型在解決數學問題方面變得更加出色了，我認為這種進步可以推廣到許多需要深入思考問題空間的領域。但實際上，模型在解決數學問題方面的進步並不是一個非常實用的用例，因為你可能更需要一個像我們的代碼解釋器那樣的系統，它可以實際編寫代碼然後給你一個確定性的輸出，而不是讓模型對你給出的數學問題進行原始嘗試。

不過再次強調，正如你所指出的，真正令人興奮的是數學問題被解決的方式，即大模型已經學會了逐步迭代的過程，這就是數學改進帶來的令人興奮的成果。

主持人：是的，我認為所有這些數學和推理改進的關鍵在於迭代。你能不能向不太懂技術的讀者們解釋一下它的重要性，以及其未來的潛力？

Logan Kilpatrick：當然。我認為今天構建的許多 AI 應用在進行演示用例時通常都能很好地工作。從第一次構建某樣東西或第一次嘗試到讓人驚歎「哇，這太神奇了」的瞬間，可能是我們見過的最近技術趨勢中最短的。

然而，真正具有挑戰性的部分是從那個「令人驚歎的時刻」到你真正想要在大規模上展示給客戶的東西，這實際上是一個很長的過程。所以所有這些進步直接與使更多人能夠實際將這些技術應用到他們的產品中相一致。構建酷炫的 demo（演示）確實很棒，我比任何人都喜歡酷炫的 demo。但實際上，這項技術對開發者、初創公司和最終用戶真正有價值的方式是使其變得穩健和可靠。我認為這就是我們現在的總體發展方向。

主持人：談到發展方向，你能否詳細說說，為什麼將所有新版本的 Gemini 迅速交到開發者手中如此重要？

Logan Kilpatrick：是的，這與你提到的我們是否加快了發佈速度有關。但我不確定我是否有足夠的視角來回答這個問題，因為自從我加入Google以來，我們一直在快速發佈產品。所以我相信之前肯定有很多人在以超快的速度工作。

我認為，「從開發者的視角思考」是我加入Google時立即引起我注意的一點。當我與 DeepMind 那邊的同事交談時，他們經常會說「我們如何讓這些模型更適合開發者？我們非常重視這一點。這些開發者是利用我們模型的最終用戶。我們能採取什麼行動？」每當我們推出一個實驗性模型，會先在 LMSys 上測試它們，將它們交到開發者手中，放入 AI Studio……在這個過程中，我們實際上已經可以看到了一些非常有趣的趨勢，比如人們喜歡哪些模型。例如，一些實驗性模型是 AI Studio 上使用最多的模型，人們會去主動嘗試尋找這些模型，因為他們已經聽說並實際看到了改進。你實際上可以真切地看到，這個模型在解決一系列全新的問題時表現得更好了，這歸根結底是開發者喜歡看到的。這種進步，這種持續向前的方向讓人很容易產生認同感和支持。這也是讓我興奮的原因，因為Google的很多人付出了長時間的工作，包括熬夜和早起，才使所有這些成果成為可能。

主持人：是的，最近Google的進步確實令人難以置信。這真是太驚人了。你能否分享一個例子或一些令人印象深刻的案例，說明客戶或用戶如何在現實世界中使用這些 Gemini 的實驗性模型？

Logan Kilpatrick：這是一個很好的問題。目前的一大挑戰在於，實驗性模型的速率限制極低，幾乎每分鐘只能處理幾個請求。因此，開發者在某些情況下甚至無法評估這些新模型的實際應用價值。不過，從方向上看，即使在有限的請求次數下，人們也能觀察到這些模型在某些方面表現出色，特別是在涉及視覺內容的任務上。

Gemini 的初衷是構建一個多模態模型，而非簡單地將理解圖像的能力附加到傳統文本模型上。考慮到該模型發佈至今尚不足一年，首個版本僅在去年十二月發佈，其發展速度確實令人印象深刻。多模態處理能力一直是 Gemini 模型的重要差異化特徵之一，包括理解和處理圖像邊界框以及影片內容。這種能力使得用戶能夠在 AI Studio 中上傳長達一小時的影片，並提出各種問題，體驗效果令人震撼，並且用戶可以免費嘗試這些功能。

主持人：展望未來，你最期待解決哪些有趣的、尚未解決的現實世界問題？比如說，通過這些在數學和推理方面的突破，以及 Gemini 的新更新可能解決的問題？

Logan Kilpatrick：我認為我們在智能體的工作流（workflow）方面仍處於起步階段。雖然很多公司正致力於智能體的研究，但仍有諸多方面有待完善。然而，隨著模型的不斷迭代，這些用例有望變得更加成熟和實用。本次發佈的 Gemini 模型將在智能體領域提供更多的支持，尤其是在理解屏幕內容並執行操作（例如點擊按鈕）等場景中展現出了卓越的視覺處理能力。此外，長上下文處理能力的改進也為開發者帶來了新的可能性。雖然傳統的做法建議避免在上下文窗口中放置過多 token，但我們證明了這種方法可以實現複雜的功能。

主持人：我認為不僅對於開發者，甚至對於消費者和企業來說，我們只是剛剛開始探索當前模型的潛力。這還沒有談到未來的更新和 Gemini 的所有這些新功能。就像你說的，我們只是觸及了冰山一角，不僅是在上下文窗口方面，而是大語言模型的整體潛力。讓我們具體談談為什麼開發者應該使用 Gemini 1.5 進行開發。除了新的更新、更高的 API 調用限制、擴展的功能訪問，以及我們剛才談到的著名的大規模上下文處理能力之外，Gemini 1.5 還提供了哪些開發者應該真正感到興奮的能力或特性？

Logan Kilpatrick：首先，Gemini 1.5 提供了卓越的長上下文處理能力。其次，它具備多模態處理能力，能夠同時處理文本和圖像等不同類型的輸入。此外，Gemini 1.5 推出了上下文緩存功能，這是行業內的首創，可以顯著減少開發者在處理大量數據時的成本。開發者可以通過支付固定的小時費用來存儲 token，之後的增量 token 成本將大幅降低。

另一個重要的特性是微調能力。Gemini 允許用戶在 AI Studio 上免費微調 Gemini 1.5 Flash，並將其部署到生產環境中，而無需為微調本身支付額外費用。這是目前市場上獨一無二的服務。我們旨在降低開發者使用 AI 技術的門檻，通過提供行業內最慷慨的免費配額來鼓勵創新。開發者只需使用Google賬戶即可開始構建。作為開發者，我對這一發展方向感到非常振奮。

主持人：也就是說，現在用 Gemini 開發比以往任何時候都更經濟實惠，而且它是最具性價比的 AI 開發平台。

Logan Kilpatrick：確實如此。Gemini 不僅在價格上具有競爭力，還在性能和其他關鍵指標上達到了最優平衡。以 Flash 模型為例，無論從每個 token 的成本還是智能性價比來看，它都是市場上最好的選擇之一。隨著 1.5 Pro 價格的下調，高端模型中 1.5 Pro 同樣表現出眾。從綜合角度看，Pro 模型為開發者提供了最佳的性價比。

當開發者從原型轉向生產階段時，這些因素尤其重要。我們常聽到的反饋是，AI 開發依然昂貴。儘管大多數模型在多種場景下都能良好運作，但我們希望提供一種不會增加團隊、公司或創業項目財務壓力的解決方案，而這正是我們所追求的目標。

軟件工程師現在能夠處理比過去複雜十倍的問題

主持人：我覺得在 AI 時代最酷的一件事就是，任何人，即使是不具備技術背景的人，現在也可以構建自己的 AI 應用。現在隨著 Gemini 的推出，成本更低了。那如果有人從零開始，比如一個完全的初學者，非技術人員，甚至可能是一個學生，你會推薦什麼工具堆棧、文檔、課程、影片，或者Google的教程呢？

Logan Kilpatrick：這是一個很好的問題。我們的預設入口頁面是 AI.google.dev，其中鏈接了 Gemini API 的文檔。此外，GitHub 上有一個快速啟動倉庫，只需運行約四個命令即可在本地環境中搭建一個簡化版的 AI Studio 和 Gemini，允許用戶操作模型及上傳圖像，體驗完整的流程。此過程涉及幾百行代碼。

我認為技術變得更加易於接近的美好之處在於，不僅有許多低代碼或無代碼工具使構建更加簡便，而且對於編寫代碼的人來說，模型在理解和生成代碼方面也變得越來越高效，從而降低了門檻。作為一名曾經的軟件工程師，我現在能夠處理比過去複雜十倍的問題，這得益於 AI 的輔助作用。我認為對於從未編寫過代碼的人來說，現在借助 AI 助手，他們同樣能夠解決問題。模型對代碼的理解至關重要，因為在低代碼或無代碼的場景中，模型可能在後台實時生成代碼。因此，代碼的質量仍然是核心目標。

主持人：我也完全同意，我覺得在 AI 時代，我們真的還處在非常早期的階段。太多的人還不知道發生了什麼，或者並沒有真正跟上這些動態。所以，如果有人能夠保持更新，他們就已經走在前面了。

至少對我自己來說，我已經習慣了在 X 上保持更新。這麼容易就會陷入「每個人都知道一切」的圈子裡。但實際上，如果你在 X 上跟進這些動態，通過閱讀新聞通訊、看 YouTube 影片、收聽像這樣的播客來保持更新，那麼你可能已經屬於那 1% 的早期採用者了。

我們還處在非常早期的階段。所以，是的，現在真的是一個令人激動的時代，也是學習的好時機。學習現在也比以往任何時候都容易，只需要跟隨你的好奇心，看看它會帶你到哪裡去。

Logan Kilpatrick：關於學習的角度，我想提一下，Google上週剛剛發佈了一個新功能，雖然它不是 Gemini API 的一部分，但它提供了一種音頻概覽體驗。通過這個功能，人們可以將大量文檔和數據輸入到 NotebookLM 中，然後生成一段生動的播客對話。

我親自測試了一個關於土豆的例子 —— 儘管這不是一個引人入勝的主題，但生成的對話卻異常生動。我花費了整整 11 分鐘來聽取有關土豆的歷史、起源和生物學的信息。

主持人：我試用過音頻概覽功能，確實感覺非常令人印象深刻。你提到的關於學習的觀點也很有道理，對吧？很多人都是聽覺型學習者，而有了音頻概覽之後，你可以把任何東西放進去，它會自動生成一個有趣的對話，你只需聽就可以了。聽這樣的對話，比起聽單純的音頻錄音要有趣得多，就像聽新聞通訊一樣。

Logan Kilpatrick：實現這一體驗的核心技術是 Gemini 和其長上下文處理能力。讓這個體驗變得有趣的關鍵在於，用戶可以將多個數據源，如十個 PDF 文件或一個 Word 文檔，輸入系統——雖然我不確定是否支持影片文件，但這些數據都可以通過 Gemini 處理。

我認為這是我們見到的最成功的長上下文應用之一，它已經被廣泛應用。我們現在習慣於在界面上處理大量數據，但往往不會意識到背後的技術複雜性。該功能能夠提煉出數據中的細節並賦予生命。從開發者的角度來看，我期待這能夠展示如何在這些新的範式中有效地利用長上下文技術。

主持人：是的，回到我們剛才提到的早期階段，雖然這些技術能力非常驚人，但我們還需要時間去真正發揮它們的潛能。還有你提到的例子，比如土豆，其實很多人已經在用這些技術做非常酷的事情。你能分享一些讓人印象深刻的音頻概覽的應用場景嗎？還有可以告訴大家在哪裡可以使用這個功能嗎？我相信很多聽眾都會想去體驗一下。

Logan Kilpatrick：首先，這個功能的網址是 notebooklm.google.com。說實話，我還沒聽過比土豆更無聊的例子了。所以，你們在使用的時候可以想像一下比土豆更有趣的東西。

我見過很多人放進了 AI 論文，還有你提到的新聞通訊，所以其實有很多比土豆更有趣的內容。但對我來說，土豆這個例子其實證明了 AI 基本上可以讓任何無聊的內容變得有趣。我還看到一些人在討論他們的孩子以及這種技術對教育的影響。所以，我覺得未來非常明朗。即便這種技術唯一的作用是讓學習變得更簡單，並讓那些不太吸引人的內容變得生動，那它就已經對人類產生了巨大的積極影響。拋開未來可能會發生的事情不談，僅僅這一點就已經有非常大的價值了。我認為我們面臨的挑戰之一是，我們總是在展望下一次技術迭代的未來，結果往往忽視了當下已有的東西，並且沒有充分利用它們所能創造的價值。

主持人：我非常同意。教育領域現在是人工智能真正產生巨大影響的領域之一，但還沒有得到充分的探索。我非常喜歡像音頻概覽這樣的功能，因為對很多人來說，它真的會很有用。

智能體的局限仍在於無法主動和用戶交流

主持人：咱們聊聊智能體吧。這顯然是人工智能的下一個階段，我們知道它正在到來。你能先解釋一下你對「智能體」（Agent）的定義嗎？有時候這個術語的概念有點模糊，所以請先為我們定義一下，然後我們再討論。

Logan Kilpatrick：當然。當前的一個挑戰在於，與「人工智能」或「機器學習」這類有明確定義的術語不同，「智能體」這個詞彙在業界有著多種解釋。

對我而言，智能體是指一種可以代表用戶執行特定任務或採取行動的系統。在當前 Gemini 的框架下，開發者需要自行構建智能體工作流程。

儘管可以使用 Gemini 或其他框架來構建智能體，但在 Gemini API 中尚未集成任何智能體框架。這是有意為之的戰略決策，因為市場上已有許多公司在開發智能體框架。

現階段，我們的重點是提供強大的模型，以推動智能體應用的發展，並等待市場進一步成熟，以便確定我們在何處可以填補空白。

主持人：是的，這非常有道理。我想我們現在確實可以看到這一點，正如你所說，這些框架目前的能力還不足，但它們正逐漸接近目標。從這些更新和模型中，我們可以清楚地看到它們正在不斷進步。那麼我的後續問題是，你認為我們距離像 ChatGPT 那樣系統性的突破還有多遠呢？你覺得我們會看到類似 2022 年的消費者熱潮嗎？

Logan Kilpatrick：我認為當前人工智能之所以引人注目，原因之一便是它能夠以相對較低的努力為用戶提供價值。但對於需要主動性的系統而言，要實現這一目標則面臨更多挑戰，比如需要獲取用戶的日程和郵件等敏感信息的訪問權限。此外，即便是在有類似人類助手的情況下，要讓智能體系統完美運作也非常複雜。儘管如此，我認為會出現許多能夠為人們帶來顯著價值的產品，並且這種趨勢已經開始顯現。這些產品能夠處理特定任務，並在一定程度上替代用戶本人的操作。雖然我不確定是否會出現大規模的消費者熱潮，但類似 ChatGPT 的界面可能會讓智能體技術變得更為普及。

主持人：這很有道理。那我接下來的問題是關於形式因素的。你認為這些智能體的最終形態會是怎樣的呢？是聊天、語音，還是嵌入到我們的手機里？或者是眼鏡、耳塞之類的設備？你認為最終的形式因素會是怎樣的，特別是那些個性化的智能體，而不是工作場景中的智能體？

Logan Kilpatrick：這是一個複雜的問題。我認為智能體最終不會僅僅局限於聊天形式，也不會只是一個簡單的 SaaS 應用。結合硬件與軟件，找到兩者的融合點似乎是合理的發展方向。當前，許多人正嘗試通過 AI 輔助硬件來實現這一目標。視覺界面，如智能眼鏡，可能是一個直觀的選擇，但其日常佩戴的便利性仍有待驗證。我認為最終的形式可能是軟硬件的組合，既包括純軟件的個人助手，也可能包含物理機器人，後者能在物理空間中提供幫助。

主持人：是的。這是一個重要的問題，對吧？我們並不知道確切的答案。這真的取決於世界的接受程度。你認為在未來，AI 最令人驚訝地改變我們日常生活的方式會是什麼呢？可能更多是在個人層面，而不是工作層面？

Logan Kilpatrick：我認為，自大模型問世以來，人們一直在探討 AI 如何改變日常生活。目前，這些系統的局限在於用戶需要首先採取行動。未來的系統應當能夠主動詢問用戶需求，並根據用戶的許可執行相應任務。這種雙向交流模式更接近於人類之間的互動。然而，目前鮮有系統能做到這一點。技術上，將大量信息輸入模型的上下文窗口，並設定好週期，使其自動生成問題和動作是可行的。實現這一目標的關鍵在於系統的設計與構建。

主持人：你的觀點很棒。如果智能體變得主動，可以真正查看你的數據，理解你作為一個用戶的需求，並提醒你做一些事情，我認為這將是令人期待的時代。

論上下文：大模型缺乏人類「知道自己不知道」的智慧

主持人：你認為 Gemini 在上下文窗口方面是否領先？你認為這在新的智能體時代是一個顯著的優勢嗎？

Logan Kilpatrick：我認為這是顯著的優勢之一。上下文窗口是一項重大突破。對於多模態模型而言，性能差異較難量化，但影片理解則是另一項重要進展。目前，能夠接收並理解影片內容的模型並不多見。因此，我認為這些功能將繼續增強。從個人角度來看，許多前沿的應用案例正是在此創造價值。

對於開發者來說，吸引用戶的途徑是創造出新穎的事物。Google正在推動這些應用案例的發展，為開發者提供新的展示機會，並幫助他們創造商業價值。上下文窗口技術的研究與應用將持續推進，我相信Google的團隊將在這個領域取得更大成就。

主持人：我記得你們在研究上有 1000 萬的數據量。是這樣嗎？如果我說錯了請糾正我。

Logan Kilpatrick：是的，DeepMind 有許多研究論文討論了處理高達 1000 萬數據量的情況。但在合理的終端用戶成本下，將如此大的上下文信息應用於生產環境仍面臨許多挑戰。儘管如此，持續推動研究並解決這些問題非常重要。Google以其解決大規模複雜工程問題的能力著稱，並將這些技術轉化為大眾可用的服務。無論是搜索、YouTube 還是 Gemini，Google都展示了將先進技術轉化為實際應用的能力。我相信這種能力將繼續推動上下文窗口技術的進步。

主持人：Google的效率確實值得稱讚。那對於非技術背景的讀者，你能為他們解釋一下無限上下文窗口可能意味著什麼嗎？

Logan Kilpatrick：目前模型只能處理上下文窗口內的信息。如果你問模型的問題不在上下文窗口內，或者不在模型訓練的數據範圍內，那它就無法給出答案。人類的獨特之處在於，我們擁有大量的上下文，並且隨著我們的學習和日常生活不斷積累新的上下文。同時，我們也具備工具去動態地獲取更多額外的上下文並用其來採取行動。而在今天的系統中，基本上需要用戶自己去做所有這些檢索和輸入上下文的工作。

此外，現有的模型在判斷相關上下文方面也做得不夠好。例如，作為一個嘗試解決數學問題的人，我知道我需要哪些上下文來解決這個問題。我認為這種「知道自己不知道什麼」的能力實際上是很大的一個限制。如果可以將所有信息都放入上下文窗口中——比如我發送的所有短信、郵件以及創建的所有文檔——那麼從技術上講，就不需要花費太多精力去思考模型具體應該對哪些信息採取行動了。

推理能力對於模型的認知至關重要

主持人：接下來我想討論的是通用人工智能（AGI）。顯然，這是最終的目標。你可以再次解釋一下通用人工智能是什麼嗎？這個詞的定義是比較寬泛的。

Logan Kilpatrick：確實，AGI 的定義需要明確。我傾向於認為 AGI 是指能夠執行人類所能承擔的一部分經濟活動中的工作的模型，這可以作為評估這些系統實用性的代理指標。然而，這是否是一個正確的或理想的定義，則需要權威詞典來界定。總體而言，我認可的定義是：能夠執行人類所能完成的任務的系統。

主持人：那麼接下來的發展路線圖是什麼？目前通往通用人工智能的瓶頸有哪些？

Logan Kilpatrick：我認為仍有許多方面需要攻克，比如模型能否有效地理解視覺信息。此外，長上下文處理能力也是一個瓶頸——儘管不確定人類大腦可以處理多少個 token，但肯定遠超二百萬。因此，我們需要在提升現有能力的同時，研發更多新功能。

讓我感到興奮的是，許多新功能的研究都是由Google DeepMind 團隊在過去十年間持續進行的工作，如 AlphaGo 中的規劃技術和策略強化學習等。這些研究成果對於實現通用人工智能至關重要。DeepMind 團隊擁有足夠的資源和技術專長，並一直專注於此。我期待看到這些成果整合在一起，讓我們能夠利用這些系統開發出真正有趣的應用。

順便提一下，我認為使用這項技術面臨的最大挑戰之一就是有太多潛在的、有價值的產品可以開發。每當我們思考新一代的大語言模型所帶來的新應用時，就會發現有無數的方向可以探索。我對人們利用當前技術成果開展實踐感到十分興奮，並對未來充滿樂觀，因為每次模型的迭代都會開啟許多新的可能性。

主持人：我們現在所處的位置令人驚歎，而且看起來離下一步或未來似乎很近。顯然，推理能力和數學突破目前非常熱門。它們在通用人工智能的未來發展中有多少作用？

Logan Kilpatrick：我認為推理能力至關重要，它關係到模型的認知能力。這與 DeepMind 早期的研究方向一致，他們長期致力於解決這類問題。從某種意義上講，我們目前依賴 Transformer 架構和大規模語言模型作為智能系統初步跡象的事實，有些出乎意料。但我確實認為將推理能力和大規模語言模型結合起來是有道理的。此外，在實際應用中，由於人類已經相當缺乏耐性，因此很多時候無法等待長時間來獲得答案。因此，只有在某些特定的應用場景下，延遲回答以換取更高質量的結果才是有價值的。儘管如此，我還是為那些現在就能夠幫助人們並支持開發者的應用感到高興。同時，我也對將來還有許多極其有趣的研究工作要完成充滿了期待。

今場採訪的鏈接：https://www.youtube.com/watch?v=WQvMdmk8IkM