Google最出圈的 AI 產品,把OpenAI CEO也驚豔了

Google,矽谷的代言人,AI 界的巨擘,技術牛,論文多,做給消費者用的 AI 產品,卻幾乎沒有出圈的。 

不過,也有一個例外:NotebookLM,甚至連死對頭 Sam Altman 也覺得它很酷。 

偏偏 NotebookLM 走的還是一條有些小眾的賽道——播客。 

指路:https://notebooklm.google.com/ 

不想看的內容,讓 AI 聊給你聽就好了 

NotebookLM 受歡迎,主要是因為一個功能:Audio Overview(音頻概覽)。 

更通俗地理解,就是 AI 播客。任何你懶得消化的內容,都可以丟給它試試,幾分鐘轉成一男一女的對談,比原來的材料更加接地氣。 

NotebookLM 支持上傳多種格式的內容 NotebookLM 支持上傳多種格式的內容 

不過有些遺憾,音頻概覽雖然可以消化中文材料,但只能輸出英文。 

好奇海外的 AI 能不能理解國產劇的愛恨情仇,我上傳了一段描述甄嬛生平的文字,大約 500 多字,NotebookLM 用 2 分鐘左右,就生成了 5 分鐘左右的音頻。 

光聽英文音頻不太直觀,所以我下載了音頻,上傳到通義聽悟,看看 AI 在聊些什麼。 

AI 解讀得一針見血,不僅讀懂甄嬛,也理解占士,抓住了宮鬥劇的主要矛盾——權力。 

腦洞更大一點,以後一個人追劇再也不會寂寞,AI 就是性價比最高的追劇搭子,還能陪練英語,教我們「not my cup of tea」(不是我的菜)這樣的地道表達。 

與其精讀外刊和專八文章,不如基於我們自己喜歡的內容,讓 AI 生成英文學習資料,畢竟,興趣是最好的老師。 

除了陪著學習英語和八卦,輸出正經的分析,NotebookLM 也沒問題。 

我以 PDF 的形式上傳了一篇「抽水」 AI 廣告的、3700 字左右的文章—— 《滿大街的 AI 廣告,是一次審美大降班》。 

基於這篇文章,NotebookLM 用 5 分鐘左右生成了一段 11 分 40 秒的音頻。 

作為文章作者本人的我,像是遇到了兩個熱情又很懂我的讀者,NotebookLM 對文章進行了重新詮釋,創造了一個相關又獨立的作品。 

播客的開頭,AI 自然地引出了主題,男聲問,你有沒有看到過一些糟糕的廣告,奇怪它們居然能上街?女聲答,你說得不錯,這就是我們要討論的主題。 

同時,AI 也懂靈活變通,不照搬文章的邏輯,而是重新編排了素材,改寫觀點的表達方式,但內核相同,甚至自己舉出例子,將 AI 廣告類比到 AI 音樂。 

對於怎麼「抽水」,AI 也有自己的見解,看得出來努力表現幽默了,但還是有些西式。 

除了具體的內容,聲音的質感好壞,同樣很影響收聽體驗,畢竟,播客是聲音媒介。 

AI 不說字正腔圓,至少發音清晰,口條不錯,語氣抑揚頓挫,會用上「what」「ouch」「you know」等語氣詞,聊著聊著還會笑出聲,傳播著快活的空氣。 

可以說,AI 播客已經「初具人形」,至少聽得下去,不會像很多 AI 圖片、影片一樣,讓人陷入恐怖穀,敬而遠之。 

分分鐘的內容轉換,知識更容易進腦子了 

使用 NotebookLM時,有一點需要注意:它不會搜索新的信息,而是基於我們上傳的資料處理信息。 

所以,它不全面,不客觀,但足夠個性,忠於每個人自己的素材。 

我的一位同事說,NotebookLM 適合寫文章的人做播客。 

這話很有道理,NotebookLM 本質是實現了內容形式之間快速的轉換,將複雜的內容加工得更好理解。 

我願稱之為,「這知識它不進腦子啊」的 N 種解決辦法。 

NotebookLM 的強大,離不開 Google 大模型 Gemini 1.5 Pro 的長文本能力和多模態表現。 

經過測試,讓它讀 37.8 萬字的《馬斯克傳》不在話下。 

同時,NotebookLM 還能處理影片,我上傳了一個評測 Meta 眼鏡的 YouTube 影片。 

左邊是原影片和影片文案,右邊是 NotebookLM 的解讀 左邊是原影片和影片文案,右邊是 NotebookLM 的解讀 

除了用音頻解讀之外,NotebookLM 還能用多種方式,幫你理解你上傳的內容,而且,都是自動的,最多隻需要你點擊一下。 

每次上傳材料,NotebookLM 都會給出「摘要」和「建議的問題」。前者讓你對內容有大致的瞭解,而後者解決了越長大越不愛舉手的人類的難題:不知道該問什麼。 

點擊「建議的問題」,NotebookLM 既能幫你回答,還會附上引用來源,如果上傳內容是影片,引用參照的是影片的文案。 

其他小功能也類似,建議都點擊試試,我比較喜歡「常見問題解答」,AI 的自問自答,基本上囊括了一個陌生事物的入門知識。 

然後可以再讓 AI 生成「簡報文檔」,不僅提供信息,也給出了觀點。 

當然,你也可以自己在輸入框輸入問題,該引用的還是引用,但如果沒有明確來源的,NotebookLM 會強調是推測。雖然 AI 仍有幻覺,但它已經盡到了告知義務。 

底層模型的支持是 NotebookLM 的基礎,還有人套出了 NotebookLM 的系統提示詞,解釋了為什麼音頻概覽很接地氣。 

圖片來自:X@JadenGeller 圖片來自:X@JadenGeller 

其中一條很有意思,規定了兩個 AI 角色,一個是主持人,一個是專家,相輔相成,主持人熱情地強調有趣的觀點,專家則提供分析、背景信息和更廣闊的視角。 

其餘都是對內容總結的要求,語氣避免單調和機械,結構清晰,引人入勝,舉出貼近生活的例子,在爭議問題上保持中立,提供的信息不停留在表面,讓聽眾能形成自己的結論,並且覺得學到了新東西…… 

討論《馬斯克傳》時,NotebookLM 保持中立 討論《馬斯克傳》時,NotebookLM 保持中立 

這完全是一款優秀人類播客的要求了,具備強烈的、服務聽眾的意識。 

然而,NotebookLM 不支持中文終究不太友好,等待之外,也可以試試平替。 

開源的 Open NotebookLM、根據文檔生成播客的 Podial、國內開發者的 PodLM…… 

除了 NotebookLM,Google 自己還有一款專門將論文轉換成音頻的產品:Illuminate。 

第一個音頻解讀的是 Transformer 模型鎮圈論文《Attention is All You Need》 第一個音頻解讀的是 Transformer 模型鎮圈論文《Attention is All You Need》 

它以主持人和專家的對話形式,一問一答,幫你通俗易懂地解讀論文。 

看似小眾的播客,為什麼因為 AI 反而成了一條熱門的賽道? 

消費什麼,怎麼消費,以後我們自己決定 

語音,是人類最自然的交互模式之一,輸入和輸出都非常符合大腦的認知習慣。 

我們有教科書,但還是需要老師講課,幫助理解複雜的內容。而當我們可以用口語解釋概念,講給別人聽,才說明我們真正掌握了它。 

NotebookLM 做到了用簡單的語言重新詮釋書面的概念,同時包含了情緒、語氣,帶來了更自然的感官體驗。 

同時,它又是個性化的,以前我們只有收聽的習慣,但我們現在有了創作的權利。 

我們能隨時做 AI 播客給自己聽,內容隨意。 

可以是感興趣的大部頭文章、書籍,克服收藏即閱讀的壞習慣,也可以讓 AI 解讀自己的作品、簡曆,收穫不要錢的情緒價值,滿足人類自戀的需求。 

當我上傳自己的文字版簡曆, NotebookLM 煞有其事地輸出一通彩虹屁,比 AI 陪伴產品情商更高,叫人瘋狂嘴角上揚。 

音頻就不放上來了,這是部分內容 音頻就不放上來了,這是部分內容 

我們也能隨時聽 AI 播客,吃飯、健身、開車、做家務不無聊了,播客本身就是一種陪伴媒介。 

GPT-4o 的高級語音模式,其實也是一個語音產品,但 AI 播客和它的使用場景不太一樣,聊天找話題很難,不管是和人類還是和 AI,但 AI 播客可以自嗨。 

OpenAI 創始成員 Andrej Karpathy,很看好 NotebookLM,說這可能是又一個大語言模型產品的新交互範式,讓他想起了 ChatGPT。 

他甚至花了兩個小時,生成了一個以歷史為主題的 10 集播客系列,上傳到 Spotify,生成的過程很值得參考。 

用 ChatGPT、Claude、Google 找到有意思的話題。 

基於相關的域奇百科條目讓 NotebookLM 生成音頻。 

用 NotebookLM 編寫播客簡介。 

用 Ideogram 生成播客封面。 

我們也可以按照這個模式,探索自己感興趣的領域,就像產出 AI 繪畫、音樂、影片那樣。 

NotebookLM 的下一步是什麼呢? 

在一次採訪里,NotebookLM 團隊負責人 Raiza Martin 提出了一個構想——未來可以有一個 AI 編輯界面,支持任何輸入和輸出。 

影片、音頻、電子郵件、社交媒體……所有我們感興趣的內容和形式,都可以生成任何格式的內容。如何消費內容,由用戶決定。 

散步時,我們想聽播客,工作時,文字效率更高。信息只是食材,可以有十八般做法。 

很多時候,AI 其實就是在改變獲取信息的方式,但消化知識的工具,和知識一樣重要。 

ChatGPT 為難懂的知識找到通俗的解釋,AI 搜索讓我們不用自己翻網頁找鏈接,AI 總結讓我們不必親自看文章……吾生也有涯,而知也無涯,但我們可以更愉快地做一個在海邊撿起貝殼的孩子 。 

本文來自微信公眾號「APPSO」,作者:發現明日產品的,36氪經授權發佈。