Google最出圈的AI產品,把奧特曼也驚豔了

本文來自微信公眾號:APPSO (ID:appsolution),原文標題:《Google 最出圈的 AI 產品,把 OpenAI CEO 也驚豔了》,題圖來自:AI生成

Google,矽谷的代言人,AI 界的巨擘,技術牛,論文多,做給消費者用的 AI 產品,卻幾乎沒有出圈的。

不過,也有一個例外:NotebookLM,甚至連死對頭 Sam Altman 也覺得它很酷。

偏偏 NotebookLM 走的還是一條有些小眾的賽道——播客。

不想看的內容,讓AI聊給你聽就好了

NotebookLM受歡迎,主要是因為一個功能:Audio Overview(音頻概覽)

更通俗地理解,就是AI播客。任何你懶得消化的內容,都可以丟給它試試,幾分鐘轉成一男一女的對談,比原來的材料更加接地氣。

NotebookLM支持上傳多種格式的內容NotebookLM支持上傳多種格式的內容

不過有些遺憾,音頻概覽雖然可以消化中文材料,但只能輸出英文。

好奇海外的AI能不能理解國產劇的愛恨情仇,我上傳了一段描述甄嬛生平的文字,大約500多字,NotebookLM用2分鐘左右,就生成了5分鐘左右的音頻。

光聽英文音頻不太直觀,所以我下載了音頻,上傳到通義聽悟,看看AI在聊些什麼。

AI解讀得一針見血,不僅讀懂甄嬛,也理解占士,抓住了宮鬥劇的主要矛盾——權力。

腦洞更大一點,以後一個人追劇再也不會寂寞,AI就是性價比最高的追劇搭子,還能陪練英語,教我們「not my cup of tea」(不是我的菜)這樣的地道表達。

與其精讀外刊和專八文章,不如基於我們自己喜歡的內容,讓AI生成英文學習資料,畢竟,興趣是最好的老師。

除了陪著學習英語和八卦,輸出正經的分析,NotebookLM也沒問題。

我以PDF的形式上傳了一篇「抽水」AI廣告的、3700字左右的文章——《滿大街的AI廣告,是一次審美大降班》。

基於這篇文章,NotebookLM用5分鐘左右生成了一段11分40秒的音頻。

作為文章作者本人的我,像是遇到了兩個熱情又很懂我的讀者,NotebookLM對文章進行了重新詮釋,創造了一個相關又獨立的作品。

播客的開頭,AI自然地引出了主題,男聲問,你有沒有看到過一些糟糕的廣告,奇怪它們居然能上街?女聲答,你說得不錯,這就是我們要討論的主題。

同時,AI也懂靈活變通,不照搬文章的邏輯,而是重新編排了素材,改寫觀點的表達方式,但內核相同,甚至自己舉出例子,將AI廣告類比到AI音樂。

對於怎麼「抽水」,AI也有自己的見解,看得出來努力表現幽默了,但還是有些西式。

除了具體的內容,聲音的質感好壞,同樣很影響收聽體驗,畢竟,播客是聲音媒介。

AI不說字正腔圓,至少發音清晰,口條不錯,語氣抑揚頓挫,會用上「what」「ouch」「you know」等語氣詞,聊著聊著還會笑出聲,傳播著快活的空氣。

可以說,AI播客已經「初具人形」,至少聽得下去,不會像很多AI圖片、影片一樣,讓人陷入恐怖穀,敬而遠之。

分分鐘的內容轉換,知識更容易進腦子了

使用NotebookLM時,有一點需要注意:它不會搜索新的信息,而是基於我們上傳的資料處理信息。

所以,它不全面,不客觀,但足夠個性,忠於每個人自己的素材。

我的一位同事說,NotebookLM適合寫文章的人做播客。這話很有道理,NotebookLM本質是實現了內容形式之間快速的轉換,將複雜的內容加工得更好理解。

我願稱之為,「這知識它不進腦子啊」的N種解決辦法。

NotebookLM的強大,離不開Google大模型Gemini 1.5 Pro的長文本能力和多模態表現。

經過測試,讓它讀37.8萬字的《馬斯克傳》不在話下。

同時,NotebookLM還能處理影片,我上傳了一個評測Meta眼鏡的YouTube影片。

左邊是原影片和影片文案,右邊是 NotebookLM 的解讀左邊是原影片和影片文案,右邊是 NotebookLM 的解讀

除了用音頻解讀之外,NotebookLM還能用多種方式,幫你理解你上傳的內容,而且,都是自動的,最多隻需要你點擊一下。

每次上傳材料,NotebookLM都會給出「摘要」和「建議的問題」。前者讓你對內容有大致的瞭解,而後者解決了越長大越不愛舉手的人類的難題:不知道該問什麼。

點擊「建議的問題」,NotebookLM既能幫你回答,還會附上引用來源,如果上傳內容是影片,引用參照的是影片的文案。

其他小功能也類似,建議都點擊試試,我比較喜歡「常見問題解答」,AI的自問自答,基本上囊括了一個陌生事物的入門知識。

然後可以再讓AI生成「簡報文檔」,不僅提供信息,也給出了觀點。

當然,你也可以自己在輸入框輸入問題,該引用的還是引用,但如果沒有明確來源的,NotebookLM會強調是推測。雖然AI仍有幻覺,但它已經盡到了告知義務。

底層模型的支持是NotebookLM的基礎,還有人套出了NotebookLM的系統提示詞,解釋了為什麼音頻概覽很接地氣。

圖片來自:X@JadenGeller圖片來自:X@JadenGeller

其中一條很有意思,規定了兩個AI角色,一個是主持人,一個是專家,相輔相成,主持人熱情地強調有趣的觀點,專家則提供分析、背景信息和更廣闊的視角。

其餘都是對內容總結的要求,語氣避免單調和機械,結構清晰,引人入勝,舉出貼近生活的例子,在爭議問題上保持中立,提供的信息不停留在表面,讓聽眾能形成自己的結論,並且覺得學到了新東西……

討論《馬斯克傳》時,NotebookLM保持中立討論《馬斯克傳》時,NotebookLM保持中立

這完全是一款優秀人類播客的要求了,具備強烈的、服務聽眾的意識。

然而,NotebookLM不支持中文終究不太友好,等待之外,也可以試試平替。開源的Open NotebookLM、根據文檔生成播客的Podial、國內開發者的PodLM……

除了NotebookLM,Google自己還有一款專門將論文轉換成音頻的產品:Illuminate。

第一個音頻解讀的是Transformer模型鎮圈論文《Attention is All You Need》第一個音頻解讀的是Transformer模型鎮圈論文《Attention is All You Need》

它以主持人和專家的對話形式,一問一答,幫你通俗易懂地解讀論文。

看似小眾的播客,為什麼因為AI反而成了一條熱門的賽道?

消費什麼,怎麼消費,以後我們自己決定

語音,是人類最自然的交互模式之一,輸入和輸出都非常符合大腦的認知習慣。

我們有教科書,但還是需要老師講課,幫助理解複雜的內容。而當我們可以用口語解釋概念,講給別人聽,才說明我們真正掌握了它。

NotebookLM做到了用簡單的語言重新詮釋書面的概念,同時包含了情緒、語氣,帶來了更自然的感官體驗。

同時,它又是個性化的,以前我們只有收聽的習慣,但我們現在有了創作的權利。

我們能隨時做AI播客給自己聽,內容隨意。

可以是感興趣的大部頭文章、書籍,克服收藏即閱讀的壞習慣,也可以讓AI解讀自己的作品、簡曆,收穫不要錢的情緒價值,滿足人類自戀的需求。

當我上傳自己的文字版簡曆,NotebookLM煞有其事地輸出一通彩虹屁,比AI陪伴產品情商更高,叫人瘋狂嘴角上揚。

音頻就不放上來了,這是部分內容音頻就不放上來了,這是部分內容

我們也能隨時聽AI播客,吃飯、健身、開車、做家務不無聊了,播客本身就是一種陪伴媒介。

GPT-4o的高級語音模式,其實也是一個語音產品,但AI播客和它的使用場景不太一樣,聊天找話題很難,不管是和人類還是和AI,但AI播客可以自嗨。

OpenAI創始成員Andrej Karpathy,很看好NotebookLM,說這可能是又一個大語言模型產品的新交互範式,讓他想起了ChatGPT。

他甚至花了兩個小時,生成了一個以歷史為主題的10集播客系列,上傳到Spotify,生成的過程很值得參考:

  • 用ChatGPT、Claude、Google找到有意思的話題。

  • 基於相關的域奇百科條目讓NotebookLM生成音頻。

  • 用NotebookLM編寫播客簡介。

  • 用Ideogram生成播客封面。

我們也可以按照這個模式,探索自己感興趣的領域,就像產出AI繪畫、音樂、影片那樣。

NotebookLM的下一步是什麼呢?

在一次採訪里,NotebookLM團隊負責人Raiza Martin提出了一個構想——未來可以有一個AI編輯界面,支持任何輸入和輸出。

影片、音頻、電子郵件、社交媒體……所有我們感興趣的內容和形式,都可以生成任何格式的內容。如何消費內容,由用戶決定。

散步時,我們想聽播客,工作時,文字效率更高。信息只是食材,可以有十八般做法。

很多時候,AI其實就是在改變獲取信息的方式,但消化知識的工具,和知識一樣重要。

ChatGPT為難懂的知識找到通俗的解釋,AI搜索讓我們不用自己翻網頁找鏈接,AI總結讓我們不必親自看文章……吾生也有涯,而知也無涯,但我們可以更愉快地做一個在海邊撿起貝殼的孩子。

本文來自微信公眾號:APPSO (ID:appsolution)