用了Kimi探索版的AI搜索之後,Perplexity只能當背景板了

作者|週一笑郵箱|zhouyixiao@pingwest.com

AI能回答問題,但能不能真正「思考」?

經常用AI搜索產品的用戶會發現,這類產品在面對複雜問題時常常「掉鏈子」——它能模仿莎士比亞的文風,解答數學題,卻可能在解決日常生活中的難題時束手無策。

這就像一個博學卻不懂變通的書呆子,知識豐富但缺乏靈活的思維能力。顯然,僅僅把AI搜索變成一個「會說話的搜索引擎」是遠遠不夠的。

那麼,如何讓一個智商更高、推理能力更強、會深度思考的大模型來解決普通用戶的真實問題,而不僅僅是做奧賽題呢?

月之暗面最近給出了它們的一次嘗試:他們剛剛上新了想要挑戰複雜問題搜索的Kimi探索版。有趣的是,Kimi探索版沒有強調追求高精尖的科研能力,而是把目光聚焦在提升日常使用場景的體驗上,試圖在普通用戶和「高階」AI之間找到一個平衡點。

據說,Kimi探索版學會了像人一樣拆解複雜問題,通過自主規劃解答思路分步執行、海量窮盡式自主搜索、即時反思搜索結果,最終幫助用戶找到更全、更準的答案。

具體使用效果如何,矽星人也在第一時間進行了體驗。

當大模型開始像人類一樣思考

Kimi探索版現已全量上線,使用方式很簡單,不需要切換模型,入口就在Kimi的對話框底部的開關里,打開「探索版」開關即可開始使用。

對比投資收益

最近A股的過山車行情讓股民們體驗了一把「心跳過速」的刺激——昨天還在為暴漲歡呼雀躍,今天就因暴跌捶胸頓足。我們先讓Kimi探索版來對比兩種投資方案的收益:如果我今年春節後的首個交易日開盤時買了比亞迪股票,對比一下,同期在上海黃金交易所投資黃金,截至9月最後一個交易日結束。哪個方案的收益更高?列個表格

上面的問題實際上至少包含了三個子問題,如果用傳統的方式需要進行多次手動搜索和操作,可以看到Kimi的思維過程,通過分別查找比亞迪股價、金價以及最後生成表格進行對比給出了答案。

麥肯錫經典面試題

既然Kimi探索版重點強調的是帶推理的搜索能力,我們再來試試對邏輯推演要求更高的諮詢面試題。

這類題目通常需要高度結構化的思維方式,如問題分解、邏輯樹構建等。而且往往需要在給定信息的基礎上進行實時推理和假設檢驗,傳統的LLM主要基於預訓練數據,難以像人類那樣靈活地進行即時分析。

問:如果所有鋼琴都定期調律,估算一下北京需要多少名全職的鋼琴調律師

我們可以看到,Kimi能處理包含多個變量和假設的邏輯推理問題,按照步驟逐層分析,通過費米估算(分解問題、假設合理性、結果的數量級估算)的方法進行估算,拆解的邏輯是:鋼琴數*每年調音次數*調音時長=每年總調音時長。在得出結論之後,Kimi還提供了兩個相關信息作為補充。

在過程中,Kimi通過搜索結合了不同來源的數據,最後進行綜合分析,類似於用戶輸入問題後的多步思考與反思過程。

上面的問題可能太常見,再來個「題庫」里沒有的問題:如果要用風力發電完全取代中國2023年的煤電產量,需要建造多少颱風力發電機?這些風力發電機佔地面積相當於多少個上海市?

提取關鍵信息、分步計算,清晰的推理之後,Kimi很高效的給出了答案。

用Perplexity付費的Pro模式進行對比,在經過一番計算之後,Perplexity給出了一個比較離譜的答案,檢查後發現Perplexity在估算風力發電機的數量和佔地面積的步驟出現了明顯的問題。

開個腦洞

再來問一個更開腦洞的問題:估算一下如果要用3D打印技術重建整個羅馬鬥獸場,需要多少材料?多長時間?成本大約是多少?與原始建造方法相比有什麼優勢和劣勢?

Kimi首先通過信息檢索獲取相關數據,對問題進行了分解,比如計算3D打印羅馬鬥獸場所需的材料、時間和成本。接著,它基於這些數據進行估算和分析,逐步回答每個問題,並對比3D打印和傳統建造方法的優缺點,最終給出完整且清晰的解決方案。我們可以看到從信息獲取、數據處理到邏輯推理和建議的完整思考過程。

看來下次腦洞不夠用的時候,可以找Kimi幫忙了。

我們繼續測試Kimi探索版在信息收集、數據處理和複雜任務處理方面的能力極限。

首先是涉及大量數據處理的任務,問:2024年9月,哪些A股上市公司經歷過漲停,請按照時間先後順序列個表格,並分析漲停原因。

要正確回答這個股市問題,Kimi探索版需要具備實時數據訪問和處理能力、信息整合和梳理能力,金融領域知識的理解能力。

尤其是這個問題涉及大量公司和漲停原因的信息,我們看到了Kimi探索版的批量信息處理與自動化能力,可以一次閱讀大量網頁,快速蒐集、篩選、整理多家公司漲停的原因,並生成系統性的報告。

面對同一個問題,Perplexity在第一步就出現了信息不完整的問題。

再來一個涉及最新企業和地理信息的複雜任務:2024年《財富》中國科技50強企業中,哪些公司的總部在北京?

提出問題後,Kimi快速從232個的網頁中檢索了相關信息,包括問題中提到的2024年《財富》中國科技50強企業名單及總部信息,接著將檢索到的各公司總部所在地進行分類整理,並直觀地呈現給用戶。

值得一提的是,Kimi在給出答案之後,還進行了「反思後的補充」,具體到這個問題中,可以看到Kimi對自己的答案進行了一次「查缺補漏」,補充了聯想和小米。

這也是Kimi探索版的一個特點,在提供答案的基礎上,KImi會進一步通過「反思後的補充」,引導用戶思考或補充額外信息,從而得到更完整和深入的答案。但這種反思不是每一個問題都會觸發,可能是避免進行不必要的延伸。

除了金融和歷史,再來看看Kimi探索版是否能夠理解技術演進的複雜性:追溯 iPhone中使用的三大關鍵技術:電容觸摸屏、鋰聚合物電池和手機CPU的發展歷程。這些技術的起源可以追溯到什麼時候?分別經歷了哪些關鍵的技術突破,才最終成就了iPhone ?

Kimi探索版依舊按照邏輯清晰的步驟進行逐步拆解,包括從技術起源、關鍵突破到現代應用的全過程,提供了較為全面的提供全面的背景和推理,感覺再讓Kimi擴展續寫一下一篇分析類的文章就出來了。

更多花式用法

Kimi探索版除了增強了其處理複雜問題的能力,這種能力使得Kimi能夠理解用戶的問題,進行多層次的分析和推理,也讓Kimi在實際生活中有了更多的玩法。

讓Kimi幫你找電影:有一部日本動畫電影,講述了一個住在海邊小鎮的女高中生的故事。她有聽力障礙,戴助聽器。影片中有很多關於手語的鏡頭。男主角是她的同學,開始學習手語來和她交流。電影風葛文馨細膩,有不少關於青春和成長的主題。這是哪部電影?

讓Kimi幫你規劃旅遊路線:幫我查詢10月上海迪士尼各個遊樂項目在一天不同時段的平均排隊時長,列成表格。再根據這個設計一條耗費排隊時間最少的遊玩路線

讓Kimi幫你對比咖啡店買咖啡VS自己煮咖啡:假設你每天在咖啡店買一杯咖啡需要花費30元,而自己煮咖啡的成本每天為5元,但你需要先購買一台1500元的咖啡機,每月還要花100元購買咖啡豆,自己煮咖啡每天會花費10分鐘。請計算一個月(30天)後,在咖啡店買咖啡和自己煮咖啡的總花費分別是多少?並推算出多久後自己煮咖啡的累計成本會低於每天在咖啡店買咖啡的花費?此外,如果考慮時間成本(假設你每小時的時間價值為50元),哪種方式最終更慳錢?

結語

如果說長文本處理能力為Kimi提供的是更好的「記憶力」,那「推理」能力顯然是提高了Kimi的智力,Kimi通過模擬人類的推理和思考能力,對複雜問題進行拆解,從而step by step的進行解決,在執行過程中還能調用代碼、搜索等工具,最後還能像人一樣進行自我反思和修正。

顯然,這次Kimi探索版並不是要做一個o1出來,他們的底層思路可能是類似的,但落到用戶層面,Kimi探索版更多瞄準的還是它的大盤用戶:知識工作者以及大學生。通過 搜索來解決用戶日常場景中那些曾經很難用大模型來解決的問題。

如果說o1是面向科研和高階用戶的特化模型,現在的Kimi探索版更像是一個面向更廣泛用戶的搜索調研工具。

真正改變世界的技術創新,往往是從解決日常問題開始的。模擬人類的推理思考過程,配合海量的窮盡式搜索和不斷反思迭代搜索結果的特性,的確讓 Kimi 有了某種「超能力」,用戶在使用Kimi找答案的時候體驗到了一種前所未有的效率與精確性。

另外,據說「深度搜索」只是第一步,Kimi探索版後續還會更新其他新能力。

在保持期待的同時,大家可以先把Kimi探索版用起來了。