人生搜索引擎免費用,開源版哈利樸達「冥想盆」登GitHub熱榜,支持中文
一水 發自 凹非寺
量子位 | 公眾號 QbitAI
天啦擼!回溯你在網上看過、做過的一切,也有免費軟件可用了!
簡單說,針對任何「之前好像在哪看過」的電腦文件,只需輸入相關搜索詞,這個軟件都能幫你一鍵輕鬆回憶了。
打開方式be like(沒錯,也有中文版):
你品,你細品。這像不像《黑鏡》中「你的全部歷史」那一集,描述了一種人人都植入芯片、能隨時讀取過去記憶的未來生活。
更有意思的是,發明這個軟件的朋友將其命名為Pensieve(冥想盆),它是指」哈利樸達中提取和回顧記憶的那個大水盆子」。
笑死,你別說還真貼切!事實上,這個項目大量借鑒了之前就很火的「記憶助手軟件」Rewind和微軟的Windows Recall功能。
但是,這兩個emmm……Rewind要收費(基礎版12美元/月),微軟的延期了。
所以,既免費、又立即可用的Pensieve是真香了!
這不,代碼更新後迅速登上了GitHub熱榜~
記住並回憶電腦屏幕上的所有內容
我們先來看GitHub頁面上Pensieve(原名為Memos)的官方介紹:
一個以隱私為中心的被動錄製項目。它可以自動記錄屏幕內容,構建智能索引,並提供方便的網頁界面以檢索歷史記錄。
是不是聽起來還是有點抽像?
別急,我們馬上拿Rewind和Windows Recall來一波回憶殺(doge)。
先說微軟畫了很久的大餅——Windows Recall。這個功能是今年5月首次被提出的,當時微軟計劃將其作為Copilot + PC的一項旗艦功能推出。
當時主打,任何文件或網頁瀏覽記錄都可以用自然語言搜索,輕鬆回憶任何東西。
然而,由於安全方面的擔憂,該功能的發佈被一再推遲,且至今仍未上線。
細數一下,微軟最初計劃於6月18日發佈,但由於安全問題,到了時間點卻未能按時上線。
後來微軟對其進行了改進,加入了高級加密和Windows Hello認證,數據被保存在VBS安全區中,第三方應用和用戶無法訪問,而且截圖將自動排除諸如密碼和信用卡信息等敏感內容。
一番改造後,微軟又計劃在10月底開始測試新版本的Windows Recall。
直到今日,該功能仍未上線,微軟還在改改改……
此外,對於「記憶助手」Rewind,雖然幹得熱火朝天,但奈何它是收費滴。
Rewind成立於2020年,主打通過AI技術捕捉和整理用戶的全部生活內容。
具體功能和Windows Recall類似,也是幫助用戶記錄並回溯在手機或電腦上看過的所有信息。
不過除了走到「回憶起」這一步,Rewind走得更遠了一點。
它還接入了GPT-4,能夠對這些「記憶」進行更深一步的操作,使得用戶可以通過提出問題、創建摘要等方式與系統進行交互。
而就在Rewind功能更加完備的過程中,它也收穫了資本的青睞。
截至今年初,Rewind已經完成了兩輪融資,共計2790萬美元,估值約為3.5億美元(25.34億人民幣),而且兩輪中都有OpenAI CEO Sam Altman和a16z的身影。
相比之下,根據項目作者的說法,Pensieve的最大特點在於:
允許用戶完全控制自己的數據,避免將數據傳輸到不可信的數據中心。
具體而言,Pensieve擁有以下幾個特點:
-
簡單安裝,只需通過pip安裝依賴項即可開始;
-
所有數據均本地存儲,允許完全本地操作和自主數據管理;
-
實現全文和向量搜索;
-
與Ollama(一個支持本地部署LLM的開源框架)集成,增強搜索能力;
-
支持Mac和Windows(Linux支持正在開發中);
-
兼容任何OpenAI API模型(例如,OpenAI、Azure OpenAI、vLLM等);
-
允許用戶選擇和設置語言模型(包括中文和英文);
-
允許通過插件擴展功能;
下面重點介紹大家關心的幾個問題。
第一,需要佔用多少存儲。
作者貼心預估了一下,每月按20個工作日計算,產生的截圖文件約8GB。截圖會進行去重,如果連續截圖內容變化不大,那麼只會保留一張截圖。
SQLite數據庫大小取決於索引的截圖數量,10萬張截圖索引後約佔用2.2GB存儲空間。
第二,關於功耗和硬件設備。
Pensieve預設需要兩個計算密集型任務:1)一個是OCR任務,用於從截圖提取文本;2)另一個是嵌入任務,用於提取語義信息和構建向量索引;
對於前者,作者使用CPU執行,並針對不同的操作系統優化以最小化CPU使用。
而對於後者,作者認為可以按照自己的設備進行選擇:
-
NVIDIA GPU設備優先使用GPU;
-
蘋果設備優先使用Metal GPU;
-
其他設備使用CPU;
當然,為了避免影響用戶日常使用,Pensieve還採取了優化措施。
一方面,Pensieve能夠根據用戶的活動模式動態調整索引構建的頻率。也就是說,在用戶使用電腦時,它會降低索引構建的優先級,以減少系統資源的佔用。
另一方面,Pensieve在設計時考慮了電池使用壽命,通過監控電池狀態,當電池電量低於某個閾值時,會自動減少資源消耗,以延長電池使用時間。
第三,隱私安全如何保證。
Pensieve作者提出了4點措施來保證用戶隱私,包括:
1、代碼是完全開源且易於理解的Python代碼,允許任何人審查以確保沒有後門或惡意軟件。
2、本地化數據存儲。Pensieve將所有數據存儲在用戶的本地設備上,而不是上傳到雲端服務器。
3、易於卸載:Pensieve提供了簡單的卸載過程,用戶可以輕鬆地從系統中移除。
4、數據處理完全由用戶控制。用戶可以自由選擇何時啟動或停止記錄,以及如何管理和查詢自己的數據。
另外,作為一個獨立項目,Pensieve所使用的機器學習模型(包括VLM和嵌入模型)都允許由用戶選擇。
這就上手安裝試試
概括而言,使用Pensieve大致包括以下幾個步驟:
-
安裝Pensieve
-
初始化pensieve配置文件和sqlite數據庫
-
使用兩行命令啟動服務
-
打開瀏覽器並訪問Web界面
BTW,Pensieve作者也貼心奉上了「食用指南」,簡單概括如下:
1、選擇適當的嵌入模型
由於Pensieve使用嵌入模型提取語義信息並構建向量索引,故選擇合適的嵌入模型至關重要。
根據用戶習慣的語言,作者提供了中英兩種模型。
2、使用Ollama進行視覺搜索
預設情況下,Pensieve僅啟用OCR插件從截圖提取文本並構建索引。然而,這種方法極大限制了沒有文本的圖像的搜索效果。
對此,我們需要一個與OpenAI API兼容的多模態圖像理解服務,剛好Ollama可以勝任。
需要提醒的是,在啟動VLM功能之前,對硬件有一定要求:
-
推薦配置:至少8GB VRAM的NVIDIA顯卡或搭載M系列芯片的Mac;
-
CPU模式不推薦,因為它會導致系統嚴重卡頓;
3、全文索引
由於Pensieve預設情況下並非所有截圖都會立即索引,因此,需要以下命令行,才能實現全文索引功能。
更多安裝細節可參見原項目庫,地址也給大家放上了~
GitHub:
https://github.com/arkohut/pensieve?tab=readme-ov-file