Google發佈Pixel手機以及AI功能,xAI發佈Grok-2 系列模型,這就是這周的AI大新聞!

8.12~8.18,又是刺激的一週。

這周的AI大事件,就都在這裏啦。

1.Google發佈Pixel手機以及AI功能

鏈接:https://blog.google/products/platforms-devices/made-by-google-2024-collection/

Google上週集中發佈了他們的24年硬件內容包括新的Pixel 9手機,Pixel 9 Pro Fold,Pixel Watch 3和Pixel Buds Pro 2。

同時出了硬件之外大部分的時間都是在講AI跟硬件的結合,而且其中的重頭戲Gemini live已經在美國開始推送了,而且新手機上立刻可用,在AI硬件的進度上安卓這次領先蘋果不少。

主要的AI內容有:

  • Gemini升級推出Gemini Live,支持實時語音對話和攝像頭影片溝通,而且跟系統內置APP深度打通,比如可以直接通過Gemini展示Google地圖內容和記錄Todo。

  • Pixel的攝影和影片加了AI功能,Add Me可以幫助你拍合照,支持20倍的AI變焦功能,MagicEditor支持用AI編輯你的照片,Auto Frame擴圖可以重新構圖照片。

  • Pixel Studio Al畫圖應用,imagen3模型驅動,可以通過輸入提示詞生成圖片和編輯生成的圖片。

  • 新的Pixel Weather應用程序使用AI來補充傳統的天氣報告,可以獲得更準確的天氣預報,比如雨何時開始和停止。

  • Keep支持讓Gemini幫你創建列表比如一些事情的詳細待辦。

  • Pixel Screenshots支持幫你保存、組織和回憶你手機裡面所有截圖的信息,截圖可檢索這個太重要了,這是手機上最方便的記錄形式。

  • 通話備註支持幫你整理和保存對話中的關鍵信息,激活的話通話的人會收到通知。

  • Pixel Watch 使用機器學習自動檢測睡眠並開啟睡眠模式。

  • Pixel Watch 3引入脈搏丟失檢測功能,可以檢測心臟突然停止跳動時發生的脈搏喪失事件。

  • Pixel Buds Pro 2耳機支持AI降噪技術,降噪幅度是上一代產品的兩倍。

  • Pixel Buds Pro 2,可以在不拿出手機的情況下獲得Gemini的幫助,Gemini可以在耳機裡面跟你對話,這個在面試和演講作弊很有用啊,戶外沒辦法用手機的場景也很有用。

2.xAI發佈Grok-2 系列模型

鏈接:https://x.ai/blog/grok-2

老馬的XAI發佈Grok-2 Beta版本。在LMSYS的成績超過了Claude 3.5Sonnet和GPT-4-Turbo。

Grok-2和Grok-2 mini目前在X上測試,這個月可以通過API使用。

X上的Grok界面也獲得了更新,X Premium和Premium+用戶都可以訪問新模型。圖片生成能力用的最近非常火的FLUX圖像生成模型。

XAI還說他們內容使用類似LMSYS的流程來對模型進行評估,在每次互動中,AI導師模型會看到Grok生成的兩個回應。根據指南中概述的具體標準選擇更優秀的回應。專注於評估模型在兩個關鍵領域的能力:遵循指示和提供準確的事實信息。

Grok-2在推理檢索內容和工具使用能力方面顯示出顯著改進,例如正確識別缺失信息、推理事件序列以及丟棄無關的帖子。

這一點在結合Twitter內容分析上明顯變好了,你可以讓Grok分析你的內容以及互動來改善帳號的運營情況。

他們下一步將會發佈Grok多模態模型的預覽。

3.Genie:新的世界最強AI編程Agent產品

鏈接:https://cosine.sh/blog/genie-technical-report

Genie宣佈自己打造出了世界上最強的AI編程Agents產品。在SWE-Bench評估中獲得了30.08%的分數,在SWE-Lite中獲得了50.67%。可以完美模擬人類工程師的認知過程、邏輯和工作流程。

Genie的設計目標是使其具有「自主性」,能夠根據所見內容邏輯行動。為了實現這一點,數據集需要能夠代表這種邏輯行動,包括在未知代碼庫中找到執行任務所需的先決信息。

Genie的推理特性包括規劃、檢索、編寫和運行代碼四個主要過程,通過模擬人類的行為而非基礎語言模型的行為,從而實現了更高的性能。

Genie的訓練中還採用了自我改進的方法,通過使用模型自身生成的數據來提高性能,這種方法使得模型在面對錯誤時的反應能力得到了顯著提升。

4.The Al Scientist:可以進行自主科學發現和論文撰寫的Agents

鏈接:https://sakana.ai/ai-scientist/

Sakana Al 宣佈開發了一個名為「The Al Scientist」的系統,它能夠自動化地進行科學發現過程。

包括自動生成研究想法、編寫代碼、執行實驗、總結實驗結果、生成圖表、撰寫科學論文,並且還能進行自動化的同行評審。該系統能夠在大約15美元的成本內完成每篇論文的生成,儘管當前版本的論文可能存在一些缺陷,但已經能夠達到頂級機器學習會議的「弱接受」標準。

該系統的創新之處在於它能夠在不斷迭代的過程中,利用先前的想法和反饋來改進新一代的研究想法,從而模仿人類科學社區的行為。

The Al Scientist 已經在機器學習領域的多個子領域進行了研究,包括擴散模型、transformers和grokking,併發現了新的貢獻。

這裏是The Al Scientist 自動生成的完整論文:

https://sakana.ai/assets/ai-scientist/adaptive_dual_scale_denoising.pdf

The Al Scientist 生成內容主要包括四個過程:

  • 創意生成。給定一個起始模板,AI科學家首先「腦力激盪」出一系列新穎的研究方向。

  • 實驗迭代。給定一個想法和一個模板,AI科學家的第二階段首先執行提出的實驗,然後獲得並生成圖表以可視化其結果。

  • 論文寫作。最後,AI科學家以LaTeX標準機器學習會議論文的風格,撰寫了簡潔而富有信息的進展報告。

  • 自動論文審閱。這項工作的關鍵方面是開發一個自動LLM驅動的審閱者,能夠以接近人類準確度評估生成的論文。

其他動態 ✦ 

1.Anthropic API 推出提示緩存功能,輸入成本降低90%,並將延遲降低80%。

https://x.com/alexalbert__/status/1823751966893465630

2.InstantX發佈了FLUX的UnionControlnet模型。這一個模型集合了Canny、Depth、Pose、Tile等多個Controlnet 模型。

https://huggingface.co/InstantX/FLUX.1-dev-Controlnet-Union-alpha

3.DeepSeek 開源數學定理證明模型Prover-V1.5,通過構建類似AlphaGo的封閉圖學習環境,在高中和大學的數學定理測試中都獲得了非常好的結果。

https://mp.weixin.qq.com/s/O4aC9dvJC30sfSQyYgbcow

4.Midjourney網頁版終於修復了稀爛的圖像編輯功能。局部重繪加上更改圖像比例以及提示詞編輯都融合到了一個新的界面中。

5.Gen-3 Alpha Turbo模型正式開放給所有用戶使用,生成速度可提高7倍,價格僅為原版 Gen-3 Alpha的一半。

https://x.com/runwayml/status/1824070782768529629

6.Synclabs 發佈他們的新版唇形同步模型lipsync-1.7.1,牙齒和嘴型極其精準,英文效果比中文好。不足是嘴部清晰度低,如果原影片清晰度本身很高的話,割裂感很重。

https://x.com/synclabs_so/status/1805649915030421995