Load site modules...
lade...
random avatar

yongshuai1013 - Network

Posts Subscribe

#開源分享...

https://mastodon.social/@yongshu...

一款唇形同步工具:KeySync,核心能力是解決了表情洩漏以及遮擋問題,唇部動作不會受到原始影片人物表情,或是嘴部被遮擋而影響同步效果

能處理高解析度影片,可以準確的把生成的唇部動作與新音訊對齊,避免音畫不同步

它的兩階段框架設計,能使時間連貫性保持的較好,使得嘴型變化自然流暢

可以通過調整參數控制動畫的生成過程,比如指定遮擋物體的位置

專案地址: github.com/antonibigata/keysync

5.5.2025 13:54#開源分享...
https://mastodon.social/@yongshu...

#開源分享...

https://mastodon.social/@yongshu...

一款Zotero的中文翻譯插件:zotero-pdf2zh,可以生成中英對照版本

支持多種翻譯樣式,比如純中文版、中英對照版、雙欄論文轉單欄、中英文對照排版等

支持自訂中文字體,可以批次處理多文件

對經常需要閱讀英文文獻的人用起來應該會比較順手

專案地址: github.com/guaguastandup/zotero-pdf2zh

5.5.2025 01:24#開源分享...
https://mastodon.social/@yongshu...

#開源分享...

https://mastodon.social/@yongshu...

比較實用的一個跨空間語音翻譯項目:Spatial-Speech-Translation
可通過雙耳可穿戴設備在多說話人和干擾條件下進行語音翻譯,並且能保留聲音原來的方向感

能即時語音翻譯,在Apple M2晶片上實現了即時推理

在翻譯的同時保留了說話人的語氣情感,使翻譯後的語音更自然流暢

目前開源的翻譯語言對是法語到英語

專案地址: github.com/chentuochao/Spatial-Speech-Translation

4.5.2025 05:13#開源分享...
https://mastodon.social/@yongshu...

#開源分享...

https://mastodon.social/@yongshu...

集成PDF處理、AI翻譯、RAG檢索、AI問答及語音聊天於一體的一款學術論文閱讀工具:mad-professor

導入PDF後它會自動提取、翻譯和結構化論文內容,並且支持中英文對照閱讀

支持AI智慧問答,分屏界面,左側論文右側AI問答,可以語音提問和TTS語音回答

mad-professor被賦予了個性角色,回答問題時會帶有教授的性格和情感特點,支持更換不同的教授人設/聲音

專案地址: github.com/LYiHub/mad-professor-public

4.5.2025 05:13#開源分享...
https://mastodon.social/@yongshu...

#開源分享...

https://mastodon.social/@yongshu...

專用於做深度公司調研的一個多智慧體:company-research-agent,告訴它需要了解的公司,它會自動從各渠道收集資訊,並整理成詳細的分析報告

會從公司網站、新聞報導、財務報告以及結合行業分析等多個來源收集數據資訊

它用Tavily的相關性評分進行內容篩選,以確保資訊的準確性、有效性,並且即時展示研究進度和結果

最後把分析結果自動整理成結構化的報告

可以用來做企業調研或競品分析等,還比較實用方便的

專案地址: github.com/pogjester/company-research-agent

4.5.2025 05:13#開源分享...
https://mastodon.social/@yongshu...

#開源分享...

https://mastodon.social/@yongshu...

開源版本DeepWiki,代碼說明書自動生成器:deepwiki-open

給它一個GitHub/GitLab地址,它就能自動分析代碼結構和關係,自動生成該項目的詳細說明文件,還能畫出圖表來解釋代碼是怎麼運作的

支持自動生成Mermaid圖表展示架構和數據流
支持Docker或本地部署

專案地址: github.com/AsyncFuncAI/deepwiki-open

3.5.2025 12:36#開源分享...
https://mastodon.social/@yongshu...

#開源分享...

https://mastodon.social/@yongshu...

一款程式設計師的工作協作AI神器:KoalaWiki,這是一個基於AI的代碼知識庫平台,可以自動解析你的Git代碼倉庫,生成比較詳細、結構化的代碼文件和項目見解

支持添加和管理多個Git代碼倉庫
倉庫分析完成後,可通過導航樹瀏覽代碼文件

這個項目可以用於新開發人員快速上手、遺留項目的知識梳理、技術文件標準化等等

專案地址: github.com/AIDotNet/KoalaWiki

3.5.2025 04:49#開源分享...
https://mastodon.social/@yongshu...

#開源分享...

https://mastodon.social/@yongshu...

新出的一款輕量級音訊模型:Aero-1-Audio,1.5B參數,在一些基準上表現出了與Whisper、Qwen-2-Audio相當甚至更優的性能,尤其是在參數效率方面

它是基於Qwen-2.5-1.5B構建的,核心是能處理15分鐘的連續音訊,並且無需分割成小塊,這使它的整體理解的連貫性和穩定性比較好

支持語音識別、音訊理解、音訊指令遵循等任務

在語音識別任務中,其在AMI、LibriSpeech以及SPGISpeech等數據集的測試子集上取得了最低的詞錯誤率

適合在資源受限情況下部署高品質音訊處理功能的場景,比如手機語音助手、會議記錄和轉寫系統、或者課堂即時語音轉寫等等

模型: huggingface.co/lmms-lab/Aero-1-Audio

2.5.2025 12:23#開源分享...
https://mastodon.social/@yongshu...

#開源分享...

https://mastodon.social/@yongshu...

直接在代碼編輯器裡查看Deepwiki內容的MCP:deepwiki-mcp,相當於內建了個文件瀏覽器,非官方的但比較實用

它通過MCP獲取Deepwiki的URL,抓取相關頁面,轉換為Markdown格式,並把結果返回給代碼編輯器

那你就可以直接在Cursor等中查看,不用再打開瀏覽器,即可即時獲取最新文件了

它可以抓取單頁或整個文件,能保持文件結構,並去除廣告/導航欄等無關內容

不需要註冊帳號或者API金鑰即可使用

專案地址: github.com/regenrek/deepwiki-mcp

1.5.2025 07:35#開源分享...
https://mastodon.social/@yongshu...

#開源分享 註冊新網站時,找個簡短好記的域名頗為頭疼,此時 Domain Scanner...

https://mastodon.social/@yongshu...

註冊新網站時,找個簡短好記的域名頗為頭疼,此時 Domain Scanner 這款域名掃描工具能派上用場。

它能幫助我們快速篩選真正可用的域名,不僅能同時檢查 DNS 記錄、WHOIS 資訊和 SSL 證書,還支持用正則表達式篩選、多執行緒並發掃描,甚至能直觀顯示已註冊域名的驗證簽名。

專案地址: github.com/xuemian168/domain-scanner

主要功能:

- 多種驗證方法綜合檢查,杜絕誤判
- 高並發多執行緒掃描,檢查速度提升數倍
- 靈活的正則表達式過濾,精準定位理想域名
- 智慧錯誤處理和重試機制,結果更可靠
- 即時進度跟蹤,直觀顯示掃描狀態
- 分類保存結果,方便後續篩選和使用

工具基於 Go 開發,複製項目代碼到本地,並安裝依賴,就能開始使用這個強大的域名掃描工具。

27.4.2025 13:20#開源分享 註冊新網站時,找個簡短好記的域名頗為頭疼,此時 Domain Scanner...
https://mastodon.social/@yongshu...

#開源分享...

https://mastodon.social/@yongshu...

想要讓玩具、公仔變得會說話、有情感,現有的方案要嘛太貴太複雜,要嘛就是需要一直連著手機,用起來特別不方便。

為了解決這些問題,GitHub 上開源項目 ElatoAI 給出了解決方案,基於 ESP32 微控制器和 OpenAI Realtime API 開發。

它能讓你的玩具變成真正的 AI 伙伴,支持超過 10 分鐘的連續自然對話,語音識別和回應都非常流暢。

專案地址: github.com/akdeb/ElatoAI

主要功能:

- 即時語音轉語音:基於 OpenAI 即時 API,對話極其自然流暢
- 自訂 AI 角色:可以設置不同的性格和聲音
- 簡單硬體設計:只需一塊 ESP32-S3 開發板即可實現
- 安全通信:使用加密 WebSocket 傳輸數據
- 全球低延遲:依靠 Deno Edge Functions 實現全球範圍內低於 1 秒的延遲

該項目的前端、伺服器和韌體代碼已開源,對 AI 玩具或 AI 伴侶等產品感興趣的開發者可以看下。

27.4.2025 13:20#開源分享...
https://mastodon.social/@yongshu...

#開源分享 英偉達新放出了一款事物描述多模態LLM:Describe...

https://mastodon.social/@yongshu...

英偉達新放出了一款事物描述多模態LLM:Describe Anything,你指定圖像或影片中某個特定區域,它能給你生成詳細的描述

可以使用點、框、塗鴉或掩碼來指定區域,能根據指令生成不同細節及風格的描述,可以進行零樣本區域問答

舉個例子,讓它描述照片裡的一隻狗,它可以告訴你:“這是一隻中等大小的紅棕色狗,有著白色的腹部和腿,尾巴濃密,耳朵尖尖,戴著帶有銀色標籤的紅色項圈……”

可以用來輔助視覺障礙人士、醫學影像分析、電商商品描述等等

除了識別目標對象,它還能描述其紋理、顏色、形狀、顯著部分等細節特徵。對於影片類輸入也一樣,除了描述單幀圖像中的對象,還能跟蹤對象在影片中的運動和變化,並描述變化

模型: huggingface.co/collections/nvidia/describe-anything-680825bb8f5e41ff0785834c
專案地址: github.com/NVlabs/describe-anything

25.4.2025 12:46#開源分享 英偉達新放出了一款事物描述多模態LLM:Describe...
https://mastodon.social/@yongshu...

#開源分享...

https://mastodon.social/@yongshu...

收集了包括Cursor、Manus、Devin、Windsurf等在內的AI工具系統提示詞庫

庫裡提供了6500+行、9個工具的系統提示詞參考,包括開源和閉源的,可以了解不同AI工具的設計思路,用來學習研究

v0、Manus、Cursor、Same、Lovable、Devin、Replit Agent、Windsurf Agent以及VSCode Agent 這9個

Cursor的提示詞強調了代碼修改的安全性、可用性以及工具使用規範,來約束AI減少幻覺;Manus也有200多行

專案地址: github.com/x1xhlol/system-prompts-and-models-of-ai-tools

25.4.2025 12:46#開源分享...
https://mastodon.social/@yongshu...

#開源分享...

https://mastodon.social/@yongshu...

一句話創建智慧體的工具:Cooragent,可與其他智慧體協作完成複雜的任務,支持MCP

有兩種工作模式:
1、Agent Factory:
只需描述,Cooragent就會根據需求生成一個智慧體,其自動分析需求,透過記憶和擴展深入理解用戶需求,挑選合適的工具自動打磨Prompt,逐步完成智慧體構建

2、Agent Workflow:
只需描述目標任務,Cooragent會自動分析任務需求,挑選合適的智慧體進行協作

提供CLI工具,可以快速創建,編輯,刪除智慧體

專案地址: github.com/LeapLabTHU/cooragent

23.4.2025 12:35#開源分享...
https://mastodon.social/@yongshu...

#開源分享...

https://mastodon.social/@yongshu...

這款“白板+代碼編輯器”的組合工具火了,pad.ws

它把白板和IDE合二為一,開發者可以在同一界面裡畫圖和編程,實現邊畫邊寫程式碼,在視覺化構思和編程之間無縫切換

用Excalidraw作為白板界面,Coder提供雲端開發環境
支持VS Code、Cursor等

專案地址: github.com/pad-ws/pad.ws

23.4.2025 12:35#開源分享...
https://mastodon.social/@yongshu...

#開源分享...

https://mastodon.social/@yongshu...

微軟髮布了一個文件轉換MCP:markitdown-mcp,用於將網頁連結(http/https)、本地文件以及數據轉換為Markdown格式!

主要是調用MarkItDown進行格式轉換。可以通過Docker運行或直接安裝,也可以與Claude等AI工具集成使用

專案地址: github.com/microsoft/markitdown/tree/main/packages/markitdown-mcp

21.4.2025 10:03#開源分享...
https://mastodon.social/@yongshu...

#開源分享...

https://mastodon.social/@yongshu...

基於人類大腦工作原理設計的一款AI記憶系統:HawkinsDB,讓AI可以像人類一樣儲存和回憶資訊

它基於Jeff Hawkins的“千腦理論”,幫助AI模型以更強大且直觀的方式管理複雜資訊

想像一下我們的大腦,不僅僅是記住一堆零散的事實,而是將它們關聯起來形成一個複雜的知識網路,HawkinsDB就是想讓AI也能像人類大腦一樣記憶和理解資訊

HawkinsDB不依賴於模糊的相似性搜索,而是支持精確的,具備上下文感知的查詢,理解數據的實際含義和關係

它將語義記憶、情景記憶和程序記憶統一到一個框架中,使AI能像知識圖譜一樣,不僅儲存資訊,還記錄資訊之間的關係,從而理解和應用不同類型的知識

可作為LLM應用的記憶層,比較適用於RAG系統

專案地址: github.com/harishsg993010/HawkinsDB

21.4.2025 10:03#開源分享...
https://mastodon.social/@yongshu...

#開源分享 一款用於構建、測試和最佳化智慧體工作流的開源工具:Sim...

https://mastodon.social/@yongshu...

一款用於構建、測試和最佳化智慧體工作流的開源工具:Sim Studio

提供可視化編輯環境,支持節點式工作流設計
支持本地AI模型

可以用來開發聊天機器人、工作流自動化、設計智慧處理流程等

專案地址: github.com/simstudioai/sim

20.4.2025 08:01#開源分享 一款用於構建、測試和最佳化智慧體工作流的開源工具:Sim...
https://mastodon.social/@yongshu...

#開源分享...

https://mastodon.social/@yongshu...

微軟開源了一個基於《當個創世神》的即時開源互動式世界模型:MineWorld,它可以根據玩家的動作預測遊戲世界接下來的變化,並即時生成新的遊戲畫面

它的核心是一個視覺動作自回歸Transformer模型,它接收遊戲場景和對應玩家動作的配對數據作為輸入,預測接下來的新場景

預測速度非常快,可以做到即時更新

它研發了一種新的並行解碼算法,可以同時預測每一幀中空間冗餘的 token,使不同規模的模型能夠達到每秒生成4到7幀的速度,實現與玩家的即時交互

專案地址: github.com/microsoft/MineWorld

19.4.2025 12:19#開源分享...
https://mastodon.social/@yongshu...

#開源分享 把Claude的工具能力移植到本地模型的Ollama...

https://mastodon.social/@yongshu...

把Claude的工具能力移植到本地模型的Ollama MCP工具:ollama-mcp-bridge

使本地AI助手具備文件操作、網路搜尋、郵件以及文件管理、代碼和GitHub交互、圖像生成以及持久記憶體等能力

支持多個MCP,具備動態工具路由功能,支持結構化的輸出驗證,可根據提示自動檢測工具

專案地址: github.com/patruff/ollama-mcp-bridge

19.4.2025 12:19#開源分享 把Claude的工具能力移植到本地模型的Ollama...
https://mastodon.social/@yongshu...
Subscribe
To add news/posts to your profile here, you must add a link to a RSS-Feed to your webfinger. One example how you can do this is to join Fediverse City.
         
Webfan Website Badge
Nutzungsbedingungen   Datenschutzerklärung  Impressum
Webfan | @Web pages | Fediverse Members

⬆️

⬇️