Edge AI Class 快速導覽
這學期的專題作業
- EdgeAI MCU System Diagram
- AI 輔助分類回收系統
- AI 監視錄影系統
- AI 看圖說故事
- AI 輔助英語教學
- AI 情緒感知音樂播放器
- AI 盲人導航系統
- AI 盲人視覺輔助系統
- 總體心得
EdgeAI MCU System Diagram
graph TD
subgraph EdgeAI MCU System
AMB82_mini -->|連接| 4_2_寸螢幕
AMB82_mini -->|連接| 鏡頭
AMB82_mini -->|連接| 按鈕
AMB82_mini -->|連接| SD_card
AMB82_mini -->|連接| 喇叭
AMB82_mini -->|連接| Wifi_模組
Wifi_模組 --> Gemini
end
AI 輔助分類回收系統
本報告旨在介紹一個基於邊緣 AI 技術的輔助回收系統。該系統利用 Realtek AMB82_mini 微控制器作為核心處理單元,整合影像辨識與語音互動功能,旨在實現對回收物品的自動識別與語音指引,從而提升回收效率與正確性。
AI 監視錄影系統
本報告旨在介紹一個基於人工智慧的智慧型監視錄影系統。該系統利用先進的影像捕捉與雲端 AI 分析技術,實現對環境變化的自動化監測與記錄。不同於傳統錄影系統的持續錄製,本系統透過每分鐘捕捉影像並傳送至 Google Gemini Vision 進行智慧分析,僅在偵測到場景發生實質性變化時才儲存相關影像與文字描述。
AI 看圖說故事
本報告旨在介紹一個創新的AI 看圖說故事系統。該系統旨在將視覺內容轉化為富有想像力的故事情節,為使用者提供獨特的互動體驗。透過按下按鈕捕捉影像,系統會將圖像傳送至強大的 Google Gemini Vision AI 進行分析,並由 AI 根據圖像內容即時編寫一個童話故事
AI 輔助英語教學
本報告旨在介紹一款創新的AI 輔助英語教學系統,旨在為英語學習者提供即時、互動且個性化的學習體驗。該系統的核心功能是結合視覺辨識、語音合成與自然語言處理能力,模擬一位智能家教。當使用者按下按鈕拍攝單字卡影像後,系統會立即將圖像傳送至 Google Gemini Vision 進行單字辨識,隨後透過系統會將辨識出的單字發送至 Google Gemini LLM,由 AI 即時生成一個例句。
AI 情緒感知音樂播放器
本報告旨在介紹一款創新的AI 情緒感知音樂播放器。該系統旨在透過人工智慧分析用戶當前的情緒狀態,並據此智能推薦並播放儲存在本地 SD 卡中的相應音樂,為使用者提供個性化的音樂聆聽體驗。其核心機制是捕捉用戶影像並傳送至 Google Gemini 進行情緒偵測,隨後 AI 會根據偵測到的情緒,從預設的歌曲清單中推薦最符合當前情感的歌曲名稱。
AI 盲人導航系統
本報告旨在介紹一款專為視障人士設計的AI 盲人導航系統。該系統旨在提供即時的語音定位輔助,幫助視障者更獨立、安全地探索周遭環境。其核心功能是透過掃描特定地點的二維碼 (QR Code),迅速獲取二維碼內嵌的文字資訊(即地點名稱)。隨後,系統會利用文字轉語音 (Text-to-Speech, TTS) 技術將這個地點名稱轉換為清晰的語音指令,並立即透過音訊輸出裝置播放出來。
AI 盲人視覺輔助系統
本報告旨在介紹一款創新且多功能的AI 盲人視覺輔助系統。該系統旨在透過整合多種感官輸入與先進人工智慧,為視障人士提供即時、全面的環境感知與語音導引。其核心功能包括:透過觸摸感應觸發系統;隨後,系統會拍攝當前影像並傳送至 Google Gemini Vision 詢問現場狀況;同時,它會將實時時鐘 (RTC) 時間資訊發送給 Gemini,以獲得時間相關的回應;更進一步地,系統支援麥克風錄製用戶語音並傳送給 Gemini 進行理解,AI 將返回相關文本回應,最終所有來自 Gemini 的文本都將透過文字轉語音 (TTS) 播放出來
總體心得
這學期在邊緣運算課程中進行的七個專題實作,是一段極具挑戰性且收穫豐盛的學習旅程。透過這些專案,我對 Edge AI 的核心概念、微控制器 (MCU) 的應用,以及 雲端 AI 服務 (如 Google Gemini) 的整合有了更深層次的理解。
首先,AMB82_mini 作為核心開發板,展現了其在邊緣端處理能力與連結雲端服務的強大潛力。從最初的硬體架設,包括連接鏡頭、按鈕、SD 卡、喇叭和 Wi-Fi 模組,到後續的軟體編程,每一個環節都讓我對嵌入式系統的複雜性與精妙之處有了更直觀的認識。尤其是 Wi-Fi 模組與 Gemini 雲端服務的串接,是實現所有 AI 應用功能的關鍵,這讓我體會到邊緣端與雲端協同運作的重要性。
這七個專案涵蓋了 AI 在不同應用場景的多元性,每一個都解決了特定的問題並提供了獨特的價值:
- AI 輔助分類回收系統:讓我了解到 AI 在環保領域的實用性,如何透過視覺辨識提升回收效率。
- AI 監視錄影系統:改變了我對傳統監控的認知,理解到「事件驅動」的智慧監控能有效節省資源。
- AI 看圖說故事:這是一個極富創意的專案,讓我看到 AI 不僅能分析,更能進行創造性地內容生成,為娛樂和教育帶來無限可能。
- AI 輔助英語教學:透過結合視覺辨識、語音合成和 LLM 造句,展現了 AI 在個性化教學輔助上的潛力,這是我個人認為最實用且具前景的應用之一。
- AI 情緒感知音樂播放器:這個專案讓我思考 AI 如何理解人類情感並給予「情緒回應」,為用戶提供更貼心的互動體驗。
- AI 盲人導航系統:雖然功能較為單一(掃描二維碼播報位置),但其對社會弱勢群體的幫助意義重大,讓我意識到科技應以人為本。
-
AI 盲人視覺輔助系統:這是最複雜但也最令人印象深刻的專案,整合了觸摸、影像、時間和語音等多模態輸入,讓 AI 成為視障者的「眼睛」和「耳朵」,提供全面且即時的環境感知。 在實作過程中,我也面臨了許多挑戰,例如:
- 硬體調試:確保各個模組(尤其是攝影機和音訊)能穩定工作並與 MCU 正確通訊。
- 網路連線與 API 呼叫:穩定可靠地連接 Wi-Fi 並與 Google Gemini / TTS API 進行高效的數據交換,是影響系統響應速度的關鍵。
- AI Prompt 設計:如何精確地撰寫 Prompt,讓 Gemini 按照預期返回所需的資訊(例如:情緒偵測後的歌曲推薦、單字造句、現場狀況描述),需要反覆嘗試和優化。
- 資源管理:在有限的 MCU 資源下,如何處理影像、音訊等大量數據,並確保系統的穩定性與流暢性。
- 錯誤處理與異常應對:考量網路不穩定、API 返回錯誤等情況,設計 robust 的錯誤處理機制。
總之,這些專案不僅加深了我對邊緣 AI 技術的理解,更培養了我解決問題、系統整合和跨領域協作的能力。我學會了如何從一個抽象的想法開始,逐步拆解問題,選擇合適的硬體與軟體工具,最終將概念轉化為具體的應用。這次專題作業讓我對 AI 在未來生活中的無限可能性充滿期待,也激發了我未來繼續深入探索 Edge AI 領域的熱情。