谷歌AIY Voice Kit智能語音開發套件安裝和使用體驗
農步祥 于 2019.03.11 03:00:47 | 源自:www.soomal.com | 版權:原創 | 平均/總評分:09.75/39
  • 要如何更深入了解人工智能科技?那么谷歌AIY一定是值得考慮的項目,AIY的含義就是以DIY方式折騰AI。雖然絕大多數人會對樹莓派和紙盒子喇叭沒什么興趣,再加上語言的天然阻礙,但AIY的確是是谷歌人工智能三駕馬車的精簡化集合,AIY項目包括了語音套件[Voice Kit]、視覺套件[Vision Kit]和看起來最高科技的TPU單元[EDGE TPU],包含了智能語音、計算視覺和深度學習等人工智能的核心應用的開發硬體。

    硬體分析

  • 語音套件[AIY Voice Kit]是AIY項目中最便宜也是上手簡單的一款,也是三款產品中對代碼編程基礎要求最低的套件,所以從它開始技術性了解智能語音是比較合適的。由于谷歌提供的助手和語音轉文字API已經比較成熟可靠,開發者主要是開發技能和插件等進行練手。當然Soomal并不是開發者網站,主要還是以把玩的角度來看待。而且作為專業學習用途缺乏通用性,AIY裝置熱門程度也不是特別高,Google Play上官方AIY應用下載量也就一萬左右,當然玩AIY主要靠電腦,手機APP并不是必需品。

    我們在中,對智能喇叭硬體解析的例子就是這套語音套件,由于購買時間較早,我們手上這坨紙盒還是1.0版的,2.0版主要是改善了紙模的安裝和固定效果。住的注意的是官方網站的安裝說明書是針對更小的樹莓派Zero,這個用于樹莓派3的AIY套件其實是“非官方性能版”,軟體和系統是完全通用的,整套價格不到400元人民幣,貳包含樹莓派Zero的官方版反而要貴不少。除了耀眼的紙板,AIY的核心組件還有一個使用樹莓派2/3主機板GPIO針腳的主控板,它控制著音頻IO以及物理開關、供電等功能。窄條的則是拾音板,有兩顆MEMS微型麥克風進行拾音,支援遠場拾音但效果不算特別好。整個組件最喜感的自然是頂部那顆超大物理按鍵,常混街機廳的80后和90后應該非常眼熟,瞬間把智能喇叭拉回到上世紀90年代審美,而且手感奇差無比,按鍵自帶LED燈,可以作為夜燈照明使用。一個4歐阻抗3W功率的3英寸喇叭負責發聲。

    安裝設定

    DIY是AIY的一部分,按照英文說明書的步驟安裝也比較簡單,先安裝好按鍵,固定好樹莓派和電路板、揚聲器,然后裝入紙盒并接上連線即可。當然智能喇叭光有硬體是無法工作的,還需要一個簡化的作業系統,那么自然是樹莓派常用的Linux了。系統部分谷歌官方提供了包含源的代碼定制的Raspbian系統,Raspbian就是一種基于ARM處理器編譯的Debian Linux系統。系統安裝也和Volumio OS、Moode類似,不過在Github上谷歌的系統鏡像檔案是.xz后綴,解壓縮后使用Win32diskimager寫入一張容量至少8GB的MicroSD卡就完成了系統的安裝。

  • 雖然有了硬體和作業系統,但智能喇叭還離不開互聯網,這部分才是AIY的開始。喇叭聯網的方式有兩種:1、打開紙盒,長按控制板上的按鍵5秒,使用手機的AIY應用進行藍牙配對,然后輸入無線接入的密碼即可實現聯網;2、直接接上鍵鼠和顯示器,喇叭會自動啟動一個精簡的Xfce圖形桌面,通過設定向導設定無線網路。由于是完整的Linux系統,因此這臺智能喇叭同時也是一臺上網沖浪的迷你電腦,只是非常卡。當然也可以直接連網線在路由器管理界面上看IP。

    從這里開始就需要用戶有一定的Linux使用經驗了,使用putty等ssh客戶端工具遠程登入至喇叭的命令行[預設用戶名/密碼為pi/raspberry]。首先來測試聲音是否正常工作,運行/home/pi/AIY-projects-python/checkpoints/check_audio.py,按照提示進行語音輸出和輸入功能的測試,確定正常后運行alsamixer命令調整音量。 用戶也可以通過系統桌面自帶的游戲和影音功能進行聲音測試。在確保系統、聲音和麥克風正常后,就可以進入應用的配置。

    初步使用體驗

    當成功進入系統和聯網后,喇叭也沒有任何預想的功能,所以我們還需要運行語音服務。用戶需要在谷歌的Cloud Platform上啟用項目并激活Google Assistant的API,如果需要自定義命令和應用開發,就需要申請收費的語音轉換服務[Cloud Speech-to-Text]了,云服務為每個月60分鐘使用免費,額外時長為0.024美元/分鐘。這些部分需要在谷歌的網站上完成創建項目、創建API和注冊裝置等操作,按照AIY網站提示操作即可,這里就不再重復。

    當所有準備完成后,用戶可以在ssh上運行/AIY-voice-kit-python/src/example/voice下的示例檔案進行體驗了。運行assistant_grpc_demo.py可以通過按按鍵激活語音交互,使用“OK,Google”語音命令激活則運行assistant_library_with_button_demo.py,從現在開始就可以體驗紙盒的基礎語音功能了。

  • 所謂“基礎功能”,就是不包含任何多媒體相關的內容,僅支援簡單的語音交互,如時間、天氣、日歷鬧鐘提醒和百科等,對于學習研究來說也基本足夠,在加入Google Home后也可以對智能家居裝置進行控制,例如通過語音控制Shield TV、Chromecast等裝置播放是沒有問題的。在手機Home應用中,AIY喇叭自身被識別為一盞燈,可以使用語音和手機控制按鍵燈的明暗和開關。由于演示DEMO程式不具備任何多媒體相關功能[包括藍牙喇叭]以及新聞資訊播報等,這里就不再進行對比和詳細測試。

    總結

    由于樹莓派3B支援5G WiFi網路,因此AIY的響應速度絕對是一個巨大優勢,相較于中低價位的國產智能喇叭,2.4G的延遲甚至比繞地球半圈傳輸數據的谷歌助手云服務還要慢,也解決了人口密集的城市小區里2.4G和藍牙干擾導致的各種異常鬼叫的問題。整個后臺智能語音服務使用Python開發,因此各類插件功能都必須通過Python相關的設定和下載完成。

    由于系統是樹莓派和帶圖形桌面的Linux系統,在可擴展性上也是相當強大豐富的,也可以安裝游戲、多媒體播放器、VoIP軟體進行網路通話等充實喇叭服務端的功能,系統已經內置了LibreOffice、《我的世界》等辦公和娛樂應用,可以直接進行游戲、打字和寫代碼等,但語音交互功能就要靠自己寫Python代碼擴展了。在音質方面,AIY套件的聲音動態和音量表現要遜于普通的智能喇叭,但聲音風格正常,用來簡單聽聽音樂不是問題。

    由于完全使用谷歌的智能語音云服務,從純技術角度來說,谷歌的識別準確度、速度和糾正能力都能通過后臺日志進行分析,在英語世界的優勢還是巨大的,而且支援的語言種類也是最多的。當然,畢竟Google Home還是沒有中文功能還是很遺憾的。但AIY的本質還是DIY,既然有了硬體有了系統,自然也會有國內的智能語音開發入口跟進,如果有時間,我們也會對通過這個AIY紙盒喇叭對中文的wukong-robot等智能語音開發平臺進行體驗。

    請評分
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    03
    請收下我的膝蓋
    此帖使用HTC 2Q55300提交
    發表于2019.03.13 07:24:58
    10
    03
    換個塑料殼會好看很多!
    發表于2019.03.12 11:26:28
    9
    10

    此帖使用Win10提交
    發表于2019.03.12 00:52:44
    8
    03
    住的注意=》值得注意
    發表于2019.03.11 20:11:15
    7
    121.032.179.***
    121.032.179.***
    發表于2019.03.11 19:12:32
    6
    171.111.***.***
    171.111.***.***
    消費時代,也就是一兩年的使用時間
    此帖使用iPhone提交
    發表于2019.03.11 19:05:03
    5
    03
    感覺挺有意思的
    此帖使用iPhone提交
    發表于2019.03.11 15:09:27
    4
    211.143.230.***
    211.143.230.***
    發表于2019.03.11 13:47:42
    3
    03
    就是需要專業人士玩一玩了。
    此帖使用Win10提交
    發表于2019.03.11 09:45:19
    2
    03

    此帖使用Android裝置提交
    發表于2019.03.11 09:35:31
    1
    提示
    本貼可以匿名回復 ,您現在正處在潛水狀態
    回復
    驗證碼
    2102 為防止廣告機貼垃圾,不得已而為之
    表情
    正文
    京ICP備11010137號 京ICP證110276號 京公網安備110114000469號