機(jī)器視覺與AI的機(jī)會
近年來,傳統(tǒng)科技公司和新創(chuàng)公司競相將機(jī)器視覺與人工智能/機(jī)器學(xué)習(xí)結(jié)合,使其能夠超越傳感器像素數(shù)據(jù),從而在各種應(yīng)用中開創(chuàng)新的機(jī)會。這一結(jié)合的潛力巨大,相關(guān)的新創(chuàng)公司在交通運(yùn)輸、制造業(yè)、醫(yī)療保健和零售等各個市場中籌集了數(shù)十億美元的資金。然而,要充分實現(xiàn)其潛力,這項技術(shù)需要應(yīng)對許多挑戰(zhàn),包括提高性能和安全性,以及設(shè)計靈活性。
從根本上講,機(jī)器視覺系統(tǒng)是軟件和硬件的結(jié)合,可以以數(shù)字像素的形式捕捉和處理信息。這些系統(tǒng)可以分析圖像,并根據(jù)其編程和訓(xùn)練來采取相應(yīng)的行動。典型的視覺系統(tǒng)包括圖像傳感器(攝像頭和鏡頭)、圖像和視覺處理組件(視覺算法)以及SoCs(片上系統(tǒng))和網(wǎng)絡(luò)/通信組件。
無論是靜態(tài)圖像還是視頻數(shù)字相機(jī),都包含圖像傳感器。汽車感測器(如激光雷達(dá)、雷達(dá)、超聲波)也能以數(shù)字像素形式提供圖像,盡管分辨率可能不同。盡管大多數(shù)人對這些類型的圖像都很熟悉,但機(jī)器也能夠“看見”熱和音頻信號數(shù)據(jù),并分析這些數(shù)據(jù)以創(chuàng)建多維圖像。
Synopsys公司的戰(zhàn)略市場經(jīng)理Ron Lowman表示:“在過去幾年中,CMOS圖像傳感器取得了顯著的改進(jìn)。傳感器的帶寬不再優(yōu)化用于人類視覺,而是用于提供人工智能的價值。例如,主導(dǎo)視覺傳感器接口的MIPI CSI不僅提高了帶寬,還增加了智能ROI(Region of Interest)和更高的顏色深度等人工智能功能。雖然這些顏色深度增加對人眼來說無法察覺,但對于機(jī)器視覺來說,它可以大大提高服務(wù)的價值。”
機(jī)器視覺系統(tǒng)由軟件和硬件組成,其中關(guān)鍵的組件是圖像傳感器。在過去幾年中,CMOS圖像傳感器取得了顯著的改進(jìn),這使得傳感器的帶寬不再僅僅優(yōu)化于人類視覺,而是為了提供人工智能的價值。MIPI CSI作為主要的視覺傳感器接口,不僅增加了帶寬,還增加了智能ROI(Smart Region of Interest)和更高的顏色深度等人工智能功能。雖然這些顏色深度的增加對人眼而言無法察覺,但對于機(jī)器視覺來說,它可以大大提高服務(wù)的價值。
除了圖像傳感器外,機(jī)器視覺系統(tǒng)還包括圖像和視覺處理組件以及片上系統(tǒng)和網(wǎng)絡(luò)/通信組件。這些組件協(xié)同工作,使機(jī)器能夠理解和解釋圖像數(shù)據(jù)。圖像和視覺處理組件包括視覺算法,它們能夠分析圖像并根據(jù)其訓(xùn)練和編程進(jìn)行相應(yīng)的處理。此外,片上系統(tǒng)和網(wǎng)絡(luò)/通信組件則負(fù)責(zé)數(shù)據(jù)處理和傳輸,以實現(xiàn)機(jī)器視覺系統(tǒng)的功能。
圖 1:機(jī)器視覺系統(tǒng)包括用于執(zhí)行圖像處理和分析的硬件、軟件和芯片。 AI 通常是解決方案的一部分,并且 MV 通常連接到云。 來源:Arcturus 網(wǎng)絡(luò)
機(jī)器視覺是計算機(jī)視覺的一個子集,兩者在很大程度上依賴于對圖像數(shù)據(jù)的觀察來推斷信息。然而,機(jī)器視覺更加強(qiáng)調(diào)在工業(yè)或工廠環(huán)境中的“檢測類型”應(yīng)用。Cadence公司的Tensilica Vision and AI DSPs的產(chǎn)品管理、市場營銷和業(yè)務(wù)拓展總監(jiān)Amol Borkar指出,機(jī)器視覺在感測方面高度依賴攝像頭。然而,“攝像頭”這個詞是個負(fù)面詞,因為我們通常熟悉的是一個能夠產(chǎn)生RGB圖像并在可見光譜范圍內(nèi)運(yùn)作的圖像傳感器。不過,根據(jù)應(yīng)用的不同,這些傳感器可以在紅外線下運(yùn)作,包括短波、中波、長波紅外線或熱成像等多種變體。最近還引入了對運(yùn)動非常敏感的事件相機(jī)。在裝配線上,線掃描相機(jī)是與典型的快門相機(jī)略有不同的一種變體。當(dāng)前的汽車、監(jiān)控和醫(yī)療等大多數(shù)應(yīng)用都依賴于這些傳感器中的一個或多個,通常結(jié)合使用以實現(xiàn)比單個攝像頭或傳感器更好的感測融合結(jié)果。
機(jī)器視覺相較于人類有著更出色的視覺能力,這使得機(jī)器視覺在制造業(yè)中能夠提高生產(chǎn)力和品質(zhì),降低生產(chǎn)成本。與自動駕駛輔助系統(tǒng)(ADAS)結(jié)合使用時,機(jī)器視覺能夠接管部分駕駛功能。此外,搭配人工智能,機(jī)器視覺能夠協(xié)助分析醫(yī)學(xué)影像。
應(yīng)用機(jī)器視覺的好處包括更高的可靠性和一致性,以及更大的精確度和準(zhǔn)確度(取決于攝像頭的分辨率)。而且,與人類不同,機(jī)器在獲得例行維護(hù)的前提下不會感到疲勞。視覺系統(tǒng)的數(shù)據(jù)可以在本地或云端存儲,需要時進(jìn)行實時分析。
此外,機(jī)器視覺通過檢測和篩選出有缺陷的零件,降低生產(chǎn)成本。同時,通過OCR(光學(xué)字符識別)和條碼掃描讀取,提高了庫存控制的效率,從而降低整體制造成本。
如今,機(jī)器視覺通常與人工智能結(jié)合使用,大大增強(qiáng)了數(shù)據(jù)分析的能力。在現(xiàn)代工廠中,自動化設(shè)備,包括機(jī)器人,與機(jī)器視覺和人工智能結(jié)合,以提高生產(chǎn)力。
機(jī)器視覺(MV)和人工智能(AI)是密切相關(guān)的領(lǐng)域,它們通常以各種方式進(jìn)行交互。機(jī)器視覺利用攝像頭、傳感器和其他設(shè)備捕捉圖像或其他附加數(shù)據(jù),然后將其進(jìn)行處理和分析,以提取有用的信息,而人工智能則使用算法和統(tǒng)計模型來識別模式并基于大量數(shù)據(jù)進(jìn)行預(yù)測。
這還可以包括深度學(xué)習(xí)技術(shù)。Arteris IP公司的產(chǎn)品市場副總裁Andy Nightingale表示:“深度學(xué)習(xí)是人工智能的一個子集,它涉及使用大量數(shù)據(jù)對復(fù)雜的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以識別模式并進(jìn)行預(yù)測。”機(jī)器視覺系統(tǒng)可以使用深度學(xué)習(xí)算法來提高其在圖像或視頻中檢測和分類對象的能力。機(jī)器視覺和人工智能之間的另一種交互方式是通過使用計算機(jī)視覺算法。計算機(jī)視覺是機(jī)器視覺的一個超集,它使用算法和技術(shù)從圖像和視頻中提取信息。人工智能算法可以分析這些信息并預(yù)測場景中正在發(fā)生的事情。例如,計算機(jī)視覺系統(tǒng)可以使用人工智能算法分析交通模式并預(yù)測何時某個十字路口可能會擁堵。機(jī)器視覺和人工智能還可以在自主系統(tǒng)(如自動駕駛汽車或無人機(jī))中進(jìn)行交互。在這些應(yīng)用中,機(jī)器視覺系統(tǒng)用于捕捉和處理來自傳感器的數(shù)據(jù),而人工智能算法則解釋這些數(shù)據(jù)并對環(huán)境進(jìn)行導(dǎo)航等決策。
人工智能在現(xiàn)代車輛中扮演著越來越多的角色,但其中兩個主要的角色是感知和決策制定。
Siemens Digital Industries Software公司的混合和虛擬系統(tǒng)副總裁David Fritz表示:“感知是通過車輛內(nèi)部和外部的感測器陣列來理解周圍環(huán)境的過程。決策制定首先需要理解周圍環(huán)境的狀態(tài)和目標(biāo),例如向目的地移動。然后,人工智能根據(jù)控制方向盤、制動、加速等車輛內(nèi)部致動器的方式來決定安全、有效的路線。”這兩個關(guān)鍵角色涉及到非常不同的問題。從攝像頭或其他感測器獲得的原始數(shù)據(jù),AI算法將使用這些數(shù)據(jù)進(jìn)行目標(biāo)檢測。一旦檢測到目標(biāo),感知系統(tǒng)將對目標(biāo)進(jìn)行分類,例如該目標(biāo)是否是汽車、人或動物。訓(xùn)練過程非常冗長,需要大量的訓(xùn)練集來展示不同角度的目標(biāo)。在訓(xùn)練完成后,AI網(wǎng)絡(luò)可以加載到數(shù)字孿生體或?qū)嶓w車輛中。一旦檢測到并分類了目標(biāo),另一個訓(xùn)練有素的AI網(wǎng)絡(luò)可以進(jìn)行決策,控制方向盤、制動和加速等。使用高保真度的數(shù)字孿生體來虛擬驗證這個過程已被證明比純粹使用實地測試更安全、更有效。
開發(fā)人員經(jīng)常問到需要多少AI/ML。在現(xiàn)代工廠的情況下,機(jī)器視覺可以僅用于在裝配線上檢測和篩選出有缺陷的零件,或者用于組裝汽車等工序。后者需要更高級的智能和更復(fù)雜的設(shè)計,以確保裝配過程中的時機(jī)、精確度、運(yùn)動和距離的計算等。
Flex Logix公司的執(zhí)行官Geoff Tate觀察到:“機(jī)器視覺和機(jī)器人在現(xiàn)代工廠中提高了生產(chǎn)力,許多應(yīng)用中使用了人工智能。一個簡單的
應(yīng)用,例如檢測標(biāo)簽是否正確貼上,不需要太多智能。另一方面,進(jìn)行復(fù)雜、精密的三維運(yùn)動的機(jī)器人手臂需要更多的GPU算力。在第一個應(yīng)用中,一個AI IP的核心將足夠,而在第二個應(yīng)用中可能需要多個核心。擁有靈活且可擴(kuò)展的AI IP將使機(jī)器視覺和機(jī)器人的設(shè)計更加容易。
機(jī)器視覺的應(yīng)用幾乎沒有限制,只受想象力的限制。只要需要視覺和圖像處理的工業(yè)和商業(yè)領(lǐng)域,機(jī)器視覺都可以應(yīng)用其中。以下是部分應(yīng)用領(lǐng)域的例子:
交通領(lǐng)域(自動駕駛、車內(nèi)監(jiān)控、交通流量分析、違規(guī)行為和事故檢測);
制造和自動化領(lǐng)域(生產(chǎn)力分析、質(zhì)量管理);
監(jiān)控領(lǐng)域(運(yùn)動和入侵檢測);
醫(yī)療領(lǐng)域(影像學(xué)、癌癥和腫瘤檢測、細(xì)胞分類);
農(nóng)業(yè)領(lǐng)域(農(nóng)場自動化、植物病害和昆蟲檢測);
零售領(lǐng)域(顧客追蹤、貨架缺貨檢測、盜竊檢測);
保險領(lǐng)域(通過圖像進(jìn)行事故現(xiàn)場分析)。
還有許多其他應(yīng)用。以飲用水或軟飲料瓶裝為例。機(jī)器視覺系統(tǒng)可以用于檢查填充水平,這通常由高效的機(jī)器人完成。但是機(jī)器人偶爾會犯錯。機(jī)器視覺可以確保填充水平一致,并確保標(biāo)簽正確貼上。
檢測任何偏離測量規(guī)范限制的機(jī)器零部件也是機(jī)器視覺的一項工作。一旦機(jī)器視覺根據(jù)規(guī)范進(jìn)行了訓(xùn)練,它可以檢測出超出規(guī)范限制的零部件。
機(jī)器視覺可以檢測均勻的形狀,如正方形或圓形,以及奇形怪狀的零部件,因此它可以用于識別、檢測、測量、計數(shù),并與機(jī)器人一起進(jìn)行抓取和放置。
最后,通過結(jié)合人工智能,機(jī)器視覺可以實現(xiàn)輪胎組裝的精確和高效。如今,原始設(shè)備制造商(OEM)使用機(jī)器人自動化車輛組裝的過程之一是安裝四個輪胎。利用機(jī)器視覺,機(jī)器人手臂可以檢測正確的距離,并施加適當(dāng)?shù)膲毫Γ苑乐谷魏螕p壞的發(fā)生。
機(jī)器視覺技術(shù)根據(jù)處理的圖像維度可以分為一維(1D)、二維(2D)和三維(3D)。這些不同的類型在應(yīng)用中具有各自的特點和優(yōu)勢。
一維機(jī)器視覺系統(tǒng)主要用于條形碼和二維碼的識別和讀取。它們通常使用掃描設(shè)備,按行掃描產(chǎn)品上的條形碼或二維碼,并從中提取信息。這種技術(shù)被廣泛應(yīng)用于零售行業(yè)、物流和運(yùn)輸領(lǐng)域,以實現(xiàn)快速且準(zhǔn)確的產(chǎn)品識別和追蹤。
二維機(jī)器視覺系統(tǒng)可以用于更復(fù)雜的圖像處理任務(wù)。它們使用攝像頭逐行掃描物體,形成一個區(qū)域或二維圖像。這種技術(shù)可以應(yīng)用于圖像分類、目標(biāo)檢測、人臉識別等各種任務(wù)。在工業(yè)自動化中,二維機(jī)器視覺系統(tǒng)可以用于檢測和驗證產(chǎn)品的外觀特征,確保產(chǎn)品符合設(shè)計和質(zhì)量要求。
三維機(jī)器視覺系統(tǒng)通常使用多個攝像頭或激光傳感器來捕捉物體的三維形狀和結(jié)構(gòu)。這種技術(shù)可以實現(xiàn)對物體的精確定位和測量,對于需要進(jìn)行三維分析和處理的應(yīng)用非常重要。例如,在機(jī)器人導(dǎo)航和自動化領(lǐng)域,三維機(jī)器視覺系統(tǒng)可以用于對環(huán)境進(jìn)行三維建模和障礙物檢測,實現(xiàn)更精確和安全的運(yùn)動控制。
除了以上提到的類型,還有其他形式的機(jī)器視覺技術(shù),如超光譜影像和熱像儀等。超光譜影像可以捕捉物體的不同光譜特征,擁有更豐富的信息,廣泛應(yīng)用于農(nóng)業(yè)、食品安全和醫(yī)療診斷等領(lǐng)域。熱像儀則可以檢測物體的熱能分布,用于溫度監(jiān)測、火災(zāi)檢測等應(yīng)用。
每種機(jī)器視覺類型都有其特定的應(yīng)用場景和優(yōu)勢。根據(jù)不同的需求,選擇適合的機(jī)器視覺類型可以提高系統(tǒng)的性能和效果,實現(xiàn)更準(zhǔn)確、高效和可靠的圖像處理和分析。
訓(xùn)練機(jī)器視覺系統(tǒng)仍然存在一些挑戰(zhàn)。MV的準(zhǔn)確性和性能取決于其訓(xùn)練程度,因此需要大量的標(biāo)注數(shù)據(jù)和強(qiáng)大的計算能力。MV設(shè)計所面臨的挑戰(zhàn)包括:
首先,檢測的范圍可能涵蓋方位、表面變化、污染程度以及直徑、厚度和間隙等精度容限。當(dāng)檢測到化妝品和服務(wù)變化效應(yīng)時,3D系統(tǒng)通常比1D或2D系統(tǒng)表現(xiàn)更好。然而,在遇到不尋常的情況時,人類可以借助其他領(lǐng)域的知識,而機(jī)器視覺和人工智能可能無法具備這種能力。
其次,數(shù)據(jù)流管理和控制是當(dāng)今的關(guān)鍵挑戰(zhàn)之一,特別是在具有實時延遲要求(例如汽車應(yīng)用)的情況下,同時需要保持帶寬的最小化。在基于攝像頭的系統(tǒng)中,圖像質(zhì)量(IQ)至關(guān)重要。這要求硬件設(shè)計支持超寬動態(tài)范圍和局部色調(diào)映射,同時還需要進(jìn)行IQ調(diào)整,傳統(tǒng)上需要由人類專家進(jìn)行主觀評估,使得開發(fā)過程冗長且成本高昂。然而,對于機(jī)器視覺而言,這種專業(yè)知識可能不一定能獲得良好系統(tǒng)性能,因為感知引擎可能會根據(jù)任務(wù)的不同而更喜歡以不同于人類和其他機(jī)器之間的方式看待圖像。
此外,確保機(jī)器視覺的安全性也是一個重要問題。隨著網(wǎng)絡(luò)攻擊不斷增加,確保產(chǎn)能不受干擾或遭受來自威脅行為者的干擾至關(guān)重要。尤其在關(guān)鍵應(yīng)用中,如自動駕駛等,保證機(jī)器視覺的安全性至關(guān)重要。
"安全對于確保機(jī)器視覺技術(shù)的輸出不受破壞至關(guān)重要," Arm的Zyazin表示。"汽車應(yīng)用是展示硬件和軟件安全性重要性的一個很好的例子。例如,從機(jī)器中處理和提取的信息會影響到制動或車道保持輔助等決策,如果處理不當(dāng),可能對車輛內(nèi)部的乘客構(gòu)成風(fēng)險。"
總結(jié)來說,訓(xùn)練機(jī)器視覺系統(tǒng)的過程面臨著一些挑戰(zhàn)。為了提高準(zhǔn)確性和性能,需要豐富的標(biāo)注數(shù)據(jù)和強(qiáng)大的計算能力。同時,確保機(jī)器視覺的安全性也是一個重要問題,特別是在關(guān)鍵應(yīng)用如自動駕駛中。這些挑戰(zhàn)需要在系統(tǒng)設(shè)計和實施中得到充分考慮,以實現(xiàn)可靠和高效的機(jī)器視覺應(yīng)用。
新興的機(jī)器視覺(MV)創(chuàng)業(yè)公司和創(chuàng)新技術(shù)正推動著機(jī)器視覺的應(yīng)用和發(fā)展。像是Airobotics、Arcturus Networks、Deep Vision AI、Hawk-Eye Innovations、Instrumental、lending AI、kinara、Mech-Mind、Megvii、NAUTO、SenseTime、Tractable、ViSenze、Viso等公司,正在開發(fā)新的機(jī)器視覺解決方案,其中一些已成功籌集了超過10億美元的資金。
在運(yùn)輸領(lǐng)域,保險公司可以利用機(jī)器視覺來分析事故場景的照片和視頻,進(jìn)行財務(wù)損害評估。基于人工智能的機(jī)器視覺還可以用于安全平臺,分析駕駛行為,提升道路安全性。
在軟件領(lǐng)域,創(chuàng)業(yè)公司正在開發(fā)無需編程知識的計算機(jī)視覺平臺,使更多人能夠使用機(jī)器視覺技術(shù)。機(jī)器視覺身份驗證軟件也是市場上的一個創(chuàng)新解決方案。
體育產(chǎn)業(yè)也在探索人工智能、視覺和數(shù)據(jù)分析的潛力,以向教練提供有關(guān)選手在比賽中的決策過程的洞察。此外,有一家創(chuàng)業(yè)公司通過將人工智能和機(jī)器視覺結(jié)合到無人機(jī)設(shè)計中,提出了一種節(jié)省成本的監(jiān)視方案。
機(jī)器視覺和人工智能都在快速發(fā)展,其性能,包括準(zhǔn)確度和精確度,不斷提高。高性能GPU和機(jī)器學(xué)習(xí)能力的成本也有望降低,推動新的機(jī)器視覺應(yīng)用的應(yīng)用。
Arteris公司的Nightingale表示,隨著硬件(如傳感器、攝像頭和處理器)的進(jìn)步以及算法和機(jī)器學(xué)習(xí)模型的改進(jìn),機(jī)器視覺系統(tǒng)的準(zhǔn)確性和速度將得到進(jìn)一步提高。深度學(xué)習(xí)算法尤其在近年來推動機(jī)器視覺技術(shù)的進(jìn)步方面發(fā)揮了重要作用,并有望在未來扮演更重要的角色。這些算法能夠自動學(xué)習(xí)數(shù)據(jù)的特征和模式,從而提高準(zhǔn)確性和性能。機(jī)器視覺系統(tǒng)將具有更強(qiáng)大的能力,能夠快速而準(zhǔn)確地處理和分析大量的數(shù)據(jù),從而開展更為復(fù)雜和
智能的應(yīng)用。
此外,預(yù)計機(jī)器視覺和人工智能將與其他技術(shù)相結(jié)合,提供更多高性能、實時的應(yīng)用。
Nightingale指出,機(jī)器視覺技術(shù)已經(jīng)與機(jī)器人技術(shù)和自動化等其他技術(shù)整合,這一趨勢有望持續(xù)發(fā)展,我們可能會看到更多機(jī)器視覺在醫(yī)療保健、交通和安全等領(lǐng)域的應(yīng)用。此外,對于需要實時處理的應(yīng)用,機(jī)器視覺技術(shù)已經(jīng)被廣泛應(yīng)用,例如人臉識別和物體追蹤。未來,我們可能會看到更多需要實時處理的應(yīng)用,例如自動駕駛汽車和無人機(jī)。
機(jī)器視覺(MV)的設(shè)計涉及芯片(處理器、存儲器、安全芯片)、IP核、模塊、固件、硬件和軟件的結(jié)合。芯片組件和多芯片封裝的推出將使這些系統(tǒng)能夠更容易、更快速地進(jìn)行組合,添加新功能,提高系統(tǒng)的整體效率和能力。
Winbond的DRAM經(jīng)理Tetsu Ho表示:“已知良好晶片(KGD)解決方案可以提供成本和空間效率高于有限接觸點和線材的封裝產(chǎn)品的替代方案。”這有助于提高設(shè)計效率,提供增強(qiáng)的硬件安全性能,特別是產(chǎn)品上市的時間。這些晶片經(jīng)過熱激測試,測試程度與離散部件相同。 需要KGD 2.0來確保2.5D/3D組件和2.5D/3D多芯片設(shè)備的末端良率,以實現(xiàn)帶寬性能、功耗效率和面積等PPA的改進(jìn),這是由邊緣計算和人工智能等技術(shù)爆炸所推動的迷你化趨勢。
這將為機(jī)器視覺在新舊市場中開拓新的選擇。它將用于在自動駕駛中協(xié)助人類,幫助機(jī)器在制造業(yè)中實現(xiàn)精確高效,并通過無人機(jī)進(jìn)行監(jiān)控。 此外,機(jī)器視覺將能夠探索對人類而言危險的地方,并為保險、體育、交通、國防、醫(yī)療等眾多領(lǐng)域提供數(shù)據(jù)輸入和分析。
隨著技術(shù)的不斷發(fā)展和應(yīng)用的擴(kuò)大,機(jī)器視覺將繼續(xù)成為推動自動化、智能化和數(shù)字化革新的關(guān)鍵技術(shù)之一。機(jī)器視覺系統(tǒng)的進(jìn)一步提升和創(chuàng)新將為我們的生活和工作帶來更多的便利和效益。無論是在工業(yè)生產(chǎn)、醫(yī)療保健、交通運(yùn)輸還是其他領(lǐng)域,機(jī)器視覺的應(yīng)用都將繼續(xù)拓展,為未來的科技發(fā)展帶來更多的可能性。