人工知能・組み込み制御や自動制御関係への応用
◆ 人工知能・組み込み制御や自動制御関係への応用  更新 2024.10.25

▼ CPUやGPU, NPUのTinyML-RunTimeベンチマーク 2023.02.02 更新 2024.10.25

 近年、CPUやGPU&NPUプロセッサはデープラーニング学習モデル・データの処理性能が大幅に向上しており、ロボットとFA関係制御や自動車関係の自動運転に利用されている。
 そのCPUやGPU&NPUプロセッサのTinyML-RunTimeランタイム・ベンチマーク性能の実行時間を計測し下記に纏めました。 2023.02.02

 制御関係では、画像処理・物体検出を除けば人口知能処理のNN や DNN, BNN, CNN(畳み込み機械学習)等が必要なく、計算処理が重い畳み込み計算処理では高性能なGPUプロセッサが必要となり消費電力が大きくなので独自のシンプルな学習機能がベターであり、制御関係の学習機能は約45年前(1977年頃に)に実現されており多くの製品を実用化おります。人口知能処理が新技術ではない。 作成 2024.01.20 更新 2024.10.25

 MPU & CPU タイプ
Cifar10
(32 x 32)
VWW Tensor
(96x 96)
MobileNet
(128 x 128)
 消費電力
 備 考
 iMac i5 Quad 3.3GHz
1.2ms
5.6ms
10ms
 95W (CPU)
Clang-LLVM -O2
 iMac i5 Quad 3.3GHz SSE2
0.7ms
----
6.0ms
 95W (CPU)
SSE2 Clang -O2
 MacBookPro i7 3.4GHz
1.5ms
----
10.1ms
 35W (CPU)
Clang -O2
 MacBookPro i7 3.4GHz
0.65ms
----
6.1ms
 35W (CPU)
SSE2 Clang -O2
 MacBookAir Core2 1.6GHz
7.5ms
----
32ms
 35W? (CPU)
Clang-LLVM -O2
 MacBookAir i5 1.6GHz
5.2ms
----
38ms
 35W? (CPU)
Clang-LLVM -O2
 MacBookAir i5 1.6GHz
3.2ms
----
27ms
 35W? (CPU)
SSE2 Clang -O2
 NanoPi Neo H3 A7 816MHz
18ms
----
----
 実測 420mW
 gcc-8.3.0 -O2
 NanoPi Neo H3 A7 816MHz
8ms ※-3
----
35ms
 実測 420mW
 gcc -O2 neon
 Android Tab. A7 1.0GHz
13.1ms
----
-----
 35 W
And.NDK gcc -O3
 Android Tab. A7 1.0GHz
5.6ms
----
-----
 35 W
gcc -O3 neon
 Android Tab. A53 1.3GHz
10.3ms
----
-----
 35 W
And.NDK gcc -O3
 Android Tab. A53 1.3GHz
4.4ms
----
-----
 35 W
 gcc -O3 neon
 Android Tab. A53 2.0GHz
2.8ms ※-5
----
25ms
 TDP 5 W
clang -O2 neon
 Android Tab. A53 2.0GHz
6.1ms 
----
-----
 TDP 5 W
 clang -O2
 Android Tab. A72 2.0GHz
0.95ms ※-6
----
13ms
 TDP 10 W
clang -O3 neon
 Android Tab. A72 2.0GHz
4.2ms
----
-----
 TDP 10 W
clang -O3
 Android スマホ A76 2.6GHz
2.1ms ※-11
----
-----
 9W
And.NDK gcc -O3
 Android スマホ A76 2.6GHz
0.52ms
----
-----
 9 W
 gcc -O3 neon
 Android スマホ A76 2.2GHz
4.2ms ※-9
----
-----
 TDP 10W
And.NDK gcc -O3
 Android スマホ A76 2.2GHz
0.55ms
----
-----
 TDP 10W
 gcc -O3 neon
 PC i7 3.5〜4.9GHz NonGPU
 Python3
0.15s〜
1.5s ※-1
----

-----

 約320W
他サイトより引用
 PC i7 3.5〜4.9GHz GPU
 Python3
80ms

----

-----

 約320W
他サイトより引用
 RX66T 160MHz
65ms
----
-----
 実測 70mW
 gcc-8.3.0 -O2
 RX66T 192MHz
55ms ※-7
----
-----
 実測 70mW
 gcc-8.3.0 -O2
 RX72N 240MHz
45ms
----
-----
 実測 160mW
 gcc-8.3.0 -O2
 Ras Pi Pico(M0+) 133MHz
535ms ※-10
----
-----
 約80mW
 Arduino-cli gcc
 Cortex-M4/72MHz
338ms
----
-----
 実測 115 mW
 gcc-12.2.1
 nRF52 BLE(M4)64MHz
360ms ※-8
----
-----
 約130mW
 gcc-7.4.0
 ESP32-LX6 240MHz
195ms
----
-----
 540mW
 Arduino-CIi gcc
 ESP32-C3 160MHz
209ms
----
-----
 170mW
 Arduino-CIi gcc
 RISC-V RV64GCV 1.0GHz
17ms ※-4
----
-----
 実測 330mW
 gcc -O2 ※-2
 Milk-V Duo RV64 1.0GHz
20ms ※-14
----
-----
 実測 360mW
 gcc -O2 ※-2
 Orange Pi Zero 2 A53 1.5GHz
9.5ms
----
-----
 実測値 2 W
 gcc-7.5 -O2
 Orange Pi Zero 2 A53 1.5GHz
3.1ms ※-12
----
-----
 実測値 2 W
 gcc -O2 neon
 Raspberry Pi-2 A7 900MHz
22.1ms
----
-----
 実測値 3 W
 gcc -O2
 Raspberry Pi-2 A7 900MHz
9.9ms
----
-----
 実測値 3 W
 gcc -O2 neon
 Raspberry Pi-4 A72  1.5GHz
12.0ms
----
-----
 実測値 4 W
 gcc-8.3 -O2
 Raspberry Pi-4 A72  1.5GHz
3.6ms ※-13
----
-----
 実測値 4 W
 gcc -O2 neon
 Raspberry Pi-5 A76  2.4GHz
1.4ms
----
-----
 実測値 4 W
 clang-16 -O2
 Raspberry Pi-5 A76  2.4GHz
0.7ms ※-15
----
-----
 実測値 4 W
 clang -O2 neon

 注 ): マルチ・スレッド(Multi-Thread)処理により最適化すれば、Octaコアで6〜7倍程度の性能向上となるので、そのブログラミングに挑戦中です。しかし、Multi-ThreadとSIMD計算処理を同時に最適化しなければならず難易度が高い。そのページはこちらです。2024.01.03
  RISC-Vコア関係はこちらのページです。

 Android タブレットとスマートフォンは NDK r14bでコンパイルした。gcc バージンが古い gcc-4.9であり最新のARMコアへの最適化が不十分であり、最新のNDKであればClang+LLVMとなっており、もっと良い結果がでるはずです。更新2023.07.03

 ※-14: 低消費電力で低価格なMilk-V Duo(C906コア)は1,000円程度と激安であり、低速なESP32やラズパイ・ピコRaspberry Pi Pico(Cortex-M0+)等を利用するよりも10〜20倍と高性能です。2024.01.03

  ※-15: Raspberry Pi-5(Ubuntu-23.10上)の性能はCore i5 & i7 コアと同等な性能であり組込み関係での利用価値がある。RasPi-5ボードの必要な供給電力 0.7A〜0.8A/h(コア約4W)と低消費電力であり、10時間程度の駆動時には 8A/hバッテリーでよい。 2024.03.17
 最近、発売した Intle N100コア・小型ボードはN100コア消費電力 TDP 6Wとなってあるが、Max. 25Wであり実力値でも10〜25W程度であり、小型ボードの必要な供給電力がAC/DCアダプター60W(DC19V/3.3A)となっており低消費電力とは言えない。組込み関係で利用するには10時間程度の駆動時33A/hバッテリー(大型乗用車なみ)が必要となる。他のx86-64 + GPUコア(Ryzen 7等)のボードも同様に低消費電力でないので利用価値がない。 2024.03.17

 ※-12, 13: Raspberry Pi-4(RasBian)Orange Pi Zero 2(Ubuntu-18.04)と同等な結果であった。RasBianのgccがARMv8に最適化ぜすARMv7に最適化してあるため性能が若干低いRaspberry Pi-4が低価格ではなく利用メリットがなく、激安のOrange Pi Zero 2(販売価格約2,300円)で充分であるようです。 更新 2023.10.22

 ※-7 : RX66Tは 192MHzで動作し異常なチップ表面の加熱もなく、240MHzでも動作が可能でしょう。更新2023.06.08

 ※-8 : nRF52(Cortex-M4)/ 64MHzは Raspberry Pi Pico (RP2040)よりもTinyML性能がよい。RP2040には浮動小数点演算ユニット(FPU)がないのでTinyMLのfloat計算をソフトMath計算となり極端に低速となってしまう。更新2023.06.08

 ※-10: RP2040はOpenOCD ST-LinkでのSRAMへ書込みができなかった。J-Linkでは確認していないが他サイトで書込みが可能なようです。残念なことにArduino-cliでビルドするとライブラリが91kバイト程度もSRAMを占有してしまう、SRAM容量264kBの内91kBを使用するのでアプリ・サイズを100kB程度以内に抑えなければならない。更新2023.06.24
    そのArduino-cli ライブラリーはメモり関係のバグがあると突然ぶっ飛び訳のわからないメッセージが表示し横取りされてしまう、製品に組込み利用に問題がある。
    RP2040はSDKライブラリーを利用しないとRP2040のレジスター関係の設定が難解でありプログラミングが大変であった。RP2040を利用するメリットがなくチップが格安なだけである。更新2023.06.24

 ※-3 : 低価格なNanoPi Neo(Allwinner H3 cortex-A7)BoardではNeonに最適化した結果、Intel i5 1.6GHzに近い性能であった。そのNanoPi Neoの消費電力が約420mWと低消費電力であるが、一方、MacBookAir-i5 (1.6GHz)はACアダブター41Wが必要であり、ベアメタル(BareMetal NonOS)組込み関係での利用には向かない。2023.04.08
    ARM系NEONは128ビットSIMDであり、16ビット整数演算であれば32ビット演算よりも4倍程度の演算性能となるはずであるが、実性能が約2倍であった。x86-64系のSIMD-SSE2も同様であった。2023.04.16

    激安なLicheePi-Zero(Allwinner V3s cortex-A7)ボードではLinuxやRealTime RTOSなしのベアメタルで利用するため、クロス・コンパイラーgccによりMCUのSiP種々初期設定しなければならず簡単ではなく、SoC(DE, TCON, LVDS-LCD)やSiP (SDRAM)64MBメモリ関係の独特な初期設定では難航した。試行錯誤し、レイトレーシング表示等も安定して動作するようになったが、TinyML-RunTime処理性能がNaonPi Neoに対し1/10程度であった。SiP (SDRAM)64MBメモリのデータ転送性能が低いのか不明であったので再度原因究明にトライする予定です。更新2023.04.08

 ※-1 : PCではi7(12core)CPU+GPU(9TFLOPs)構成であり、その消費電力が120+200W=320W程度とヒーターなみとなり、組込み関係での利用が困難である。
 他サイトのPythonによる画像1万枚〜6万枚のデープラーニンク゛では、PCのCPU+GPU構成の高性能なシステムでも機械学習(マシン・ラーニング)時間が数時間(8時間程度)となるそうです。更新2023.02.17

 自動車関係ではNVIDIAのGPUがシェアーが多く、テスラ社の電気自動車ではテスラ社が独自のAI-チップを製品化し実装している。自動車メーカーもAI-NPUチップを開発する時代となったとはずが、テスラ社は新規の独自CPU+GPU・開発を中止したようです。訂正 2024.01.29

 ※-6 : AndroidタブレットCortex-A72 x 4, 2.0GHzはインテルCore i5 2.8GHz・PCに近い性能であった。Androidタブレットの消費電力がCore i5 2.8GHz・PCに対し約10分1です。更新2023.05.13

 ※-5 : AndroidタブレットCortex-A53 x 4, 2.0GHzはインテルCore i5 1.6GHzノートPCと同等な性能であった。Androidタブレットの消費電力がCore i5 1.6GHzノートPCに対し約10分1でありインテルのコアが電力食いであり無駄なロジック回路が多いのであろう。

 ※-4: 前回2023.02.17)、RISC-VコアのRV64GCVはクロス・コンパイラーgccをソースコードからコンパイルし構築した結果、安定した動作となり問題なく利用できるようになった。更新2023.02.17
    RISC-Vコアにはベクトル拡張・並列計算ユニットがあるので計算性能がアップするが、そのベクトル拡張の最適化プログラミング法の技術情報が少なく難易度が高そう。更新2023.04.16

 RISC-Vコアのベクトル拡張(RVV)Vector Extensionがgccではインライン・アセンブラでプログラミングする必要があり難易度が高い。Clang+LLVMではCソース・コードでプログラミングが可能。しかし、残念なことにRISC-VのClang+LLVM・クロスコンパイラーバイナリーが配布されていないので、自前でClang+LLVMソースコードをコンパイルする必要があるがLinux環境ではないとコンパイルできない。更新2023.05.29

 ※-4 : 中国製低価格なRV64GCVコア・ボードのCifar10ベンチマークを実施したが、ニューラル・ネットワーク(NN)計算処理が安定した動作とならず、その原因が不明です。無償クロス・コンパイラーgccのToolchainに問題がありそうであり(解決済み)、自前でクロス・コンパイラー環境を構築し実施する予定です。更新2023.02.17

 Google社ではAndroidをRISC-Vコアに正式に対応するので、遂に激安なスマホAndroid端末が発売されそうです。
RISC-Vコア系は組込み関係以外でもタブレットPCやノートPCも製品化されており、RISC-Vコア・アンドロイド・スマホが製品化されそうであり、今後、RISC-Vコアの製品が増加することでしょう。更新2023.06.08

 RX66TのTinyML-RunTimeの処理性能は65ms/160MHzと70mWの低消費電力であり、小型のリチウム・バッテリー200mAhや単4乾電池で駆動できる製品に利用が可能である。
 120MHzのRX65NやRX63N,RX64M,RX66NではCifar10ベンチマークが約87msであり、人工知能制御等に利用が可能です。更新2023.02.17
 RX66TのSRAM容量が64kバイトであり、MobileNetのベンチマークが無理であり、ESP32も同様であった。しかし、画像処理でない制御用の小容量学習モデル・データであれば実現が可能です。

 Pythonを利用すると高性能のディストップPCが必要となり、人工知能処理用のAI制御ボードのために約320W(27Ah)のバッテリーが1時間駆動で最低27Ahとなり、約10時間駆動する為に400Ah程度のバッテリーを実装することになり非現実的であり組込み関係での利用が困難である。更新2023.02.17

 ※-9 : 格安なZTE・スマートフォン はSoC・Dimensity 700であり、Android 12であるがZTE社のMyOSであるため操作が若干異なる。性能上ではインテル・ コア i5, i7 3GHz とほぼ同等であり中国製のスマホも充分使える。更新2023.06.24

 ※-11 : 格安なスマートフォン AQUOSはSoC・Snapdragon 845であり、2万円以下の格安なスマホとしてはインテル Core i7/3.4GHz とほぼ同等の性能であり体感的には4GHz〜5GHzなみに感じる。但し、ARM系コアは省電力な仕様となりバッテリー消費を低減するためダイナミック・ボルト/周波数スケーリング機能(DVFS)により動作周波数が抑制されるのでデッスクトップPCなみの性能を期待でない。更新2023.06.24


▼ 生成AIの生成した情報の危険性と疑問 2024.01.03 作成

 近年、生成AIの話題が多く、国の行政機関や地方自治体では生成AIの利用を促進しておりますが、その生成AIが生成した情報に危険性が多い。
 ネット上の信憑性のない情報や作為のある間違った情報を集めて生成する情報の危険性があり疑問と言わざるを得ません。既に生成AIが犯罪の利用されており、当然、法的な規制が必要であるが、その議論と検討が不充分と思われます。 2024.01.03

 現状のCPUコアやGPUコアの技術による人口知能処理・ディープ・ラーニング(機械学習)の膨大な学習データの処理に疑問。そのページはこちらです。2024.01.06


 制御関係では、画像・物体検出を除けば人口知能処理のNN や DNN, BNN, CNN等が不要であり、独自のシンプルな学習機能で充分です。 2024.01.29
 こちらのページを参照。

 その組込み関係での高機能なマイコンとARM系ボードを一体化したAI制御ボード関係のの人工知能・制御ボード関係はこちらです。更新2023.05.01
 小型MCU+低消費電力なARMコア->  

 種々のコア・人工知能TinyML-RunTimeベンチマークはこちらのページです。
 レイトレーシング(RayTracing)ベンチマークはこちらのページです。
 For-Loopベンチマークはこちらのページです。
 激安のRISC-Vコアボードが魅力的、RISC-V関係はこちらのページです。
 Multi-Threadベンチマークはこちらのページです。
 脳ニューロン・シナプス関係はこちらのページです。
 超低消費電力なMPU関係はこちらのページです。 更新 2024.03.18


▼ 組み込み関係のニューラル・プロセッサ 2020.09.12 作成、 2024.06.25 更新

 近年、組み込み関係のプロセッサでも利用できる人工知能(AI)対応のニューラル・プロセッサが増えており、そのデバイス・チップの消費電力が気になり下記に比較し纏めました。

 デバイス・チップ  処理方式  消費電流/電力  AI処理性能(TOPs)  備考
 RK3566  NPU  ?  0.8 A55 x 4 2.0GHz
 RK3588 ※-1  NPU, GPU-G610  ?  6.0 A76 x 2 2.4GHz,A55x4
 RV1103 ※-4  NPU  ?  0.5 A7 1.2GHz + RISC-V 400MHz
 NM500  NeronCore  150mW  0.085 NeronCore x 576
 K210(RISC-V)  KPU(NPU)  300mA/1.5W  0.25 Dual Core 400MHz
 K230(RISC-V)※-3  KPU(NPU)  ?  ? Dual Core 1.6GHz/800MHz
 K510(RISC-V)  KPU(NPU)  2 W  2.5 Dual Core 800MHz
 BL808(RV64)  NPU  820 mW  0.1 Triple Core 480MHz
 TH1520(RV64)  NPU+GPU+DSP  ? W  4.0 C910 x 4 1.8GHz+E902
 JH7110(RV64)  GPU  5 W  ? U74 x 4 1.5GHz
 V831,V833,R329  NPU  Max. 1.3 W  0.2~0.25 Allwinner, Dual CPU ARM
 V851,V853  NPU+A7+E907  ? W  0.5~1.0 Allwinner, Dual CPU
 H616, H313  GPU Mali-G31  ? W  ? Allwinner Cortex-A53
 A523 ※-5  GPU Mali-G57  ? W  2.0 Allwinner Cortex-A55 Octa
 Cortex-M7  ML  100mA ?  ? Single-CPU Core
 RZ/V2H ※-7  DRP 10TOPs/W  7 W  80 DRP-AI3, CPU A55 x 4, R8 x2
 RZ/A2M  DRP 1TOPs/W  ? W  1.0 以上 DRP Class2, CPU ARM
 RA シリーズ  NPU (U55)  ? W  0.7 CPU Cortex M85
 Cortex-A72等  GPU Mali-G52  3~5W ?  0.65 CPU Octa Core , or Quad
 S922X(A311D)  NPU  ? W  5 Amlogic, CPU ARM
 RK3399  NPU (RK1808)  ? W  2.4~5.6 Rockchip, CPU ARM
 FPGA  BNN  0.4 GOPs/10mW  0.4 以上 IP-Core
 ECP5  FPGA BNN  500mW  0.58 以上 IP-Core
 Jetson-nano  GPU  5~10W  1.7 ARM CPU Core
 MT6885Z  APU  ? W  4.5 MediaTek Dimensity
 T710, T760, T770  NPU  5~6 W  2.5~4.8 A76+A55 Unisocスマホ
 T606, T610, T618  GPU Mali-G57  5~6 W ?  ? A75+A55 Unisocタブレット
 Snapdragon 865  NPU  5~6 W  15 ARM CPU Core スマホ
 A13 Bionic  NPU 8core  3~6 W  6 ARM CPU Core スマホ
 A14 Bionic  NPU 16core  7 W ?  11 ARM CPU Core スマホ
 Apple M1  NPU 16core  ? W  11 ARM CPU Core スマホ
 Apple M2 Max &Pro  NPU 16core  TDP 10〜22 W  16 MacBookPro
 Jestson-AGX-Orin  GPU 2,048core  60 W  275 (INT 8) Cortex-A78AE x12 1.6GHz
 Jestson-Orin-nano  GPU 2,048core  15 W  40 (INT 8) A78AE core x 6
 Jestson-Xavier-NX  GPU 48core  20 W  21 (INT 8) ArmV8.2 core x 6
 Jestson-AGX-Xavier  GPU 512core  30 W  22 (INT 8) A76AE core x 8
 Hailo-8L ※-6  エッジ AI Core  1~2.3W  13 Ras Pi-5 用 PCIe ボードあり
 R-Car V3U  CNN-IP core  ? W  60 Cortex-A76 Core x 8
 R-Car V4H  CNN-IP core  ? W  34 Cortex-A76 x 4 1.8GHz, R52 x 3
 RA6M4+NPU ※-2  NPU 98MHz  100 mW  0.02 Cortex-M33 200MHz

 計算処理性能 : TOPs 兆演算回数/秒
 他にもNPU等を内蔵したデバイス・チップがあり組み込み関係での応用と利用が可能です。

 ※-1 組込み関係で利用可能な高性能で低価格ボードが8nmプロセス製造されており、OrangePi 5 のRK5588(RockChip)が利用価値がある。RK5588実装ボードはBananaPiのBPI-W3もある。国産品でないので大変残念。2023.01.15

 ※-2 Tiny RASynBoardはSyntina社のNDP120チップとの組み合せたボードであり、NDP120チップが超低消費力で高性能でありノートPCを遥かに凌駕している。NDP120コアのAI処理性能がCortex-M4/120MHzよりも約40倍高性能である。RXコアかRAコアとNDP120コア内蔵したチップを製品化していただきたい。2023.04.16

 ※-3 K210よりも高性能なK230タイプRISC-V(C908)Dual 1.6GHz/800MHzが公開され、その仕様がKPU, DPU, VPU 2.5D-GPUとAI計算処理に向いているようです。ボードはCanMV-K230 eMMC 4GB, DDR3 512Mb, LCD-I/F MIPI の仕様です。2023.10.21

 ※-4 中国のRockChipからRV1103 Cortex-A7とRISC-V Dual 1.2GHz/400MHzのSoCが発売されている、その仕様がNPU 0.5TOPs, Camera-I/F MIPIDPUと画像AI計算処理に向いているようです。他にもRV1106, RV1108, RV1109, RC1126タイプもある。ボードはLuckFox PICO RV1103の仕様でなんと価格が$10とライズ・ビコの価格です。2023.10.21
 ※-5 中国のAllwinner社製 A523 SoCは激安タブレットで製品として販売されているが、組込みボード用としての販売がなく残念です。プロセス製造が22nmであり、NPU 性能が2.0TOPsですが、プロセス製造14nmの製品販売が遅れているようです。 2023.11.03
 中国のUnisoc社製 T606 SoC(12nm)も激安タブレットで製品として販売されているが、組込みボード用としての販売がなく残念です。 2023.11.03

 ※-6 ラズベリーパイ-5用イスラエル製のHailo-8Lチップ・小型ホードが13,000円程度で販売されており、価格が10万以上のNVIDIA社製Jetson-Orin Nanoボードよりも格段に低価格であるので利用価値がある。その性能が13TOPsであり、ResNet-50ベンチマーク性能がJetson-Orin Nanoよりも若干低いが、Jetson-Orin Nanoの消費電力7〜15Wと低消費電力でないのでHailo-8Lのほうがよい。但し、PCIeバス接続なのが大変残念。他にもHailo-8( 26TOPs ), Hailo-15H( 20TOPs ), Hailo-15L等がある。2024.06.25
 ※-7 RZ/V2HはJetson-Orin NanoよりもResNet-50ベンチマーク性能が約1.3倍であるが、残念なことに価格が高い、低価格のRXコアに性能を低くしたDRPコアを搭載すればよいと思う。ルネサス社に期待したい。 2024.06.25

 スマートフォン等ではGPUに8ビット演算処理を追加しニューラル・プロセッサの代用としているチップもあるが、人口知能処理には向かいようである。専用のNPUを追加したプロセッサ・チップが徐々に増えつつある。
 スマホ用の高性能なCPUデバイスは小ロットで入手が困難であり、一般的な製品に利用が難しい。

 現状ではFPGAが消費電力の面で優位性があり、組み込み関係で小型化が可能である共に低価格な製品に組み込み低コストが可能です。
 余談ではあるが果たして深層学習ディープ・ラーニングが人口知能(AI)に向いているのか疑問を感じる他の処理方式でも可能であると思います。組み込み関係では学習データを簡単に制作できず煩雑である。

 ARM系コアには人工知能処理用NPU搭載のCortex-M55とCortex-M85があるが、このコアのMCU製品が発表されない、大変残念である。
 中国製のMPU+NPUようなのSoCとSiP構造のRXv3コア・タイプも16nm程度のプロセス製造で製品化されるようルネサス社に期待したい。2022.05.08
 Cortex-M85コア+NPU(U55)のRAシリーズが5月末に製品化され待望のQFPパッケージで2023年に発売となる。2022.06.07

 Nvidia Jetson-AGX Orin GPU + NPU の性能が200TOPsと高性能であるが冷却ファンが必要であり、消費電力も60WとPCなみとなっている。2022.06.20

 国産のCPUコアやNPU,GPUコア等のの研究・開発が2017年頃から進んでいない、東北大の磁気トンネル結合MTJ+CMOS Hybridコアが70nmプロセス製造で0.27mm2面積にCPU+Vector Core, 20MHz/0.6mW(600uW),1000TOPs/W相当と超低消費電力であり、1GHzならば30mW相当の低消費電力性能となる。2022.06.20

 他にも磁気抵抗メモリ・スピン注入磁化反転型(STT-MRAM)メモリ技術は従来の3〜10nmプロセス製造CPUコアやSRAMメモリの約1/100〜1/600の低消費電力であり、フラッシュの代替えとなり、TSMCの主流なFinFET(多層3nm製造)等よりも高性能で低消費電力なAIマイコン200MHz/50uW(0.05mW)の製品化が可能であろ。2022.06.20

 但し、TSMC社もSTT-MRAMメモリ技術の製品化を進めているので、日本製の半導体製造がますます遅れことになり、大学と数社の半導体製造メーカーが一体となり、台湾や中国に対抗しなければ日本製の半導体製品が消滅してしまうのではないだろうか。台湾では20箇所で最先端2〜7nmプロセス製造半導体製造工場建設を急ピッチで進めており、国内では熊本のTSMC社工場の建設完成が2024年度であり、それも時代遅れの16〜22nmプロセス製造の半導体である。2022.06.20

 上記の表以外にも世界中のスタートアップ・ベンチャー企業が低消費電力なNPUチップのGAP8, GAP9, NDP120, NDP100, NDP102, NDP200等を製品化しており、消費電力が約100mW以下で、そのTinyML-Keywordベンチマーク性能が約1.0〜4.0ms(ms : 1000分の1秒)と驚きであり、人工知能計算処理性能に関してはディスクトップPCやノートPCを遥かに凌駕している。但し、これらのNPUチップは少量では購入できないので大変残念だ。2023.04.16

 世界の半導体開発・設計や製造メーカーは増加しており、そのコスト競争が益々厳しくなっており国内の製造メーカーは台湾や韓国、中国、欧米等のメーカーにコスト競争と開発・製造技術で負けており大変残念である。今頃になって、国では大手関連企業へ補助金や助成金を支給し半導体製造工場を整備しようとしているが、既に遅く税金の無駄遣いとなるであろう。2023.04.16


▼ 組み込み関係用GPU&NPUのMLPerfベンチマーク 2022.07.24

 近年、組み込み関係のGPU&NPUプロセッサの機械学習(ML)処理性能が大幅に向上しており、ロボット制御や自動車関係の自動運転に利用されている。
 そのGPU&NPUプロセッサのMLPerfやTinyMLPerfベンチマーク性能が公開されており、他のサイトより引用し下記に纏めました。

デバイス
チップ
Nerual
Language
Processing
Image
Segmentation
Processing
Image
Classifi-
cation
Object
Detection
(Large)
消費電流
電力
AI処理
性能
(TOPs)
 備 考
Snapdragon
8 Gen 1
 101  752  2,221  1,139  10W  27 X1 3.0GHz x1
A710 2.5GHz x3

A510 1.8GHz x4
Snapdragon
888
 23  270  942  461  9W  26 X1 2.8GHz x1
A78 2.42GHz x3

A55 1.8GHz x4
Snapdragon
778G
 10  136  936  502  5W  ? A78 2.4GHz x1
A78 2.2GHz x3

A78 1.8GHz x4
Google
Tensor
 69  216  942  461  9W  5.7 X1 2.8GHz x2, A55x4
A76 2.25GHz x2

S922X

 ?  4
Offline
Samples
4/s
 ?  5W ?  5 A73 1.7GHz x4
A53 1.7GHz x2

Mali-G52 MP6
Ras Pi 4

 ?  3
Offline
Samples
3/s
 ?  5W ?  ? A72 1.5GHz x4
GPU
Demensity
D1200
 9  66  589  259  5W  ? A78 3.0GHz x1
A78 2.6GHz x3

Mali G77
Apple
A15
 14  31  612  327  6W  15.8 armv9 3.2GHz x6
GPU

Intel
Xeon 8380H
 26  ?  943  ?
250W
 ? 2.9〜4.3GHz x28
GPU

Intel
Core i7 1195G
 25  111  556  251  28W  ? 2.9〜5.0GHz x4
GPU

NVIDIA Jetson
AGX Xavier
 96  18  2,039  ?  30W  32 A76AE x8
GPU Core 12

NVIDIA Jetson
AGX Orin
 476  ?  6,138  327  60W  200 A78AE 1.8GHz x 12
GPU Core 2,048

 ノートPC関係のチップはスマホ関係のチップに対し極端に消費電力が30W程度と大きく組込み関係に向かない。ノートPC関係のチップよりもスマホ関係のチップのほうが4〜7倍もML性能が高性能である。
スマートフォン関係のチップではに消費電力が10W以下であり、NVIDIAのGPUは消費電力が25〜30WであるがML性能がノートPCよりも11〜19倍と高性能である。2022.07.24


▼ MCUやスマホ用MPUのAI-BenchMark 2022.08.19

 近年、組み込み関係MCUやスマホ用MPUチップ内蔵GPUやNPUの機械学習(推論)処理性能が向上しており、そのMPU&MCUチップのベンチマーク(AI-Benchmark)性能が公開されており、他のサイトより引用し下記に纏めました。

SoCチップ
AI-BenchMark
v4
消費電流
電力
AI処理性能
(TOPs)
 備 考
Dimensity
9000
 692
? W
 ? X2 3.0GHz x1, A710 2.8GHz x3, A510 1.8GHz x3、
GPU Mali-G710, NPU APU-590, 4nm
Snapdragon
8 Gen 1
536
10W
27
X1 3.0GHz x1
A710 2.5GHz x3,
A510 1.8GHz x4
Google
Tensor SoC
264
9W
5.7
X1 2.8GHz x2, A55x4
A76 2.25GHz x2

Snapdragon 888
197
9W
26
X1 2.8GHz x1
A78 2.42GHz x3,
A55 1.8GHz x4
Cortex-A72
 16 (v5)
TDP 10W
 ? Fire HD 10 A72 2.0GHz x4, A53x4, GPU G72, 12nm
Cortex-A53
 13 (v5)
TDP 5W
 0.65 Fire HD 8 A53 2.0GHz x4, GPU G52, 12nm
Core i7 10510U
 29
25W
 ? 2.3〜4.9GHz, Quad, GPU UHD620, 14nm
Core i3 1115G4
 14
28W
 ? 3.0〜4.1GHz, Quad, GPU UHD , 10nm
Atom 8500
 3
2 W
 ? Quad 1.44〜2.24GHz GPU ?, 14nm
Atom 3745
 2
2 W
 ? Quad 1.33〜1.86GHz GPU HD ?, 22nm
m3-8100Y
 24
5 W
 ? Quad 1.1〜3.4GHz, GPU UHD615, 14nm
Snapdragon 865
 91
5〜6W
 15 A77 2.84GHz x4, A77 2.42GHz x3, A55x4
GPU Mali-G52 MP6
Dimensity 1200
 155
5W ?
 5 A78 3.0GHz x1、NPU ?
A78 2.6GHz x3、
GPU Mali-G77
Dimensity 820
 141
5W ?
 4.5 A76 2.6GHz x4、A55 2.0GHz x4、
GPU Mali-G57 NPU APU 3.0
S922X
 5
5W ?
 ? A73 1.9GHz x4 A53 1.7GHz x2
GPU Mali-G52 MP6
Ras Pi 4
 6
5W ?
 ? BCM8235 A72 1.5GHz x4, GPU
RK3566
 5
5W ?
 0.8 A55 1.8GHz x4, GPU G52
RK3399
 2
5W ?
 5.6 A72 1.8GHz x2, A53 1.4GHz x 4, GPU G52 , NPU

 ARM関係SoCにはCPU+GPU+NPUの構成のチップが多くなっており、その性能もノートPCなみとなっている。
消費電力5W以上のGPUやNPUでは大きいバッテリーが必要となる。
 組込み関係MCUでも消費電力1W以下のGPUやNPUを実装した高性能なAI処理NPUか MLチップやDLU内蔵のSoCを必要としている。2022.08.18


▼ 組み込み関係用のニューラル・プロセッサ 2020.07.14

 最近、組み込み関係のプロセッサでも人口知能(AI)対応のニューラル・プロセッサ(NPU)を内蔵したチップが徐々に製品化されており、組み込み関係での利用も可能な状況となっております。
 組み込み関係では、ニューラル・プロセッサは物体認識用のGPU等のような高性能なコアよりも低性能でも利用が可能であり、低消費電力タイプのほうが利用価値がある。

 ニューラル・プロセッサはFPGAでもHDLコードで8ビットのALU等コアを実装可能であるで、MPUとFPGAの構成とすれば組み込み関係のAIシステムを制作が可能である。
 但し、学習データを自動的に生成しFPGAのHDLコードを変更することが簡単ではなく、難易度がかなり高い。
 また、人口知能のプログラミングの難易度が高く簡単に人口知能予測や診断ソフト等をコーディングすることが大変であり、人口知能ソフト開発SDKなどがもっと充実することが求められる。

 故に、人口知能予測の学習データが貧弱では制御機能として役に立たなく、学習データを制作することも難易度が高く自動的に学習データを生成できるようにするには簡単ではない。
C/C++で簡易的な人口知能ソフトを制作したほうが短期間に製品を製作できる。
 当面はエッジAIコアやGPUコア, NPUコア等を利用しC/C++(gcc/g++)でソフトをコーディングしなければならず、GPUのプログラミングの敷居がかなり高い。
 Python等のプログラミング言語では大容量メモリが必要であり処理スピードが遅く制御応答性に問題があるので本格的な自動制御には向かない。


▼ 組み込み関係でのニュラル・プロセッサの利用 2018.12.02

 ARM系のプロセッサではニューラル・プロセッサ(NPU)を内蔵したチップが製品化されており、組み込み関係での利用も可能と思われる。
 そのニューラル・プロセッサを内蔵したARM系のチップはKirin980,970やExynos9810, Snapdragon845等がある。このARM系チップを利用したスマートフォンが既に発売されているが、しかし、少量での入手が困難であり残念である。
 
 組み込み関係ではFPGAを利用することで人工知能処理が可能であり、深層学習であるディープラーニング(DeepRunning)関係のBNNやCNN, DNNを利用することが可能である。
 プログラミング言語としてはディープ・ラーニングのコーディングができるPython等からのPyTorchやnGraph、TensorFlowを利用できる。
 nVIDIAのGPU関係ではCUDA ToolKit も用意されており、他のチップメーカーでもGPU関係の開発ツールキットがある。

 近年、組み込み関係ではJetson-TX2等GPUやFPGAを利用したディープ・ラーニング関係のソフト開発が可能であり、他のFPGAでもXilinxやLatticeで開発ソフトを公開している。
 人工知能ソフトの開発は量子コンピュータとも関連があり、グーグルでは2センチ角チップの量子コンピュータ・チップを開発しており、既存CPUで因数分解等の処理計算すると数千年間の時間となると言われており、量子コンピュータ・チップでは数十秒で処理が可能との発表てある。


▼ 国内では遅れているビックデータの活用や人工知能の利用 2015.01.04

 近年,ネットワークでのビックデータの活用や人工知能の開発と応用、利用が活発となっております。そのシステムの開発や商用利用等では,国内の企業はカナダや米国に比べ遅れており,グーグルとNASAの量子コンピュータやIBMのワトソン(Watson)等は成果を上げております。
 家電製品や汎用製品、自動車等に低コストの2〜3cm角サイズM2M無線機能付きセンサー・チツプやIoT無線モジュールを組み込み、その種々のデータをインターネットでビックデータ・サーバに収集することにより製品状態や使用者利用状態情報など解析すれば種々のサービスや安全管理などが可能となるであろう。

 カナダのD-Wave社製の量子コンピュータは、超伝導冷却・磁束アナログ方式のコンピュータであり,2値デジタルデータ列びを重ね合わせて一括で並列処理し,その計算処理は従来タイプの高性能プロセッサに比較し数万倍以上の処理能力があると言われております。
 国内では、光・分子素子の1分子コンピュータの開発で成果をあげておりプロセッサへの応用が可能であり,その性能は既存のスパコンよりも約1,000倍高性能と発表されています。
 上記の新技術は組み込み制御や自動制御関係への応用と利用は遠い先のことであり,既存コンピュータの技術を利用しなければなりません。
 しかし,大変残念と言わざるを得ませんが,全ての某大手企業の内部留保金が総額300兆円弱にもなると言われており,その資金の有効な活用がされているとは思われません。
 昨年度は国の公共事業予算が10兆円程度とその大部分が土建業関係であり,もっと,中小企業向けの新規試作品開発や製品開発事業の補助金を大幅に増額していただきたい。


◆ 人工知能技術を組み込み制御や自動制御に応用と利用 2015.01.04

 最近,スマートフォンやタブレットPC等のCPUはQuadやOctaの4〜8個コアが常識となりつつあり,その消費電力もPC用のCPUと比較し格段に低消費電力となっているため組み込み制御でも利用が可能な状況です。
 既存の低消費電力マルチコア・プロセッサを活用し、既存の人工知能ソフト開発環境により人工知能プログラミングをすれば高速な計算処理ではないが,人工知能推論で予測制御やファジィ制御,事例ベース推論制御等が可能でしょう。
 当然、1つのMPUチツプで全ての人工知能と自動制御をすることは大変危険なことであり,マルチ・チップ構成とすることが必須となりシステム構成の設計が重要となります。
 自動制御関係ではマルチ・プロセッサによる分散処理が常識であるので単一の高性能なプロセッサ・チップの利用をしない。万が一、人工知能処理にトラブルが発生した場合の故障診断処理等が重要となることでしょう。

 重要な原子力・火力発電設備や化学プラント整備,生産設備,高速電車,自動車などでは人工知能技術の利用が大変危険なシステムとなりがちであり,特にネットワーク利用で外部との接続では充分な検討が必須となります。外部のビック・データを活用するシステム構成等はサイバー攻撃・ウィルスソフトに対し脆弱性な自動制御システムとなっては大変な危険な事態に至る可能性もあります。


 自動制御装置や計測装置のハード・ソフト

 自動制御装置のハードとソフトを開発、及び設計製作しました、特殊なシステムの案件がありましたら是非ともご用命下さい。

  詳細はこちらのページです。

 人口知能処理・自動制御関係はこちらのページ

 遠隔操作・無線WiFi対応自動計測制御装置とウェブ(Web)監視計測システム

 ロボット制御ボード& Quad Core画像処理制御はこちらのページ

 FA関係マルチ・プロセッサ自動制御ボード・自動制御ソフト関係はこちらのページ

 計測自動制御・計測制御関係はこちらのページ

 腕時計サイズの超小型計測制御 MPU & 画像処理 DSP ボード関係

 コイン・サイズの超小型マイコン & DSP 制御ボード関係はこちらのページ

 ZigBee応用計測自動制御・計測制御関係はこちらのページ

 2.4GHz帯無線データ通信応用・特殊なひずみ量等の計測制御関係のページ

 画像処理 CPU + FPGAボード, Dual & Quad Core画像処理装置関係

 高性能マルチ CPU 高精度データロガー・計測制御関係はこちらのページ

 小型タッチ・パネル計測ボード &タブレット計測装置関係はこちらのページ

 医療関係計測ボード &タブレット計測ソフト関係はこちらのページ

 高性能・高機能タッチパネル・データロガー・計測関係はこちらのページ

 高性能・高機能タッチパネル・自動制御・計測関係はこちらのページ

 高機能な診断・解析分析搭載のタブレット自動制御システム

 高機能な診断・解析分析搭載のタブレット無線計測システム

 スマートフォン(スマホ)無線・制御計測ソフト


◆ 自動制御関係のトラブル対策

 重要な機械設備用途・自動制御関係の種々のトラブル対策概要はこちらのページです。


 自動制御装置関係の技術支援

 弊社では自動制御関係のトラブルでお困りの企業への技術支援業務をお引き受けしておりすので是非ともご用命下さい。


 本格的で高性能な小型自動制御装置

 小型でも本格的な高機能自動制御装置、汎用の小型コントーラでは不可能な複雑で高性能な自動制御が可能。
 本格的な自動制御装置は7インチタッチパネルLCD液晶表示自動制御基板はこちら

 本格的で高機能・高性能なマルチプロセッサ自動制御装置の詳細な仕様はこちらです。


 AI 用語の説明 : 機械学習、深層学習、デープラーニング(DeepLearning)、テンソル(Tensor)TensrFlow, TensorRT,
     Nerral Neteork Console(CNN), MobileNet, CIFAR, NNL, C-RunTime, DNN, BNN, NNPack, DarkNet,
     SSD, TVM, ONNC, LSTM, RNN, Caffe, Chainer, DBT, ResNet, MLP, nGraph, Keras, MXNET, CNTX,
     QNN, PyTorch, PyNum, NumPy, TinyYolo, CMSIS-NN, PolyPhny, MyHDL

 脳科学の用語説明 :  脳コンピュータ、バイオコンピュータ、脳科学、大脳、小脳、脳細胞、軸索、樹状突起、シナプス、海馬、大脳基底核、神経細胞、脳神経、自律神経、前頭葉、側頭葉、脊髄、神経ネットワーク、電気信号(活動電位)、神経伝達物質、DNA、イオン、ニューロン、スパイク発射、インパルス、電位変化、ノルアドレナリン、シナプス電位数十ミリボルト(mV) 

 用語の説明 : マイコン(マイクロ・コンピユータ)、MCU(マイクロ・コントローラユニット)、
       MPU(マイクロ・プロセッシングユニット)、CPU(セントラル・プロセッシングユニット)、
       パソコン、或はPC(パーソナル・コンピュータ), C/C++ & gcc/g++コンパイラー(Compiler)
 ARM系コア種類はCortex-A7, A8,A9,A53, A72, A73, A75, A77, A78, A15, M4, M7, M33, M85, Cortex-X1, X2, X3, A710, A715, A720 等
       Apple A11, A12, A13,A14, M1 Bionic SnapDragon 865, 855, 845, 775, 632, 425, 480, 695 Kirin 658, 970,980,990 Samusung etc..
 MCUの種類は ATmega, PIC32, ESP8266, ESP32, STM32, Xmos, PowerPC, RL78,SH2A, SH4A, H8SX,
       RX110, RX140, RX220, RX231, RX26T, RX631, RX62N, RX64M, RX65N, RX66T,RX71M,RX72M, RX72N, RX72T, RZ/A1H, RZ/Five
       RZ/A1L, Zynq FPGA, EdgeTPU 等
 オペレーティング・システム(OS) : Linux, iOS, MacOSX(Darwin), Windows, mbed, Arduino, NetBSD, FreeBSD, RTOS, FreeRTOS, iTron, Zircon, 等

 タブレット :  国産メーカー、グーグル社製、アマゾン社製、ZTE、OPPO. Xiaomi Redme, 台湾製 ASUS, ASER
 スマートフォン (携帯電話): 中華製ファーウェイ(Huawei)、OPPO 台湾製 ASUS, ASER, 国産 AQUOS


◆ 制御システム上での問題を抱えその対策でご苦労されていませんでしょうか・・・、そんな悩みがありましたら、是非とも E-Mail :こちらをクリックして下さい。
 弊社へご連絡下さい、お役に立てるようご検討致します。

 自動制御システムのトラブル対応と対策関係を全て掲示することは困難ですので、トラブルを抱えておられる方は気軽に E-Mail :こちらをクリックして下さい。
 弊社へご連絡下さい、お役に立てるようご検討致します。


 本ページの複写禁止、他サイト・ページへの転写を禁止します。 作成 2020.09.12


◆ 他のホームページは Google で検索して下さい、弊社のページはそれぞれのボタン、又はリンク先をクリックして下さい。

 http://www.google.co.jp


 リンクページ

弊社の製品一覧
弊社のソフト関係
弊社のハードとファームウェア関係
マルチ・プロセッサ自動制御装置
自動制御システム開発
生産&治具システム開発
計測自動制御装置
PID 自動御制ボード
腕時計サイズ制御ボード
ZigBee計測制御ボード
測画像処理制御ボード
ロボット制御ボード & ソフト
コイン・サイズのマイコンボード
マルチCPU高精度データロガー装置
タッチスクリーン DSP ボード
高機能・高性能データロガー
高性能・高機能自動制御ボード
人工知能 AI 自動制御計測ボード
高機能な診断・分析解析計測システム
高機能な診断・分析自動制御システム
スマートフォン無線計測ソフト
WiFi自動制御計測Web遠隔監視System

 他リンクページ

リスクファィブ(RISC-V)関係
マルチ・スレッドとマルチ・プロセス
量子コンピュータと自動制御
Linux上で組込関係ソフト開発利用
Python組込み関係利用の問題点
デジタル制御やDCS制御のページ
Linux&FreeBSDでのSCADA,HMI
SoftPLC & LinuxPLC
制御関係コンピュータのページ
実践的な制御の基礎
自動制御装置用SH-2 ボード
PowerPC関係のページ
MacOS Xのソフト開発環境関係ページ
MacOS X でのH8&SHソフト開発環境
H8S/2238組込み計測装置開発
MacOS XでのVerilogHDL & VHDL開発
制御システムエンジニア・マイコン集い
自動制御システム・自動制御装置
OS関係& Trusted OSのページ
PC & PDA用CPU 関係
PDA (Palm)関係
組み込みMPU 関係のページ
組み込みマルチ・コア関係のページ
おもちゃマイコンのページ
クラスター 関係のページ
CPU Board & マルチCPUボード関係
Linux関係のページ
MacOS X & X serve 関係
OS関係& Trusted OSのページ
マイクロカーネルMach &RT-Mach
BeOS関係のページ
トップページ

 自動制御システム構築や制御ネットワーク構築などで困っておられましたら是非とも弊社にご連絡下さればご相談は無料で受け付けております。

 

 弊社では、自動制御システムのハードとソフト関係で約32年の経験があります。

 このページについて皆様からのご意見、或いはご要望などがありましたら、是非下記へメールでご連絡下さい。

 

   トップページへ戻り