マルチ・スレッド & マルチ・プロセス

◆　マルチ・スレッドとマルチ・プロセス　作成 2024.01.03　更新 2026.01.12
　　　《　Multi Thread & Multi Process、OpenMP, MPI, GPU cuda　》

◆　他のホームページは Google で検索して下さい、弊社のページはそれぞれのボタン、又はリンク先をクリックして下さい。

　http://www.google.co.jp

◆　リンクページ

◆ 弊社の製品一覧
◆ 弊社のソフト関係
◆ 弊社のハードとファームウェア関係
◆ マルチ・プロセッサ自動制御装置
◆ 自動制御システム開発
◆ 生産&治具システム開発
◆ 計測自動制御装置
◆ PID 自動御制ボード
◆ 腕時計サイズ制御ボード
◆ ZigBee無線計測制御ボード
◆ 測画像処理制御ボード
◆ ロボット制御ボード & ソフト
◆ コイン・サイズのマイコンボード
◆ マルチCPU高精度データロガー装置
◆ タッチスクリーン計測ボード
◆ 高機能・高性能データロガー
◆ 高性能・高機能自動制御ボード
◆ 人工知能 AI 自動制御計測ボード
◆ 高機能な診断・分析解析計測システム
◆ 高機能な診断・分析自動制御システム
◆ スマートフォン無線計測ソフト
◆ WiFi自動制御計測Web遠隔監視System

◆　他リンクページ

◆ リスクファィブ（RISC-V）関係
◆ 量子コンピュータと自動制御
◆ Linux上で組込関係ソフト開発利用
◆ Python組込み関係利用の問題点
◆ 人工知能・組み込み制御と自動制御
◆ デジタル制御やDCS制御のページ
◆ Linux&FreeBSDでのSCADA,HMI
◆ SoftPLC & LinuxPLC
◆ 制御関係コンピュータのページ
◆ 実践的な制御の基礎
◆ 自動制御装置用SH-2 ボード
◆ PowerPC関係のページ
◆ MacOS Xのソフト開発環境関係ページ
◆ MacOS X でのH8&SHソフト開発環境
◆ H8S/2238組込み計測装置開発
◆ MacOS XでのVerilogHDL & VHDL開発
◆ 制御システムエンジニア・マイコン集い
◆ 自動制御システム・自動制御装置
◆ OS関係& Trusted OSのページ
◆ PC & PDA用CPU 関係
◆ PDA (Palm)関係
◆ 組み込みMPU 関係のページ
◆ 組み込みマルチ・コア関係のページ
◆ おもちゃマイコンのページ
◆ クラスター関係のページ
◆ CPU Board & マルチCPUボード関係
◆ Linux関係のページ
◆ MacOS X & X serve 関係
◆ OS関係& Trusted OSのページ
◆ マイクロカーネルMach &RT-Mach
◆ BeOS関係のページ
◆ トップページ

◆　自動制御システム構築や制御ネットワーク構築などで困っておられましたら是非とも弊社にご連絡下さればご相談は無料で受け付けております。

E-Mail :こちらをクリックして下さい。

◆　弊社では、自動制御システムのハードとソフト関係で約32年の経験があります。

◆　このページについて皆様からのご意見、或いはご要望などがありましたら、是非下記へメールでご連絡下さい。

　　トップページへ戻り

◆　近年、進化した多機能・高性能で低価格なマルチ・コアMPUやMCUの種類も年々増えており、計測と制御関係で応用できる低消費電力で低価格なマルチ・コア・ボード( MPU Board & MPU Board ) や疎結合マルチCPUボード、密結合マルチCPUボードを利用でき、マルチ・スレッドやマルチ・プロセス関係を取りあげていきたいと考えております。2024.01.03

　計測制御関係で利用するマルチ・コアMPUやMCUは低価格で低消費電力なコンパクトなサイズのMCU Boardであることが重要な要素であり、某OA-OS用PCと同等なコンパクトなミニサイズの高性能GPU内蔵ボードでは、CPUに冷却ファンを必要とし、その消費電力が500W～1kWにも達するようなボードは敬遠され、熱暴走によるシステム・ダウンやフリーズが発生すると制御システム誤動作による重大な人身事故や設備損傷等の損害が発生します。2024.01.03

　最近の消費電力効率が悪いCPU-GPUに限らず、低価格な小型ボードでも大きなヒートシンクと冷却ファンが必要な物が増えており、夏期の気温35℃以上（室温30℃）の厳しい環境で動作テストを実施した結果、高性能なタイプがフリーズしました。x86系のディスクトップやノートＰＣは室温30℃以上の厳しい環境ではフリーズならましでありＰＣが壊れ廃棄物となった。制御装置を空調設備がある場所で使用する訳ではなく気温50～60℃の厳しい環境で使用することもあります。2024.01.30

◆　手軽に利用できるマルチ・コアとマルチ・スレッド　2024.01.03

　アンドロイド（Android/Linux）やリナックス（Linux-OS）, MacOS , Windows-OS, FreeBSD, OpenBSD等でのマルチ・スレッドの並列処理プログラミングは難易度が高く、シングル・スレッドのソース・コードをC/C++やgcc/g++, Clang/Clang++でコンパイルしてもMulti-Threadの実行コードとなりません。2024.01.03
　単純な計算ループではThread-POSIXに準拠したソース・コードであればMulti-Threadの実行コードとなりますが、全ての複雑な計算ソース・コードが簡単にMulti-Threadの実行コードとすることが困難です。2024.01.03

　近年、低価格なマルチコアMCUボードの種類が多くなり、入手が簡単であり小学生や中学生でもそのプログミングが可能な時代となりました。
　但し、小学生や中学生がMulti-Threadプログラミングを実践している方は極少数でしょう。生成AIが話題となっておりますが、プロクラマーが不要な時代となると言っている大学の教授がおりましたが、オープンAIのチャットGTP（ChatGPT）等の生成AIが優れたソフトなのでしょうか。
　ネット上の信憑性のない情報や作為のある間違った情報を集めて生成する情報の危険性があり疑問と言わざるを得ません。既に生成AIが犯罪の利用されており、当然、法的な規制が必要であるが、その議論と検討が不充分と思われます。2024.01.03

◆　低価格なマルチ・コアボードとマルチ・コアＰＣでのMulti-Thread　2024.01.03

　低価格なマルチコアMCUボードの種類が多くなり、入手が簡単であり誰にでもそのスレッド・プログミングが可能ですが、素人に簡単にMulti-Threadコーディングすることが大変であり試行錯誤することになることでしょう。その点、マルチ・プロセスはプロセス数が４以上であれば、4個のコアが全て動作する。マルチ・プロセスはマルチ・タスクと同様な機能であり、１個のコアに複数のタスクをコンテキストで切替えて優先順位で割り付ける古いタスク切替え技術です。リアルタイムRTOS等でマルチ・タスク機能が取り入れられています。　2024.01.03

　単純な計算ループではThread-POSIXに準拠したソース・コードであれば、x86-64 Core, ARMv8-a Core, RISC-V Core等でコンパイルが可能です。そのCソース関数は pthread_create(), pthread_mutex_...(), pthread_join()等を追加すればよいが、残念ながら、全ての計算ループがMulti-Threadの実行コードをコンパイラーが生成しない。生成したとしてもコアが１個でしか動作しない。
　インテルのコアは2コア／4スレッドのSoCもあるが性能上で全く無意味であり性能向上となっていない。つまり、性能的には2コア／4スレッドが4コアと同等です。　2024.01.03

◆　レイトレーシング、ベンチマーク（ MultiThread 最適化）　作成 2024.12.25　更新 2026.01.12

　最適化したMulti-Thread Raytracingのベッチマーク結果を纏めました。スレッド処理のループ計算部分を細密に分割し、マルチコアに振り分けて処理するようにした。下記のようにコアが多いほうがその効果がCortex-A55 1.8GHz オクタ・コアで約7.2倍となった。ARM系でも16コアであれば約 14倍の性能向上（約25GHz／コア相当）となる。
　現状では、最先端のプロセス製造 3nmでコア動作周波数を技術的に10GHz以上に上げることが不可能であり、限界に達している。最先端のプロセス製造 2nm EUV露光装置（１台200～400億円）を設置し、巨額の５兆円程度公費を投じて半導体工場を建設中であり疑問を感じる。５兆円程度の公費は他の研究開発費に当てるべきと思います。政府与党の議員たちが考えていることを理解できない。　2024.12.25

　計算後の画像 Data-1　　計算後の画像Data-2　

　　　実行時間 :　Single -> Multi-Thread　スレッド数 32,　１回の処理時間、計算後の画像 Data-1
　　　　　　　　《　》内はAndroid/Cortex-A7 Quad 1.3GHz基準値に対する性能　追記　2025.10.12

CPU & MPU SoC デバイスと OS	解　像　度	シングル　スレッド	マルチ　スレッド	性能向上	備　考
iMac i5 2.5~3.3GHz Quad 4thread	320 x 240	31 ms	15 ms	x 2.1	g++ -O3
Ubuntu 22.04	800 x 600	187ms	80 ms	x 2.3	gcc v11.4
	4000 x 4000	5.51s	1.78s	x 3.1《x10.2》
MacBookPro i7 2.7~3.4GHz 4thread	320 x 240	33 ms	16 ms	x 2.0	g++ -O3
Ubuntu 22.04	800 x 600	191ms	98 ms	x 1.9	gcc v11.4
	4000 x 4000	5.84s	3.1s	x 1.8《x5.8》
MacBookAir i7 1.8~2.9GHz 4thread	320 x 240	60 ms	25 ms	x 2.4	g++ -O3
MacOS 12.6.8	800 x 600	345 ms	130 ms	x 2.6	gcc v14
	4000 x 4000	9.65 s	3.62 s	x 2.6《x5.0》
MacBook Core 2 Duo 2.4GHz	320 x 240	76 ms	56 ms	x 1.3	g++ -O3
Ubuntu 22.04	800 x 600	492ms	329ms	x 1.4	gcc v11.4
	4000 x 4000	14.6s	7.0s	x 1.8《x2.6》
MacBookAir Core 2 Duo 1.6GHz	320 x 240	102ms	60 ms	x 1.7	g++ -O3
Puppy Linux	800 x 600	620ms	322ms	x 1.9	gcc v9.3
	4000 x 4000	19.4s	10.3s	x 1.8《x1.7》
Celeron N3050 1.6~2.1GHz Dual	320 x 240	160ms	96ms	x 1.6	g++ -O3
Ubunru 22.04	800 x 600	860ms	474ms	x 1.8	gcc v11.4
	4000 x 4000	27.7s	14.7s	x 1.9《x1.2》
ChromeBook A72+A53Hexa 2.0GHz	320 x 240	81ms	43ms	x 1.8	g++ -O3
ChromeOS/Linux SoC MT8173C	800 x 600	363ms	137ms	x 2.6	gcc v10.2
	4000 x 4000	10.5s	2.95s	x 3.5《x6.1》
ChromeBook A72+A53Quad 1.7GHz	320 x 240	69ms	44ms	x 1.6	g++ -O3
ChromeOS/Linux SoC RK3399	800 x 600	341ms	139ms	x 2.4	gcc v12.2
	4000 x 4000	9.93s	3.36s	x 2.9《x5.4》
Andoid-16 スマホ Pixel-6A	320 x 240	75ms	22ms	x 3.4	NDK
X1 + A78 + A55 Octa 2.8GHz	800 x 600	261ms	72ms	x 3.6	gcc4.9
AVF Linuxでは未確認 2026.06.20	4000 x 4000	6.96s	0.843s ※-4	x 8.2《x21.5》	-Ofast
Andoid-13 スマホ Libero Flip	320 x 240	48ms	17ms	x 2.8	NDK
A710 + A510 Octa 2.4GHz	800 x 600	271ms	74ms	x 3.6	gcc4.9
Kryo Core （ ARM 互換コア）	4000 x 4000	8.34s	2.11s ※-5	x 3.9《x8.6》	-Ofast
Andoid-10 スマホ 2.6GHz	320 x 240	95ms	30ms	x 3.1	NDK
A76 + A55 Octa SPD845	800 x 600	420ms	98ms	x 4.2	gcc4.9
	4000 x 4000	11.7s	2.3s	x 5.1《x7.9》	-O2
Andoid-12 タブレット	320 x 240	174ms	36(28)ms	x 4.8 (6.3)	NDK
1.8GHz A55 Octa	800 x 600	1.0s	165(137)ms	x 6.1 (7.2)	gcc-4.9
( ) 内 --> 最適化を強化	4000 x 4000	30.9s	4.3(3.42)s	x 7.2(9.0) ※-1	-O2(-Ofast)
Orange Pi Zero 2 ボード	320 x 240	233ms	65ms	x 3.6	gcc
1.5GHz A53 Quad H616 SoC	800 x 600	1.05s	257ms	x 4.1	gcc-7.5
	4000 x 4000	29.9s	7.1s	x 4.2《x2.5》	-O3
Orange Pi RV2 ボード SoC Ky-X1	320 x 240	188ms	22ms	x 7.5	gcc
1.6GHz RISC-V Octa	800 x 600	1.16s	107ms	x 10.8	gcc-13.3
	4000 x 4000	37.3s	3.21s ※-3	x11.6《x5.6》	-Ofast
Andoid-13 スマホ 2.2GHz	320 x 240	53ms	30ms	x 1.8	NDK
A78 + A55 Octa SPD695	800 x 600	285ms	100ms	x 2.8	gcc-4.9
	4000 x 4000	8.9s	2.3s	x 3.8《x7.8》	-O2
Andoid-11 タブレット 2.0GHz	320 x 240	83 ms	39 ms	x 2.1	NDK
A75 x1 + A55 x3 Quad	800 x 600	510 ms	210 ms	x 2.4	gcc-4.9
BMAX-I10 Pro Unisoc T310	4000 x 4000	16.1s	6.0s	x 2.6《x3.0》	-O2
Andoid-7.0 タブレット 2.0GHz	320 x 240	184ms	56ms	x 3.3	NDK
A53 Quad MediaTex MT8168A	800 x 600	1.12s	315ms	x 3.5	gcc-4.9
	4000 x 4000	32.3s	8.6s	x 3.7《x2.1》	-O2
Android/Cortex-A7 Quad 1.3GHz	320 x 240	320 ms	126 ms	x 2.5	NDK
タブレット fire 7 （2019年製）	800 x 600	2.50 s	660 ms	x 3.7	gcc v11.4
MediaTex MT8127	4000 x 4000	81.2 s	18.2 s	x 4.4《基準》
Andoid-5.0 タブレット 1.3GHz	320 x 240	275ms	160ms	x 1.7	NDK
A53 Quad　Fire HD8　FireOS	800 x 600	1.68s	610ms	x 2.7	gcc-4.9
	4000 x 4000	50s	12.9s	x 3.9《x1.4》	-O2
Jestson TK1 A15 1.4GHz	320 x 240	106ms	48ms	x 2.2	gcc-4.8.2
Cortex-A15 Quad	800 x 600	657ms	179ms	x 3.6	g++
	4000 x 4000	20.6s	5.2s	x 3.9《x3.5》	-O3
Youyeetoo-R1　SoC RK3588s Octa	320 x 240	49 ms	15 ms	x 3.2	NDK
A76 2.4GHz + A55 1.8GHz	800 x 600	244 ms	63 ms	x 3.9	g++
	4000 x 4000	7.1s	1.45s	x 4.9《x12.5》	-O3
Radxa Cubie A7Z　SoC A733 Octa	320 x 240	43 ms	24 ms	x 1.9	gcc-10.2
A76 2.0GHz + A55 1.79GHz	800 x 600	220 ms	70 ms	x 3.1	g++
	4000 x 4000	6.1s	1.68s	x 3.6《x10.8》	-O3
ラズベリーパイ-5　SoC BCM2712	320 x 240	29 ms	8 ms	x 3.6	gcc-11
Cortex-A76 Quad 2.4GHz　※-2	800 x 600	161 ms	43 ms	x 3.7	g++
	4000 x 4000	5.0s	1.28s	x 3.9《x14.2》	-O3

　※-1 :　コアが多いほうがCortex-A55 1.8GHz オクタ・コアでその性能アップ約7.2倍（最適化後 9.0 倍）となった。オクタ・コアのARM系ボードは１万円弱、RISC-V系 Octa Core Board １万円弱、16コアボードと64コアボードも購入が可能。　2024.12.25 更新　2025.08.19
　残念なことにARM系ボードでは低価格な 16コアボードと32コア, 64コアボードが少ない。　2024.12.25

　※-2 :　価格が１万円弱のRasPi-5は低価格ノートＰＣの性能よりも格段によい。BCM2712・SoC はプロセス製造で16nmであり、7nmプロセス製造で製造すればもっと高性能となることでしょう。　2025.01.07

　※-3 :　RSIC-V 系のベクトル演算は、Cortex-A7 1.3GHzに対し x5.6 倍と性能がよい、低価格な 4,300円程度のRSICV 系 Orange Pi RV2 は低価格ノートＰＣと同等な性能。16～32コア・RSICV 系SoC もプロセス製造 3nmプロセス製造で製造すればもっと高性能となることでしょう。最適化を強化した結果、解像度 4000x4000で最大 x 11.6 倍となった。　作成　2025.05.02　更新　2025.10.12

　※-4 :　スマホ Pixel 6A ・コアCortex-X1 2.8GHzの性能は解像度 4000x4000で 843ミリ秒（ms）、Cortex-A7 1.3GHzに対し x21 倍と高性能。しかし、SVE/SVE2 に未対応。その点、Pixel 8A は Cortex-X3 2.9GHz + A715 + A510 構成 9 コアのようであり、SVE/SVE2 のベクトル計算処理ソフトを制作できるので大変良い。　作成　2025.06.20　更新　2025.10.12

　※-5 :　スマホ Libero Flip の KryoコアはARM 互換カスタム・コアであり、Cortex-A710 / 2.4GHz x4 + A510 x 4 オクタ・コアのようですが、SVE/SVE2 がなく残念。クアルコム社Snapdragon X ELite の Oryon Core はSVE/SVE2 に未サポートであり、Apple社 M4 コアはSVE/SVE2をサポートしており、大変残念です。　作成　2025.06.20

　画像 Ray-1　

　画像 Ray-2　

CPU & MPU SoC デバイスと OS	スレッド	解像度	計測値／1回相当	性能向上	備　考
MacBookPro i7 2.7~3.4GHz Ubuntu					4 core
画像 Ray-1　ループ 1 回	なし	800x600	0.57s		gcc v11.4
画像 Ray-1　ループ 400回	4	800x600	4.1s/10.3ms	x 55	g++ -O3

Celeron N3050 1.6~2.1GHz Dual					2 core
画像 Ray-1　ループ 1 回	なし	800x600	1.58s		gcc v11.4
画像 Ray-1　ループ 400回	2	800x600	18.1s/45ms	x 35	g++ -O3

Raspberry Pi -5 2.4GHz Ubuntu24.04					8 core
画像 Ray-1　ループ 1 回	なし	800x600	0.70s		gcc v13.3
画像 Ray-1　ループ 400回　※-5	4	800x600	946ms/2.3ms	x 304	g++ -O3

Android/スマホ A78+A55 Octa 2.2GHz					NDK
画像 Ray-1　ループ 1 回	なし	800x600	0.132s		gcc v4.9
画像 Ray-1　ループ 400回　※-6	8	800x600	1.52s/3.8ms	x 34	g++ -O3

Android/Tablet A55 8core 1.8GHz					NDK
画像 Ray-1　ループ 1 回	なし	800x600	0.42s		gcc v4.9
画像 Ray-1　ループ 400回　※-6	8	800x600	2.17s/5.4ms	x 77	g++ -O3

Android/Tablet A53 4core 2.0GHz					NDK
画像 Ray-1　ループ 1 回	なし	800x600	0.41s		gcc v4.9
画像 Ray-1　ループ 400回　※-6	4	800x600	2.06s/5.2ms	x 78	g++ -O3

Android/スマホ X1 8core 2.8GHz					NDK
画像 Ray-1　ループ 1 回	なし	800x600	146ms		gcc v4.9
画像 Ray-1　ループ 400回　※-7	8	800x600	867ms/2.1ms	x 412	g++ -O3

Orange Pi RV2 1.6GHz Ubuntu24.04					8 core
画像 Ray-1　ループ 1 回	なし	800x600	2.69s		gcc v13.3
画像 Ray-1　ループ 400回　※-3	8	800x600	1.39s/3.4ms	x 791	g++ -O3

ASUS C101P RK3399 ChromeBook					6 core 2.0GHz
画像 Ray-1　ループ 1 回	なし	800x600	1.03s		gcc v10.2
画像 Ray-1　ループ 400回	6	800x600	1.59s/3.9ms	x 264	g++ -O3

　作成　2025.05.02　更新 2025.06.20

　注釈　:　上記は SIMD + スレッド処理の計測値、画像データ（例 800x600/1.4MB ）は確実にストレージ／メディアに書込まれており計算処理に問題なし。但し、1 ミリ秒（ ms ）程度以下となると正確性が落ちる（ OS のTimeSYS Lib 精度 ? ）のでループ 400回で計測した。　2025.05.04

　※-7　最新のAndroid-16 ベータ版イメージが公開されたので、早速、Pixel-6AにAndroid SDK adb ツールでAndroid-16 イメージをインストールし試した結果、Tensor SoC のCortet-X1 オクタコア2.8GHz（ Neon Unit x 4 同時実行）で性能が向上している。Android-16 の仮想 Linux ターミナル（AVF）をインストールし試したが、ベータ版であるため GUI には未対応 ? 、クローム OS の仮想 Linux ターミナルと同様な機能です。Android-17 ではマルチ・Window となるようであり、今後が楽しみです。　2025.06.20　更新 2025.08.11

　Android-16はMicroDroid（ MicroFuchsia ）／マイクロカーネルZirconと別であり、Android-16は機能的にAndroid-15と比較し大幅な変化がありませんでした。マイクロカーネルZirconの効率的なマルチスレッドによる性能アップに期待しましたが、残念・・・、Android-17 に期待・・・。BeOS のマイクロカーネルは効率的なマルチスレッドで PowerPCシングルコア 120MHzでも軽快な動作でした。Androidはシングル Window で最適化がよく反応良いが・・・、重く遅い汎用 OS は必要ありません。AndroidからMicroFuchsiaへの以降はまだ先のようであり・・・、以降しない ?・・・。　2025.06.21　更新 2025.08.11

　Cortet-X1 コア SoC はNeon ユニット x 4 同時実行であり、デュアル・コアだけでもオクタコア相当の演算処理性能となる。Cortet-X2以降のコア SoC はベクトル処理 SVE2ユニットを内蔵しており、FP32 計算処理であれば理論上では1個 CPU / FPUに対し最大 x 64 倍（ SVE2/2048bits Type ）、Dual-Coreであれば最大 x 128 倍性能アップとGPU が不要、x86_64 SoC のAVX512 は x 16 倍であり、SVE2が高性能、nVIDIA SoCもSVEを実装しているが、CUDAコアだけでよいはずであるが不思議・・・。　2025.06.20

CPU/GPU SoC 　デバイス	CPU & GPU CUDA Coe数	Geekbench 値マルチスレッド	Geekbench 値コア１個相当	Geekbench RayTracing	Geekbench Ray コア１個相当	消費電力（w）
Jetson Nano	Cuda 128	1072	8.0 / 基準	858	6.7 / 基準	5
Jetson Orin Nano	Cuda 1024	1504	1.4 / x 0.17	1567	1.5 / x 0.22	7～25
Jetson AGX Orin	Cuda 1792	5653	3.1 / x 0.38	7520	4.0 / x 0.59	15～75
RTX-4090	Cuda 16,384	317,720	19.3 / x 2.4	------	最悪な消費電力-->	850
Orange Pi RV2	Octa NonGPU	561	70 / x 8.7	609	76 / x 11.3	4
Cortex-A53 2.3GHz	Octa NonGPU	1325	165 / x 20	1582	195 / x 29	30
Cortex-A76+A55	Octa NonGPU	2178	272 / x 34	2641	330 / x 49	10 ?

　注釈 :　GeekBench6ベンチマークは他のWeb ページから引用し算出、CPU & CADU コア１個相当で換算した。高性能なはずのGPU SoC がマルチスレッド計算処理性能がよくない、Jetson Nanoに対しARM Octa Cortex-A76+A55 GPUなしが x 34～49倍、価格4千円程度のRISCV（ Ky X1 ）Octaは GPUなしでJetson Nanoに対し x 8～11倍とCADU コアが低速です。Raytracing はCuda 128よりもCortex-A53 Octaの性能が高い。　2025.06.21

　RTX-4090 Cuda 16,384 コアはコア１個相当でJetson Nanoに対し約 x 2.4倍アップと極端な低性能、消費電力が 170倍と効率が極端に悪い。結論として GPU CADU コアが増えると極端に消費電力が約850Wまで増加する、つまり、マルチスレッドの計算処理能力が極端に低い、組込み関係では利用できない。ボード価格約5万円のBM1684X Cortex-A53 2.3GHz Octa SoC はNPUのAI 性能が 32TOPsであり、ボード価格約40万円のRTX-4090はAI 性能が 83TOPsと高くない。　2025.06.21

　ARM 系 Neoverseコアはサーバー用 Neovers-E, N 以外の組込み関係 Neoverse-V3AEがあり、Cortex-A720AE, A520AE, R82AE コアSoC は低消費電力、Apple社や nVIDIA 社が SVE を採用しており、ルネサス社のR-Car X5H SoCはCortex-A720AEコア x 32 個 + Cortex-R52コア6個の構成です。サンプル出荷は今年度のようです。低価格な Neoverse-V3AEマルチコア SoC の製品化がないのが大変残念・・・、Cortex-A320コアは SVE2 x 2個/NEON x 2個であり理論上では性能アップ最大 x 64 倍となる、マルチコアの製品化がないようであり残念・・・。　2025.06.21

　既に生成AI 計算処理用を含むデータセンターは国内で約220ヶ所もあり、その消費電力は約 100万キロワット（kW）級の大型・原発や火力発電機を国内だけでも 3～5 機程度、世界規模で 35～50 機程度も必要なのです。更に新規のデータセンターを建設中、温暖化対策に逆行しています。人工知能（AI）ブームで加熱しており、電力食いの非効率的・生成AI 計算処理用データセンターが必要なＰＣ（価格が高い）やスマホとタブレットなどが本当に必要なのでしょうか、疑問です・・・。　2025.06.21

　※-3　RISC-VコアはSIMDではなくRVV ベクトル（ベクターライズ処理）であり、RVV + スレッド処理の計測値となり、SIMDよりもベクトル演算処理のほうが高性能と言えます。16コアであれば 2ms 弱となります。スパコンやNPUもベクトル計算演算処理です。　2025.05.04

　※-5　RasPi-5 Cortex-A76 Quad 2.4GHzはA76コアが4個ですので性能が高いです。x86_64系よりも ARM系のほうがキャシュ効果が良いようです。RISC-V系コア Ky-X1 SoCのOrange Pi RV2は予想外に高性能でした。　2025.06.01

　※-6　アンドロイド・タブレットはNDK gcc 4.9 でもグーグル社が最適化を進めているようであり良い結果でした。x86_64系よりも ARM系のほうが gcc/g++コンパイラーの最適化が良いようです。　2025.06.01

　Huawei はARMコア系 TaiShoan 10コア／20スレッドのX90 SoC （フロセス製造 5nm）を発表しました。X90 SoC はHiSilicon 社が設計し、そのX90 SoCがノートピーシー用でありタブレットやスマートフォンでは製品化されません。スマホ用は Kirin 9010 SoC（10コア／12スレッド）であり、残念なことに格安タブレットやスマホには実装されません。　 2025.06.01

　メディアテック社の Dimensity 9400 （X930コア）3.6GHz 10 coreやクァルコム社の12コア Snapdragon X ELite（Oryonコア）もノートＰＣ用であり、低価格なタブレットやスマートフォンでは実装されません。動作クロック 1.8GHz程度の低価格な 12～16コア SoC を早く製品化していただきたい。　 2025.06.01

　Xiaomi のフロセス製造 3nm デカ Deca コア X Ring01（X928コア3.9GHz 10 core）はスマホ Xiaomi 15s Pro とタブレット Xiaomi Pad 7 Ultra に搭載し中国で販売されており価格が12万円程度、小遣いでは購入できそうもありません。残念・・・。　 2025.06.01

　次世代の半導体と言われている GAA 2nm プロセス製造のサムスン社製 Exynos 2600 は Cortex-X930 3.8GHz x 1個 + A730 3.26GHz x 3個 + A730 2.76GHz x 6個 + GPU Eclipse 960 の構成であり、その性能が Geekbench 6 Single 3,309 Multi 11,250 と残念なことに劇的な性能向上ではない。もっと高性能な FinFET 3nm ・4GHz台ARM コア SoC は既に製品として販売されており、やはり、GAA 2nm プロセス製造には期待できないようであり、果たしてラピダス社 GAA 2nm プロセス製造の半導体 AI コアはどの程度の性能向上となるのことでしょうか・・・。1.0nmか、1.4nmでなければ 5GHz以上の CPU SoCを製造できないようです。1.0nm 以下のCFETプロセス製造は不明・・・。　 2025.09.07

　最適化 Thread-1　

　画像Data-2　

320 x 240

CPU & MPU SoC デバイスと OS	スレッド数	解像度	計測 (s)	性能向上	備　考
MacBookPro i7 2.7~3.4GHz Ubuntu	1	320x240	9.9s		100回
最適化Thread-1　ループ 100回	8	320x240	6.1s	x 1.6	gcc v11.4
最適化Thread-1　ループ 100回	16	320x240	5.4s	x 1.8	g++ -O3
Celeron N3050 1.6~2.1GHz Dual	1	320x240	24.1s		100回
最適化Thread-1　ループ 100回	8	320x240	14.3s	x 1.6	gcc v11.4

MacBookPro i7 2.7GHz Ubuntu
画像Data-2　ループ 1回	1	320x240	0.61s		g++ -O3
画像Data-2　ループ 1回	1	800x600	59s		g++ -O3

MacBookPro Core2 2.4GHz Ubuntu
画像Data-2　ループ 1回	1	320x240	1.35s		g++ -O3

　注釈　:　画像Data-2のスレッド最適化が困難、難易度が高い。　作成 2024.12.25　更新 2025.01.03

　上記のベンチマークを iPhone & iPad , MacOS や Windows 10 & 11ではgcc/g++コンパイラー開発環境が Android & Linux 関係と同様でないので挑戦する気にならない。　更新 2025.01.03

　GPU OpenGL の Glut でレイトレーシング計算処理を実行した結果、ノートＰＣ 2.8GHz Quad では解像度 800 x 600 で70ms 程度ですが、バッファリング処理の最適化が悪いためか、表示するまでの待ち時間が約3～4秒と遅い、glut の GLSL & GLES シェーダ（shader）プログラミングが難解である。　 2025.07.16

　OpenGL Raytrace-1　

　Raytrace-2　

　フラクタル（ Fractal ）& マンデルブロート（ Mandelbrot ）計算処理をベクトル or SIMD + マルチスレッド並立計算処理で最適化し処理速度のスピードアップを試した。

◆　フラクタル、ベンチマーク（ MultiThread 最適化）　作成 2024.12.25　更新 2026.01.11

　画像 Mandel-1 <--実800 x 600　 <- Fractal-2

　画像Fractal-3　 <--実 4096 x 4096（50MB）& 1024 x 1024

　Fractal-1画像のテストは画像 Ray-1のように大幅な性能アップとなりませんでしたが、Orange Pi RV2 は 800x600 解像度・ 8 threadで 1 スレッドよりも約50 倍性能アップ（Cache効果大）となった。但し、ベクトル + スレッド処理の計測値が 1 ms 程度以下となると正確性がないようであり、或は実行コードが L1 キャシュ内で実行するとOS のTimeSYS 精度が落ちることも考えられ為、検証中。　2025.05.04　訂正　 2025.06.08

CPU & MPU SoC デバイスと OS	Fractal-3 4096x4096	Fractal-3 1024x1024	Mandel-1 800x600	Fractal-2 1024x1024	備　考
Ras Pi-2 A7 900MHz Quad Debian	15.4s x1倍	940ms x1倍	523ms x1倍	6.80s x1倍	<- 基準
Ras Pi-5 A76 2.4GHz Quad Ubuntu	341ms x45倍	27ms x34倍	40ms x13倍	0.52s x13倍	4コア
Radxa Cubie A7Z A76 0cta Dedian	404ms x38倍	45ms x20倍	-----	0.51s x13倍	8 コア
MacBookPro i7 2.7GHz Quad Ubuntu	449ms x34倍	31ms x30倍	60ms x9倍	0.57s x12倍	4コア
Celeron N3050 2.4GHz Dual Ubuntu	3.34s x4倍	218ms x4倍	164ms x3倍	2.46s x3倍	2コア
OrangePi-RV2 1.6GHz Octa Ubuntu	1.09s x14倍	58ms x16倍	73ms x7倍	1.12s x7倍	8コア
ASUS C101P 2.0GHz A72 ChromeOS	1.11s x13倍	112ms x8倍	114ms x4倍	0.95s x7倍	6コア
OrangePi Zero2 A53 1.5GHz Quad	7.93s x2倍	405ms x2倍	169ms x3倍	2.17s x3倍	4コア

　注釈　:　RaspberryPi-2・Cortex-A7 Quad を基準値 100% とし、性能アップ倍率を計算。　作成 2025.06.08　更新　2035.07.16

　Ras Pi-5はキャシュメモリの効果で良い結果であり、MacBookPro i7も同様。RISCV 系のOrangePi-RV2がかなり良い結果であった。ARM とRISCV 系の低価格な 12～16コア SoCがないので大変残念です。ARM 16コア SoC は工業製品用 NXP社 LX2160 （A72 2.0GHz x16 ）SoCや LX2120 （A72 1.8GHz x12 ）SoCがありLX2160の価格は６万円程度と低価格でない。　作成 2025.06.08

　MediaTex のKompanio Ultra 910 & 920 （ MT8196 ）SoC は Cortex-X925 3.6GHz Octa であり高性能ですが価格が高そう。MT8791（ A78 Octa 2.6GHz ）SoC は最新の Nintendo Switch 2 （ nVIDIA T239 ）のA78C Octa 1.7GHz SoC よりも性能が高い、Switch 2の価格が５万円程度と安くない。単なるゲーム端末よりも Dimensity 7050 （MT8791）や MT8195（ A78 3GHz Quad ） , MT8192 タブレットであれば利用価値がある。　作成 2025.06.08

◆　GPU ワィヤーフレーム（ WireFrame ）ベンチマーク　作成 2025.08.11　更新 2025.08.19

　ワィヤーフレームの計算処理を Android GPU の GLES2 シェーダー処理で試した結果、下記のとおり意外でした。Android ではリアルタイムでカメラ画像表示と WireFrame表示を同時実行が可能です。

　WireFrame -> 　カメラ + WireFrame

　条件　:　GPU WireFrame処理計算数 -420 to +420 x 30 step = 5,292,000 x 100回、倍率はfire 7が基準
　　　　　 2D WireFrame処理計算数 -240 to +240 x 90 step = 5,184,000　x 100回計測（1/100= ms）／1回計測

CPU & MPU SoC デバイスと OS	GPU WireFrame 100回実行	１回相当換算／性能倍率	GPU Type	2D WireFrame 100回(ms)／１回	備　考
fire 7 第７世代 Cortex-A7 1.3GHz	73s	730ms x1.0倍	Mali 450MP4	----	<- 基準
Pixel 6A Cortex-X1 2.8GHz Octa	6.5s	65ms x11.6倍	G78MP2	51ms/4ms	8コア
AQUOS Wish2 Cortex-A78 2.2Ghz	8.0s	80ms x9.1倍	Adreno 619	156ms/8ms	8コア
AQUOS R2 Cortex-A76 2.6Ghz	10s	100ms x7.3倍	Adreno 630	128ms/11ms	8コア
Libero Flip Kryo 770 ? 2.4Ghz	15s ※-2	150ms x4.8倍	Adreno 644	108ms/6ms	8コア
fire HD10 Cortex-A73 2.0GHz	18s	180ms x4.1倍	G72MP3	197ms/13ms	8コア
tPAD Cortex-A55 1.8GHz Octa	32s	320ms x2.3倍	G57MC1	125ms/11ms	8コア
fire HD8 A53 2.0GHz Quad	42s	420ms x1.7倍	G53MC1	179ms/12ms	4コア
MacBookPro i7 2.8GHz Quad	11.8s ※-1	118ms x6.1倍	HD3000	? /11ms（SDL2）	4コア

　※-1　:　MacBookPro i7は表示の時に上記のRayTrace と同様に必ず約2～3秒の待ち時間が発生し 11.8s + 2s=13.8秒となる。GLUT ライブラリーの詳細な処理法が不明、バッファリングの初期処理に時間を要している・・・ ? 。　更新 2025.08.12　訂正　2025.09.07

　※-2　:　スマホ Libero Flipの ARM SoC は ARM 互換の Cualcomm 社製 Kryo 770 ? コアであり、 Snapdragon 7 Gen 1がCortex-A710 + A510 のようですが、 Hexagon DSP/NPU があるため完全な互換性がなく、 Hexagon DSP/NPU は Hexagon SDK がなければ Halide ライブラリー応用 AI or DSP （ HVX 命令）対応のアプリ・ソフトを制作できない。 ARM コアではあるが別物という感じ・・・、残念なことに互換性のないアプリ・ソフトを制作する気になれない。　作成 2025.08.19

　上記結果のようにGPU の GLシェーダー処理では、単純な2D 表示処理が Non Shader 2D 表示１回よりも遅くなる、GPU Shader計算ユニットの2D 表示計算にGPUのAPIライブラリーが最適化不十分なのか、或はShader計算ユニットの 2D 計算性能が高くないようです。
　GPU の GLシェーダー処理せず、2D 表示処理が11msでは約90fpsの表示であるから実用上に問題がない。人間の目では数百フレーム・パーセコンドの表示変化を追えないから必要ないでしょう。　作成 2025.08.11
　最近の AI 計算処理用GPUは Cuda-Core や NPU, DSP 等を内蔵しており、単純なGPUコアがAI 計算処理や一般的なアプリの計算処理に向いてないので Cuda-Core や NPU, DSP 等が必要なのです。一般的なアプリでは Shader Core や Cuda-Core, NPU, DSPが必要ないので内蔵しなければ消費電力が低減しバッテリーが長持ちとなることでしょう。　作成 2025.08.11

◆　SIMD並列処理プログラミング　作成 2025.03.09

　SIMD（NEON & SSE, AVX）並列処理を最適化し大幅な性能アップとなった。SIMD関係のC/C++ライブラリーは独特なコーディングが必要であり、アセンブラ風のようで馴染みにくい。C/C++のアプリ・ソースコードを単純に移植しても動作せず、難易度が高い。　作成 2025.01.17

　フラクタルFractal（Mandelbrot）の計算式は簡単であり、移植し易い。計算処理は32,768色とし出力画像データをモノクロ画像とした。SIMD処理によるカラー画像データ32,768色から 8ビットに変換する処理が簡単でないため次回実施予定。　作成 2025.01.17　更新 2025.03.09

　画像Data-1　　画像Data-2　　

CPU & MPU SoC デバイスと OS	スレッド数	解像度	計測 (s)	性能向上	備　考
iMac i5 2.5~3.3GHz Quad 4thread	1	4000x4000	25.3s	1回	Ubuntu
画像Data-2　ループ 1回 SSE2	4	4000x4000	1.99s	x 12	gcc v11.4
MacBookPro i7 2.7~3.4GHz 4thread	1	4000x4000	27s	1回	Ubuntu
画像Data-2　ループ 1回 AVX　※-4	4	4000x4000	2.7s	x 9.9	gcc v11.4
画像Data-2　ループ 1回　FPU	1	320x240	0.99s	1回	g++ -O3
画像Data-2　ループ 1回 AVX	4	320x240	0.25s	x 3.9	g++ -O3
Celeron N3050 1.6~2.1GHz Dual	1	4000x4000	56.4s	1回	Ubuntu
画像Data-2　ループ 1回 SSE	4	4000x4000	9.8s	x 5.7	gcc v11.4
MacBookPro Core2 2.4GHz Dual	1	4000x4000	55.7s	1回	Ubuntu
画像Data-2　ループ 1回 SSE	4	4000x4000	7.9s	x 6.9	gcc v11.4
ChromeBook A72 2.0GHz Hexa	1	4000x4000	35.2s	1回	ChromeOS
画像Data-2　ループ 1回 NEON	6	4000x4000	5.2s	x 6.7	gcc v10.2
ChromeBook A72 1.7GHz Quad	1	4000x4000	33.2s	1回	ChromeOS
画像Data-2　ループ 1回 NEON	4	4000x4000	4.1s	x 8	gcc v12.2
A76 + A55 Octa 2.6GHz Android-10					NDK gcc4.9
画像Data-2　ループ 1回　VFP	1	4000x4000	21.5s		g++ -O3
画像Data-2　ループ 1回　NEON	4	4000x4000	1.91s	x 11	g++ -O3
画像Data-2　ループ 1回　NEON	8	4000x4000	1.63s	x 13	g++ -O3
A78 + A55 Octa 2.2GHz Android-13					NDK gcc4.9
画像Data-2　ループ 1回　VFP	1	4000x4000	23.7s		g++ -O3
画像Data-2　ループ 1回　NEON	4	4000x4000	2.52s	x 9	g++ -O3
画像Data-2　ループ 1回　NEON	8	4000x4000	1.43s	x 16	g++ -O3
画像Data-2　ループ 1回　FPV	1	320x240	0.91s	1回	g++ -O3
画像Data-2　ループ 1回　NEON	4	320x240	0.27s	x 3.3	g++ -O3
A55 Octa 1.8GHz Android-12					NDK gcc4.9
画像Data-2　ループ 1回　VFP	1	4000x4000	64.4s		g++ -O3
画像Data-2　ループ 1回　NEON	4	4000x4000	3.4s	x 18	g++ -O3
画像Data-2　ループ 1回　NEON	8	4000x4000	1.62s	x 39 ※-1	g++ -O3
画像Data-2　ループ 1回　NEON	16	4000x4000	0.88s	※-3	g++ -O3
A53 Quad 2.0GHz Android-5.0					NDK gcc4.9
画像Data-2　ループ 1回　VFP	1	4000x4000	74.3s		g++ -O3
画像Data-2　ループ 1回　NEON	4	4000x4000	5.3s	x 14	g++ -O3
A75 + A55 Quad 2.0GHz Android-11					NDK gcc4.9
画像Data-2　ループ 1回　VFP	1	4000x4000	29.2s		g++ -O3
画像Data-2　ループ 1回　NEON	4	4000x4000	4.9s	x 5.9	g++ -O3
画像Data-2　ループ 1回　NEON	8	4000x4000	2.5s	x 11	g++ -O3
RasPi-4 A72 Quad　1.5GHz Debian					gcc-8.3
画像Data-2　ループ 1回　VFP	1	4000x4000	66s		g++ -O3
画像Data-2　ループ 1回　NEON	4	4000x4000	4.8s	x 14	g++ -O3
RasPi-5 A76 Quad　2.4GHz　Ubuntu					gcc-11
画像Data-2　ループ 1回　VFP	1	4000x4000	19.5s		g++ -O3
画像Data-2　ループ 1回　NEON	4	4000x4000	1.34s	x 14※-2	g++ -O3

　注釈　:　計算処理がスレッドにより画像データに異常がないか全て確認済み、16スレッド以上では画像データが崩れる。
　　　　　画像データ処理ビット幅は0～32767としており、0～255とすれば処理時間が大幅に小さくなる。
　※-3　:　スレッド 16 ではJpeg画像保存データが崩れる。8コアでは無理でした。
　※-4　:　最新のx86_64系 Core i7ノートＰＣの性能は旧タイプの Core i7ノートＰＣよりも 2～3倍程度。
　 ※-1　:　A55オクタ・コアのタブレットはA55コア8個であり、クラスターDynamIQ機能とL3キャシュ共有（コア8個）機能による性能向上となっている。高価なNVIDIAのCUDAコアGPUボードの必要性がないとも言える。RISC-V系 Octa Core Board １万円弱や低価格な16コアボードがあるが、ARM系の低価格な16コアか32コアボードがないので大変残念。10コア以上のx86_64系 Core i5ノートＰＣは 10 万円以上であり、Core i7やCore i9ノートＰＣは 20 万円以上購入する気にならない。その消費電力がCPU SoCだけで125W以上のSoCもある。ARM系の32コア・クラスターでは24W程度です。　作成 2025.01.17

　ARM系の4コア 1.6GHz 64bitsボードは2,500円程度であり、この激安ARM系ボード４個をClusterとすれば16コアで約１万円、ボード 8 個約２万円で32コアのクラスターが可能です。
　RasPi-4の 6 Node クラスターもありRasPi-4モジュール（価格8,000円程度）６個の24コア構成ですので６万円弱程度で購入可能です。　作成 2025.01.17
　ARM系のベクトル演算SVE & SVE2（2048bites）を実装した SoC が少ない、大変残念です。激安ARM系 SoC にはSVE & SVE2を実装することはないのでしょう。　作成 2025.01.17

　 ※-2　:　ラズパイ-5の性能がよい、Quad コアであるがスマホ Octa A76コア2個 + A55コア6個よりもA76コアが4個であるのでよい性能となっている。
　ラピダス社はブロードコム社と提携した。ラズベリーパイのARM系 SoC をBrodcom社が設計しており、2nmプロセス製造のサーバー用ARM系AI-NPU SoCを製造するのでしょう。2nmプロセス製造のラズベリーパイ用低価格なARM系NPU SoCを製品化することはあり得ないでしょう。
　ルネサス社が2027年度頃発売予定のR-Car X5HはCortex-A720AE（SVE2-SIMD） x 32, Cortex-R52 x6の構成で38コアであり、高価な10～12コアのx86_64系 Core i7 or i9ノートＰＣ等よりも高性能となることでしょう。　作成 2025.01.17

◆　GPU並列処理プログラミング　作成 2025.01.03　更新 2025.01.18

　GPUのCUDA並列処理コーディングに挑戦中であり、NVIDIA Jestson-TK1・GPU・CUDAコア 192個のKitボードを１万円弱で入手できたので、CUDAプグラミングに挑戦したがハマっており、KitボードのeMMC・16MBに Ubuntu-14.04が焼き付けてあったがSDK関係のNVCCコンパイラーがない、Jestson-TK1のSDK関係がサポートを終了していた。　2025.01.03
　aptコマンドでSDK関係のソフトをダウンロードできず、試行錯誤し、gcc/g++関係とNVCCコンパイラーとライブラリー、ヘッダーファィルをインストールできた。しかし、ARMコアが動作したがGPU-CUDAコアが動作せず、ハマっている。NVCCコンパイラーが使えない、他のWebを見てもNVCCコンパイラーでソフトを制作した方が少なく、OpenCV等に対応しており物体認識処理以外には利用価値がないようである。　2024.12.25
　以前、NVIDIA社はスマホやタブレット用の Tegra K1等のコアを生産していたが低価格なCPU-GPUコアの生産を止めて高価なデータセンター・サーバー用のGPUコアに特化しているようです。　2025.01.03

　NVIDIAの互換性のないGPU・CUDA系はやる気にならないので、低価格のノート PC・GPU で並列処理ソフト制作に挑戦中であり、その開発ソフトを調べたが OpenCLやOpenMP, OpenMPI, OpenACC, Elizer, HCC（C++AMP）, HIP（CUDA互換 ?）, CUDA , Halide, Llama-CPP・・・等があり、C/C++（gcc/g++, clang）からの移行はOpenCLやOpenMP, OpenMPI（低価格なARM系クラスターCluster）が無難なようです。　2025.01.03
　ノート PC・GPU （旧ATI系の Graphics-HD系）で Ubnutu 22.04 上で並列処理ソフトが動作するようになった AMD系のSDKソフトであり、Intel系のSDKソフトの技術情報が少ないので大変である。その点、AMD系のSDKソフトがわかり易い。また、ARMコア Mali系GPUの技術情報が少ないのでOpenCL対応Androidアプリ・ソフトの制作が大変であり難易度が高い、最適化する為にはNEON-SIMDとGPUの計算処理コードをアセンブラで記述する必要もありそうです。　2025.01.03

　残念なことにOpenCLは全てのGPUコアに対応していない、OpenCLに対応したGPUは数年以内の新しいタイプでありOpenCLアプリ・ソフトで制作しても対応していないGPU-SoCではGPUコアで動作せず、OpenMPによりCPUコアで並列処理計算処理するので劇的な性能向上とならない。GPUコアは画像処理用プロセッサであり画像処理中は他のOpenCL計算処理をする余裕がないので、他のWeb情報のような数百倍の性能向上とならない。OpenCLはオープン・ソースではあるが開発段階のようであり、特定の企業のみが利用しており一般の人たちがOpenCLアプリ・ソフトを制作することが困難なようです。　2025.01.07
　GPUコア・チップは万能ではない。その根拠にNVIDIA社はAI用GPU-SoCにTensorコアを追加しており、GPUコアだけではAI計算処理の最適化が困難なのです。AI計算処理以外の利用では、ARM系ボードにはARM + DSP コア・ボードがあるのでこれらのボードを活用したほうが確実に性能向上となります。10万円以上の高価なNVIDIA社GPUコア・ボードの必要性がない。　2025.01.07

　RISC-V系の拡張ベクターRVVコアも興味深い、他のWeb情報によると単一コアよりもOcta-Coreベクトル計算処理RVVが50～110倍の性能向上となるようであり、既に64コアRISC-V・ボードが製品化されている。その価格は高価であり、低価格な16コアか32コアRISC-V版の発売に期待したい。中国の技術者は優秀であり国内では中国製のようなRISC-V系 SoC やSiP を設計・製造ができない、大変残念なことです。今頃の若い人たちはゲームで遊んでいる、そのようなことだから中国の技術者に追い越されてしまった。また、国の補助金制度にも問題があり大企業優先で中小企業向けの補助金が微々たる金額です。　2025.01.18

◆　タブレットとスマホ、マルチ・コアボード、ＰＣでのベンチマーク　更新　2024.12.24

　下記に実行したMulti-Threadのベッチマークを纏めました。　作成 2024.01.03　更新 2024.12.24
　　　　実行時間 :　Multi-Thread／Single　加算のみ実行時間　for Loop 回数 1000 x 100万回 x 8
　　　　（）内は100万間当りに換算　　掛算割算・加算引き算の実行時間　for Loop 回数 100 x 100万回 x 8

CPU & MPUデバイスと OS	加算のみ実行時間	掛算割算実行時間	動作周波数	備　考
iMac i5	1.03s/3.62s	1.47s/4.83s	2.8~3.3GHz	clang -O2
i5 Quad	（13ms/45ms）	（184ms/604ms）	<-Multi／Single	<-100万回当り
MacBookAir i7	1.67s/5.15s	3.07s/5.65s	1.8~2.9GHz	gcc -O2
i7 Dual/4 thread	（21ms/64ms）	（384ms/706ms）	<-Multi／Single	<- 100万回当り
Andoid-11 スマートフォン	1.27s/4.43s	3.6s/7.33s	A76 2.2GHz	NDK gcc-4.9 -O2
A76+A55 Octa	（16ms/55ms）	（450ms/916ms）	<-Multi／Single	<- 100万回当り
Andoid-8 スマホ	1.28s/5.87s	3.69s/5.81s	A76 2.6GHz	NDK gcc-4.9 -O2
A76+A55 Octa	（16ms/73ms）	（461ms/726ms）	<-Multi／Single	<- 100万回当り
Andoid-13 タブレット	2.12s/7.59s	5.0s/13.37s	A55 1.8GHz	NDK gcc-4.9 -O2
A55 Octa	（26ms/95ms）	（625ms/1.67s）	<-Multi／Single	<- 100万回当り
Andoid-9 タブレット	3.03s/12.1s	5.3s/20.1s	A53 2.0GHz	NDK gcc-4.9 -O2
A53 Quad	（38ms/151ms）	（663ms/2.51s）	<-Multi／Single	<- 100万回当り
Orange Pi Zero 2	------	3.98s/15.9s	A53 1.5GHz	gcc-7.5 -O2
A53 Quad	------	（497ms/1.98s）	<-Multi／Single	<- 100万回当り
Raspberry Pi 5	0.99s/4.01s	1.71s/6.69s	A76 2.4GHz	clang-16 -O2
A76 Quad	（12ms/50ms）	（213ms/836ms）	<-Multi／Single	<- 100万回当り

　注釈　:　マルチスレッド処理ではOSの時間処理の誤差が発生し、その誤差が10%程度となる、その原因はThread処理によりOSのTime処理の誤差が発生するようであり、１秒以下の計測では誤差が大きくなるので数分間で計測することがベターである。ARM系はDVFS低消費電力機能により動作周波数が切り替るため、OSの時間処理の誤差発生を小さくすることが困難と思われる。　2024.01.03
　上記の表に誤記あり、訂正。　2024.12.24

◆　Multi-Threadの最適化と効果　作成　2024.01.06

　レイトレーシング（Raytracing）やマンデル・ブロート（Mandel Brot）, Fractalの計算処理をマルチ・スレッド処理に挑戦しましたが、人口知能・ニューラルネットワーク処理がマルチ・スレッドによる性能向上とならず、単純な単ループでないため複雑な計算処理をマルチ・スレッドに対応することが困難でした。今後も試す予定です。Raytracer処理とMandel Brotはマルチ・スレッドによる性能向上が可能でした。　2024.01.03

　ループ計算処理のベンチマーク　2024.01.06

デバイス	ループ処理	単純な計算ループ	複雑な計算ループ	性能向上
iMac 2.8GHz	for Loop 加算	100x100万回 RUN	100x100万回 NG	x 3.3 倍
iMac 2.8GHz	for Loop 　加算減算・掛算割算	100x100万回 RUN	100x100万回 NG	x 3.6 倍
iMac 2.8GHz	Whetstone 　4 Thread	Thread 　Multi ／Single　-->	5,208 ->15,625MWIPs	x 3.0 倍
MacBookAir i7 　1.8 -> 2.9GHz	Whetstone 　4 Thread	Thread 　Multi ／Single　-->	5,556 ->15,625MWIPs	x 2.8 倍
Android 2.2GHz	for Loop 加算	100x100万回 RUN	100x100万回 NG	x 2.0 倍
Android 2.2GHz	for Loop 　加算減算・掛算割算	100x100万回 RUN	100x100万回 NG	x 3.5 倍
iMac 2.8GHz	MandelBrot	-----------	ピクセル 2048x2048	x 3.5 倍
iMac 2.8GHz	Raytrace	-----------	計算処理のみ動作	x 3.2 倍
iMac 2.8GHz	AI-NN & DNN, BNN	-----------	性能アップ NG、挑戦中	N　G
A53 Quad 1.5GHz	MandelBrot	-----------	ピクセル 2048x2048	x 3.8 倍
i5-1035 boost 3.5GHz	単精度floating Point	110 -> 410GFLOPs	-----------	x 3.7 倍
A76 Octa 2.2GHz	単精度floating Point	35 -> 214 GFLOPs	-----------	x 6.1 倍
A55 Octa 1.8GHz	単精度floating Point	15 -> 111 GFLOPs	-----------	x 7.4 倍
A53 Quad 1.3GHz	単精度floating Point	11 -> 40 GFLOPs	-----------	x 3.6 倍
Atom Z3745 Quad	単精度floating Point	9 -> 35 GFLOPs	-----------	x 3.8 倍
Atom Z8700 Quad	単精度floating Point	15 -> 56 GFLOPs	-----------	x 3.7 倍
Celeron J2900 Quad 　boost 2.4GHz	単精度floating Point	15 -> 58 GFLOPs	-----------	x 3.8 倍

　注釈　:　x86-64系の単精度floating Pointデータは参考値、他サイトより引用。
　単精度フローティング・ポイント（FPV）ループ計算処理ではコア数にほぼ比例した性能向上となっている。倍精度フローティング・ポイントもほぼ同等な性能向上であった。コア数が多い方が大幅に性能がアップする。
　人口知能処理（NN & DNN, BNN）、Cifar, MobileNet, TensorFlow, SSE, NEON等に関してはMulti-Thread プログラミングの難易度が高く、性能がアップせす、挑戦中。　2024.01.03
　制御関係では、画像・物体検出を除けば人口知能処理のNN や DNN, BNN, CNN等が必要なく独自のシンプルな学習機能でよく、制御関係の学習機能は約45年前（1977年頃に）に実現されており多くの製品を実用化したメーカーがあります。　2024.01.13

◆　レイトレーシングのマルチスレッド・ベンチマーク　作成 2024.01.06　更新 2024.03.17

　　Raytracing の計算処理のみをMulti-Threadでスピード・アップに挑戦し成功した。但し、計算処理中に画面表示をさせるとフリーズしたり、１個のみコア動作となり性能アップに至らなかった。やはり、難易度が高い。
　　実行時間 :　Multi-Thread／Single　ループ回数 Quad -> 400回、Octa ->800回、ピクセル320x240

CPU & MPUデバイスと OS	Raytrace 実行時間	１回当りに換算	動作周波数	備　考
iMac i5 2.8GHz Quad	3.29s/10.39s	8.2ms/26ms	2.8~3.3GHz	clang -O2
Quad / 4 thread	400 ループ	１回の処理時間	性能 x 3.2 倍	Loop 400回
MacBookAir i7	4.62s/14.13s	12ms/35ms	1.8~2.9GHz	clang -O2
i7 Dual / 4 thread	400 ループ	１回の処理時間	性能 x 3.1 倍	Loop 400回
Andoid-8 スマートフォン	5.2s/17.2s	6.5ms/21ms	A76 2.6GHz	NDK gcc-4.9 -O2
A76+A55 Octa	800 ループ	１回の処理時間	性能 x 3.3 倍	Loop 800回
Andoid-13 スマートフォン	6.4s/19.2s	8ms/24ms	A76 2.2GHz	NDK gcc-4.9 -O2
A76+A55 Octa	800 ループ	１回の処理時間	性能 x 3.0 倍	Loop 800回
Andoid-13 タブレット	12.2s/48.7s	15ms/60ms	A55 1.8GHz	NDK gcc-4.9 -O2
A55 Octa	800 ループ	１回の処理時間	性能 x 4.0 倍	Loop 800回
Andoid-11 タブレット	5.29s/23.7s	6.6ms/29ms	A75 2.0GHz	NDK gcc-4.9 -O2
A75 x 1 + A55 x 3	800 ループ	１回の処理時間	性能 x 4.0 倍	Loop 800回
Raspberry Pi 5　※-1	2.18s/6.7s	5.5ms/17ms	A76 2.4GHz	Clang-16 -O2
A76 x 4	400 ループ	１回の処理時間	性能 x 3.1 倍	Loop 400回

　※-1 :　ラズパイの計算処理性能が以外に良い結果であった。Cortex-A76の計算処理性能がＰＣのx86-64コアと同等な性能であった。　2024.03.17

　ARM系はコアが8個であるが、期待したスピード・アップとならなかった。コンパイラーバージョンが古く最新のClangであれば最適化されており、もっと良い結果となるのでしょう。　2024.01.06

◆　互換性のないGPUマルチコアの性能向上と人口知能処理に疑問　　作成 2024.01.06

　近年、CPUコアよりも互換性のないGPUコア系が人工知能処理に向いており大幅な性能向上となると言われておりますが、本当に、そうなのでしょうか。疑問と言わざるを得ません。事実、1万個に近いGPUコアであるから、理論上、数千倍の性能向上となるはずであるが、ベンチマーク・テスト結果でもCPUコアよりもGPUコア性能が数倍から十数倍程度である。
　グラフックスの性能はCPUコアよりもGPUコア・性能が数百倍～数千倍にならず数倍程度の体感速度であり、数千個のGPUコアの性能が理論値であり、消費電力が極端に大きく数十万円～数百万円の高価なGPUコアボードを利用している。　2024.01.06

　一般的なC/C++コンパイラー等では劇的なGPUコア性能向上とならないため、互換性のないプログラミングの難易度が高い特殊な開発言語を提供したりしており、GPUコア自体がメーカー独自のノウハウであるため、その独自仕様にC/C++コンパイラーの最適化が困難なのでしょう。つまり、限界に達していると思われる。
　現状のGPUコア系はAI用NPUやAPU,TPU等コアを追加しており、GPUコアが人工知能処理に向いていないと認めているようなことです。　2024.01.06

　自動車の自動運転では、技術的に疑問なディープ・ラーニング（機械学習）の膨大な学習データの処理の為に数キロワットの電気ヒータのように電力食いのGPUボードを利用しており、自動運転・自動車の事故も多く、そのような危険な自動運転・自動車が町を走り始めており行政の規制には疑問を感じる。中小企業に対しては厳しい規制であり大手企業に対しては甘い規制と思われます。
　現状のCPUコアやGPUコア・技術が限界に達しており、膨大なデータの計算処理ではない人間の脳のような効率的な人工知能処理の技術が必要なのです。　2024.01.06
　

◆　ニューラル・ネットワーク（NN）人口知能処理に疑問　　作成　2024.01.20　更新　2024.01.22

　ニューラル・ネットワーク（ニューロン）と呼ばれる、脳の海馬内・シナプスを模擬したような単純なNN処理が多数公開されており、その単純なNN処理で人口知能処理が可能とされている。
　しかし、海馬の記憶と学習、推論等はNN処理のような単純ではなく、海馬の記憶と学習は神経細胞のシナプス同士結合であると言われており、その神経細胞のシナプス・電気信号伝達はシナプスから放出された伝達物質（カルシウム・イオン）を別のシナプス・受容体で受け取る低速な科学反応です。　2024.01.20　訂正 2024.03.17

　海馬の記憶と学習推論等は、神経細胞・シナプス同士結合が遺伝子によるとされており、肝心な、この部分が解明されていない。脳科学は劇的な進化したとされていますが肝心な遺伝子によるシナプス同士結合メカニズムが解明されていないのが大変残念です。数万個程度のシナプス同士結合機能は遺伝子により複雑な制御となっているよであり単純な模擬的なNN処理で実現することができないのでしょう。　2024.01.22

　シナプス同士の伝達速度は、微弱なアナログ電位差・マイナス～プラス数十ミリボルト（mV）の複数・パルス電気信号が数十HZ～数百HZであり、その低速な伝達速度と反応速度が数百ミリ秒（mS）であっても学習と創造、推論、記憶等を実現できまます。しかし、高性能なCPUやGPU等では脳・海馬の学習と創造、推論等を実現できません。ニューロン数1,500億個程度（シナプス数1,000兆個程度）の脳・細胞と海馬シナプス・ネットワークが遥かに優れています。　2024.01.20　訂正 2024.01.22

　約40年前に書店で販売されていたパターン・マッチング処理による手書き文字認識の書籍がありましたが、当時の低速な10MHz～100MHz程度のＰＣで（1983年頃に）は実現できませんでした。最近の人口知能も同様な手法であり、高性能なCPUや互換性のないGPU等で複雑な処理が可能となりました。しかし、原理的にはパターン・マッチング処理であり、膨大なデータと膨大な学習データから結果をパターン・マッチング処理結果で導きだすと言う古典的な技術です。高度な海馬の記憶と推論、創造、学習は現状の単純なNN処理では不可能です。　2024.01.20

　国内では、なぜ、限界に達しいるような欧米のコンピュー技術や生成AI技術等に振り回されているのでしょう。残念なことに国産・独自技術が殆どないのです。古い技術のノイマン型コンピュー技術では、米国や台湾、中国、韓国等にも経済競争で勝てない時代となってしまいました。だが、国の会計検査が不要で不透明な基金（闇税金?）から大企業等への巨額な補助金の提供を進めている。こんなことでよいのでしょうか。古い技術の非ノイマン型コンピュー技術でないアナログ方式（ニューロン・チップAnalog Newron Chip）の新コンピュータ・アーキテクチャー技術を開発できないのでしょう。　2024.01.20

◆　新人口知能処理アーキテクチャー ? 人口ニューロン素子　　作成　2024.01.22

　某大学では動物の脳実験で薬物の投与にり歩けなかったマウスが歩けるように回復したとの成果が発表されております。薬物の投与により人間の記憶が格段に良くなれば夢のような世界となることでしょう。しかし、遺伝子によるシナプス同士結合機能との関連が不明であり人間での実験が可能なのか疑問があります。　2024.01.22

　某大学では人口ニューロン素子や人口シナプス素子、新技術素子等の研究が進められており、その成果があまり進展しているとは言えません。古典的な技法のパターン・マッチング処理が正しい方向性かも疑問であり、そのパターン・マッチング処理を半導体素子で人口知能アナログ・コンピュータを実現しても劇的な進化とは言えないと思います。　2024.01.22
　2027年度、2nm以下のプロセス製造で製造した純国産・半導体が単なる大手企業の下請け（買いたたき）となっては、巨額の補助金の費用対効果に疑問があります。　2024.01.22

◆　ARMコア等のTinyML-RunとTimeFor-Loopのベンチマーク　作成　2024.01.03

　　ARM系のクロス・コンパイラーgcc/g++はコアの種類が多く、コンパイラーオプション設定やライブラリー関係でハマることが多いのが、RXコアやRISC-Vコアのクロス・コンパイラーgcc/g++は悩むことも少なくプログラミングが楽であり、激安のRISC-Vコアボードが魅力的です。
　　Windows環境ではクロス・コンパイラーを構築する気にならないが、MacOS環境では若干ハマることがあり、RISC-VコアボードはLinuxやRTOSの利用が多いのでUbuntu環境がベターなようです。
　　RISC-Vコアにはベクター拡張機能（RVV）があり計算処理性能アップが可能なので、そのRVVによるプログラミングに挑戦する予定です。　2024.01.03

　　種々のコア・人工知能TinyML-RunTimeベンチマークはこちらのページです。
　　レイトレーシング（RayTracing）ベンチマークはこちらのページです。
　　For-Loopベンチマークはこちらのページです。
　　RISC-Vコア関係はこちらのページです。
　　超低消費電力なMPU関係はこちらのページです。更新 2024.03.18

◆　自動制御装置や計測装置のハード・ソフト

　自動制御装置のハードとソフトを開発、及び設計製作しました、特殊なシステムの案件がありましたら是非ともご用命下さい。
　　詳細はこちらのページです。

◆　弊社の製品　弊社の低価格なボード・ソフト製品一覧

　　　　　トップ・ページへ戻り

◆　このページに情報を掲示されたい方はどうぞお気軽にご連絡下さい、無料で掲示致します。又ご希望があれば御社のページへリンク致します。

　このページへはご自由にリンクして下さい、その際Ｅメールでご感想などをご連絡戴ければと思います。

　AI 用語の説明 : 機械学習、深層学習、デープラーニング（DeepLearning）、テンソル（Tensor）TensrFlow, TensorRT,
　　　　　Nerral Neteork Console(CNN), MobileNet, CIFAR, NNL, C-RunTime, DNN, BNN, NNPack, DarkNet,
　　　　　SSD, TVM, ONNC, LSTM, RNN, Caffe, Chainer, DBT, ResNet, MLP, nGraph, Keras, MXNET, CNTX,
　　　　　QNN, PyTorch, PyNum, NumPy, TinyYolo, CMSIS-NN, PolyPhny, MyHDL
　並列プログラミング　:　OpenMP, OpenMPI, OpenBLAS, LAPACK, OpenACC, OpenHTC, OpenCL, OPenGL, Vulkan, Halide, Cluster, GPU, NVIDIA, AMD Ryzen, INTEL, Qualcom, ATI, Hexagon DSP, Adreno, Intel MKL, oneAPI, oneAI, intel-basekit, intel-hpckit, MTT-GPU, Mali 400, Mali T720 T860 T880 T864, Mali G31, Mali G52, Mali, 57, Mali G72, Mali G610, NeoversV1 N2 , ThunderX, Tegra K1, Jestson TX1 TX2, Jestson Nano Orin-nano, CUDA Grid Block __global__ __Device__ nvcc ccbin g++ -lcuda nvcc++, PICe Bus, QPU ALU Video Coe IV III VI, 16 lane SIMD, -lOpenCL, mpicc mpirun mpic++, SDK

　脳科学の用語説明 : 　脳科学、大脳、小脳、脳細胞、軸索、樹状突起、シナプス、海馬、大脳基底核、神経細胞、脳神経、自律神経、前頭葉、側頭葉、脊髄、神経ネットワーク、電気信号（活動電位）、神経伝達物質、DNA、イオン、ニューロン、スパイク発射、インパルス、電位変化、ノルアドレナリン、シナプス電位数十ミリボルト（mV）　
　用語の説明 : マイコン（マイクロ・コンピユータ）、MCU（マイクロ・コントローラユニット）、
　MCUの種類は ATmega, PIC32, ESP8266, ESP32, STM32, Xmos, PowerPC, RL78,SH2A, SH4A, H8SX,
　　　　　　　RX110, RX140, RX220, RX231, RX26T, RX631, RX62N, RX64M, RX65N, RX66T,RX71M,RX72M, RX72N, RX72T, RZ/A1H, RZ/Five, RZ/V2H, A64FX
　　　　　　　Arduino, mbed, RTOS, FreeBSD, NetBSD, OpenBSD

　本ページの複写禁止、他サイト・ページへの転写を禁止します。　作成　2024.01.03