人工知能をスピードアップする競争の中で、シリコンバレーの会社Cerebrasは珍しい戦略を取っています:大きくなる。
典型的なコンピュータチップは爪のサイズですが、Cerebras ' チップはディナープレートのサイズです。
ディープラーニングは、音声アシスタント、自動運転車、Goチャンピオンを強化するAIテクノロジーであり、複雑な& quot;ニューラルネットワーク& quot;に依存しています。 レイヤーに配置されたソフトウェア。 ディープラーニングシステムは1台のコンピューターで実行できますが、最大のシステムは接続された数千台のマシンに分散しており、Googleが運営するような大規模なデータセンターに分散している場合もあります。 大規模なクラスターでは、最大48台のピザボックスサイズのサーバーが1人の高さのラックにスライドします。 棚は一列に並んでいて、倉庫ほどの大きさの建物を埋め尽くしています。 これらのシステムのニューラルネットワークは困難な問題を解決できますが、明らかな課題にも直面しています。 クラスター内で増殖するネットワークは、部屋に散らばってつながっている脳のようなものです。 電子は速く動きますが、それでも、チップ間の通信は遅く、多くのエネルギーを消費します。
サンフランシスコのベンチャーキャピタル会社BenchmarkのゼネラルパートナーであるEricVishriaは、2016年春に新しいコンピューターチップ会社であるCerebras Systemsが話すのを聞いたときに、この問題に最初に気づきました。Benchmarkは、Twitterなどの企業への初期投資家として知られています。 Uber、およびebay-つまり、ハードウェアではなくソフトウェアです。 同社は年間約200の新興企業を調査し、1つに投資しています。"私たちは千匹のカエルにキスするこのゲームをプレイしていました。& quot; ヴィシュリアは私に言った。 彼の演説の始めに、彼はカエルを投げ返すことに決めました。"私は、なぜこれに同意したのかと思いました。" 私たち'ハードウェアに投資するつもりはない、& quot;彼は考えたことを思い出した。"それ'ばかげている。"
Cerebrasの共同創設者であるAndrewFeldmanは、チームスライドのスライドカバーから始めて、Vishria 'の注目を集めました。彼の才能は印象的でした。 次にフェルドマンは、2種類のコンピューターチップを比較しました。 最初に、彼はグラフィックスプロセッシングユニット、つまり3D画像を作成するために特別に設計されたGpusチップに注目しました。 今日'の機械学習システムは、さまざまな理由でこれらのグラフィックチップに依存しています。 次に、彼は、一般的なコンピューターでほとんどの作業を行う汎用チップである中央処理装置(cpus)について調べました。" 3番目のスライドは' GPU、'についてでした。 これは実際にはディープラーニングには適していません。たまたまCPUよりも100倍優れています。" Cerebrasは、グラフィックス用ではなく、人工知能用に特別に設計された新しいタイプのチップを考案しました。
Vishriaは、サイバーセキュリティ、医療画像、チャットボット、その他のアプリケーションでディープラーニングを使用することを計画している企業からの売り込みを聞くことに慣れています。 Cerebras 'の講演の後、彼は、Zillow、Uber、Stitch Fixなど、ベンチマークの資金提供を受けた企業のエンジニアと話をしました。 彼らは、& quot;トレーニング& quot;に時間がかかりすぎたため、AIに問題があると彼に言いました。 ニューラルネットワーク。 Googleは、超高速& quot;テンソルプロセッシングユニット、& quot;の使用を開始しました。 またはTpus、人工知能用に設計された特別なチップ。 ヴィシュリアはゴールドラッシュが起こっていることを知っていて、誰かがピックとシャベルを作らなければなりませんでした。
その年、別のベンチャーキャピタル会社であるBenchmark and Foundation Capitalは、Cerebrasに2700万ドルの資金調達を主導し、5億ドル近くを調達しました。 他の企業もいわゆる人工知能アクセラレーターを製造しています。 セレブラス' 競合他社のgroq、Graphcore、Sambanovaは、それらの間で20億ドル以上の資金を調達しました。 しかし、Cerebras ' アプローチはユニークです。 大きなシリコン片に数十枚のウェーハを印刷し、それらを切り取って相互に接続する代わりに、同社は巨大な& quot;ウェーハレベル& quot;を作成しました。 チップ。 典型的なコンピューターチップは指の爪のサイズですが、Cerebrasはディナープレートのサイズであり、世界最大のコンピューターチップです。
競合他社でさえ、この偉業は印象的でした。"これは新しい科学です、& quot; Graphcore 'の最高経営責任者兼共同創設者であるNigelToonが私に語った。" It 'これは素晴らしいエンジニアリングです。 それは'傑作です。" その間、私が話した別のエンジニアは、それを科学プロジェクトとして説明しました-大きな'のために大きなものです。 過去に、同社は巨大なチップを作ろうとして失敗しました。 セレブラス' 計画は、エンジニアリングの課題を克服することが可能であり、それだけの価値があるという賭けに相当します。"正直なところ、私にとって、無知は利点です、& quot; ヴィシュリアは言った。"わからない'彼らがやっていることをやるのがどれほど難しいかを知っていれば、投資する勇気があります。"
コンピュータがどんどん速くなっているのは当然のことです。 これは、ムーア'の法則によって説明されることがよくあります。1965年に半導体のパイオニアであるゴードンムーアによって確立されたパターンで、チップ上のトランジスタの数は毎年または2年ごとに2倍になります。 もちろん、ムーア'の法則は'ではなく、実際には法則ではありません。エンジニアは、& quot;アーキテクチャ& quot;を改善しながら、トランジスタを縮小するためにたゆまぬ努力をしています。 より効率的で強力な設計を作成するための各チップの。
チップアーキテクトは、リソースが集中し、ブロックが密集している都市が郊外よりも効率的であるように、単一の大規模なコンピュータチップが多数の小さなチップよりも効率的であるかどうかを長い間考えてきました。 このアイデアは、テキサスインスツルメンツが数インチ幅のチップの生産を制限した1960年代に最初に試みられました。 しかし、会社'のエンジニアは歩留まりの問題に遭遇しました。 どのシリコンウェーハでも、製造上の欠陥は必然的に特定の数の回路を危険にさらします。 ウェーハに50個のチップが含まれている場合、会社は悪いものを捨てて良いものを売ることができます。 しかし、成功するすべてのチップが単一のウェーハの動作回路に依存している場合、多くの高価なウェーハが廃棄されます。 Texas Instrumentsは解決策を見つけましたが、テクノロジーとニーズはまだありませんでした'まだありません。
1980年代に、ジーン・アムダールというエンジニアが、彼が設立したTrilogySystemsという会社で問題の解決を再び試みました。 シリコンバレー'の歴史上最大のスタートアップとなり、約2億5000万ドルの資金が提供されました。 歩留まりの問題に対処するために、Trilogyは冗長コンポーネントをチップに印刷しました。 この方法では、生産量は増加しますが、チップの速度は低下します。 一方、三部作は他の方法で苦労しています。 アムダールはロールスロイスを持ってモーターサイクリストに轢き、法的な問題を引き起こしました。 その大統領は脳腫瘍で亡くなりました。 大雨により、工場の建設が遅れ、空調システムが錆び、チップにほこりがたまりました。 1984年に、三部作はあきらめました。"私は'それがどれほど難しいかわかりませんでした、& quot; アムダール'の息子はタイムズに語った。
Trilogy 'のテクノロジーが成功すれば、ディープラーニングに使用できるようになります。 代わりに、Gpus(ビデオゲームで使用されるチップ)は、国立研究所の科学的問題を解決しています。 AIにGPUを再利用することは、ニューラルネットワークが非常に複雑である一方で、多くの乗算と加算に依存しているという事実に依存しています。"ニューロン& quot;の場合 ネットワーク内で互いに発火し、それらは互いに'の信号を増幅または低減し、接続の重みと呼ばれる係数を掛けます。 効率的なAIプロセッサは、多くのアクティベーションを並行して計算します。 それらをベクトルと呼ばれる一連の数値、行列と呼ばれる数値のグリッド、またはテンソルと呼ばれる高次元のブロックに結合します。 理想的には、1つの行列またはテンソルに別の行列またはテンソルを一度に乗算する必要があります。 GPUは、同様のことを行うように設計されています。
& quot;三部作の影はとても大きい、& quot; フェルドマンは最近私に言った、& quot;人々は考えるのをやめて、'それは'不可能だと言い始める。 '" Nvidiaを含むGPU企業は、ディープラーニング用にチップをカスタマイズする機会に飛びつきました。 2015年、Feldmanとコンピューターアーキテクトのグループは、コンピューターサーバーメーカーのSeamicroを共同設立し、チップメーカーのAMDに3億3400万ドルで売却した後、より大きなチップのアイデアについて話し合い始めました。 彼らはベンチャーキャピタルから借りたオフィスで4ヶ月間この問題に取り組みました。 実行可能なソリューションの概要がわかったとき、彼らは8社と話をしました。 Benchmark、Foundation Capital、Eclipseから資金を調達し、採用を開始しました。
セレブラス' 最初のタスクは、大きなチップを悩ます製造上の問題を解決することです。 チップは元々、直径約1フィートの結晶シリコンの円筒形インゴットであり、鋼製インゴットは1ミリメートル未満の厚さのウェーハに切断されました。 次に、回路は& quot;印刷されます& quot; リソグラフィーと呼ばれるプロセスを介してウェーハ上に。 紫外線に敏感な化学物質が表面に注意深く堆積され、次に紫外線のビームがマスクと呼ばれる詳細なテンプレートを通して投影されます。 これらの化学物質は反応して回路を形成します。
通常、マスクを通して投影された光で覆われた領域はチップになります。 その後、チップが移動し、光が再び投影されます。 数十または数百のチップが印刷された後、それらはウェーハからレーザーカットされます。"それを行う最も簡単な方法は、お母さんが丸いクッキー生地を取り出すことです、& quot; フェルドマンは言った。"彼女はクッキー型を持っていて、クッキーを注意深くカットします。" 物理学と光学の法則により、より大きなクッキーカッターを作ることは不可能です。 その結果、& quot;私たちは2つのクッキーの間の小さな生地を通して通信できる技術を開発しました。"
チップを製造しているTSMCと共同開発した印刷システムCerebrasでは、クッキーの端が重なり合ってワイヤーがつながっています。 結果は、単一の& quot;ウェーハサイズ& quot;です。 ウエハース、銅色の正方形、各辺21cm。 (最大のGpusは直径3cm弱です。)Cerebrasは2019年に最初のチップであるWafer-scale Engine 1を製造しました。今年導入されたWse-2は、より高密度の回路を使用し、2.6兆個のトランジスタが85万個の処理ユニットに詰め込まれています。 、または& quot;コア& quot;。 (上位のGPUには数千のコアしかありませんが、ほとんどのCPUには10未満のコアがあります。)
& quot; 2.6兆個のトランジスタは驚異的です、& quot; シノプシスの会長兼共同最高経営責任者であるアート・デ・ゲウスは次のように述べています。 Synopsysは、Cerebrasや他のチップメーカーがチップ設計を作成および検証するために使用するいくつかのソフトウェアを提供しています。 De Geusは、チップを設計するとき、エンジニアは最初に2つの主要な質問を考慮する必要があると言います。& quot;データはどこから来たのですか?" どこで取り扱われますか?" チップが単純だったとき、設計者は製図台に鉛筆でこれらの質問に答えることができました。 今日の'のより複雑なチップを使用する場合は、作成するアーキテクチャを説明するコードを入力してから、視覚化およびコーディングツールに進みます。"屋根から家がどのように見えるかを考えてください、& quot; デゲウスは言った。"ガレージはキッチンの近くにありますか? それとも寝室の近くですか? あなたはそれを台所の近くに置きたいです-そうでなければ、あなたは'家の隅々まで食料品を運ばなければなりません。" 間取り図を設計した後、彼は次のように説明しました。& quot;方程式を使用して、部屋で何が起こっているかを説明できます。"
チップの設計の複雑さは気が遠くなるようなものです。"ここには多くのレイヤーがあります、& quot; de Geus氏は、主要な高速道路の高架道路のように、回路が交差し、重なり合っていると述べました。 ウェーハの規模で作業するCerebrasのエンジニアにとって、複雑さは増しています。 シノプシス' ソフトウェアは人工知能の形で役立ちます。パターンマッチングアルゴリズムは一般的な問題を特定し、解決策を提案します。 オプティマイザープログラムは、部屋をより速く、より効率的な配置に移動します。 あまりにも多くのレーンが2ブロックの建物に押し込もうとした場合、ソフトウェアを使用すると、エンジニアはロバートモーゼスを演じてブロックを移動できます。
結局、フェルドマン氏は、特大のチップ設計にはいくつかの利点があると言います。 コアが同じチップ上にある場合、それらはより高速に通信します。コンピューター'の脳は、部屋全体に散らばるのではなく、単一の頭蓋骨に集中するようになりました。 チップが大きいほど、メモリの処理も向上します。 通常、ファイルを処理する準備ができている小さなチップは、最初に回路基板上の他の場所にある共有メモリチップからファイルを取得する必要があります。 最も一般的に使用されるデータのみが自宅の近くにキャッシュされます。 ウェーハレベルチップの効率を説明する際に、フェルドマンはアナロジーを提供しました。彼は、フットボールの試合を見たい(コンピューティング作業を行う)寮(チップ)に住むルームメイト(コア)のグループを想像するように私に頼みました。 フェルドマン氏によると、試合を観戦するためには、ルームメイトはビールを冷蔵庫に保管する必要があります(データはメモリに保存されます)。 Cerebrasは各部屋に冷蔵庫を置いているので、ルームメイトは'寮'の共同キッチンやSafewayに行く危険を冒す必要はありません。 これには、各コアが異なるデータをより迅速に処理できるという追加の利点があります。"だから、寮の部屋につぼみを置くことができます、& quot; フェルドマンは言った。"あなたの寮では、シュリッツを持つことができます。"
最後に、Cerebrasは歩留まりの問題を克服する必要があります。 会社'のエンジニアはTrilogy 'のトリックを使用しています:冗長性。 しかし、ここでは前任者よりも有利です。 Trilogyは、多くの異なるコンポーネントを使用して汎用チップを作成しようとするため、障害が発生した1つのコンポーネントの周囲に配線するには、離れた場所に接続する必要があります。 セレブラスについて' チップ、すべてのコアは同一です。 1つのビスケットが間違っている場合、その周りのものも同様に優れています。







