[MetalMathEngine] Add CScalarParameter

favorart · favorart · commit 41e9ca47cfee · 2024-09-13T12:53:40.000+02:00
Signed-off-by: Kirill Golikov &lt;kirill.golikov@abbyy.com&gt;
diff --git a/Build/build.sh b/Build/build.sh
@@ -9,7 +9,7 @@ CMAKE_WORKING_DIR=$ROOT/_cmake_working_dir/NeoML.${FINE_CMAKE_BUILD_TARGET}.${FI
 pushd ${CMAKE_WORKING_DIR}
 
 if [[ $FINE_CMAKE_BUILD_TARGET == "IOS" ]]; then
-	cmake -G Xcode -DUSE_FINE_OBJECTS=ON -DCMAKE_TOOLCHAIN_FILE=${ROOT}/NeoML/cmake/ios.toolchain.cmake -DIOS_ARCH=${FINE_CMAKE_BUILD_ARCH} ${ROOT}/NeoML/NeoML
+	cmake -G Xcode -DUSE_FINE_OBJECTS=ON -DCMAKE_TOOLCHAIN_FILE=${ROOT}/NeoML/cmake/ios.toolchain.cmake -DIOS_ARCH=${FINE_CMAKE_BUILD_ARCH} ${ROOT}/NeoML/NeoML -DCMAKE_BUILD_TYPE=${CMAKE_BUILD_CONFIG}
 elif [[ $FINE_CMAKE_BUILD_TARGET == "Linux" && $FINE_CMAKE_BUILD_ARCH == "x86" ]]; then
 	cmake -DUSE_FINE_OBJECTS=ON -DCMAKE_BUILD_TYPE=${CMAKE_BUILD_CONFIG} -DCMAKE_CXX_FLAGS=-m32 -DCMAKE_C_FLAGS=-m32 ${ROOT}/NeoML/NeoML
 elif [[ $FINE_CMAKE_BUILD_TARGET == "Linux" ]]; then
diff --git a/NeoMathEngine/src/GPU/Metal/MetalMathEngine.h b/NeoMathEngine/src/GPU/Metal/MetalMathEngine.h
@@ -80,31 +80,26 @@ class CMetalMathEngine : public CMemoryEngineMixin, public IRawMemoryManager {
 	void VectorEqual( const CConstIntHandle& firstHandle, const CConstIntHandle& secondHandle,
 		const CFloatHandle& resultHandle, int vectorSize ) override;
 	void VectorEqualValue( const CConstIntHandle& firstHandle,
-		const CFloatHandle& resultHandle, int vectorSize, const CConstIntHandle& valueHandle ) override;
-	void VectorMax( const CConstFloatHandle& firstHandle, float secondValue, const CFloatHandle& resultHandle,
+		const CFloatHandle& resultHandle, int vectorSize, CIntParam value ) override;
+	void VectorMax( const CConstFloatHandle& firstHandle, CFloatParam secondValue, const CFloatHandle& resultHandle,
 		int vectorSize ) override;
-	void VectorMaxDiff( const CConstFloatHandle& firstHandle, float secondValue, const CFloatHandle& gradHandle,
+	void VectorMaxDiff( const CConstFloatHandle& firstHandle, CFloatParam secondValue, const CFloatHandle& gradHandle,
 		int gradHeight, int gradWidth ) override;
 	void VectorELU( const CConstFloatHandle& firstHandle, const CFloatHandle& resultHandle,
-		int vectorSize, const CConstFloatHandle& alpha ) override;
+		int vectorSize, CFloatParam alpha ) override;
 	void VectorELUDiff( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
-		const CFloatHandle& resultHandle, int vectorSize, const CConstFloatHandle& alpha ) override;
+		const CFloatHandle& resultHandle, int vectorSize, CFloatParam alpha ) override;
 	void VectorELUDiffOp( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
-		const CFloatHandle& resultHandle, int vectorSize, const CConstFloatHandle& alpha ) override;
+		const CFloatHandle& resultHandle, int vectorSize, CFloatParam alpha ) override;
 	void VectorReLU( const CConstFloatHandle& firstHandle, const CFloatHandle& resultHandle, int vectorSize,
-		const CConstFloatHandle& upperThresholdHandle ) override;
+		CFloatParam upperThreshold ) override;
 	void VectorReLUDiff( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
-		const CFloatHandle& resultHandle, int vectorSize, const CConstFloatHandle& upperThresholdHandle ) override;
-	void VectorReLUDiffOp( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
-		const CFloatHandle& resultHandle, int vectorSize, const CConstFloatHandle& upperThresholdHandle ) override;
+		const CFloatHandle& resultHandle, int vectorSize, CFloatParam upperThreshold ) override;
 	void VectorLeakyReLU( const CConstFloatHandle& firstHandle, const CFloatHandle& resultHandle,
-		int vectorSize, const CConstFloatHandle& alpha ) override;
+		int vectorSize, CFloatParam alpha ) override;
 	void VectorLeakyReLUDiff( const CConstFloatHandle& firstHandle,
 		const CConstFloatHandle& secondHandle, const CFloatHandle& resultHandle,
-		int vectorSize, const CConstFloatHandle& alpha ) override;
-	void VectorLeakyReLUDiffOp( const CConstFloatHandle& firstHandle,
-		const CConstFloatHandle& secondHandle, const CFloatHandle& resultHandle,
-		int vectorSize, const CConstFloatHandle& alpha ) override;
+		int vectorSize, CFloatParam alpha ) override;
 	void VectorHSwish( const CConstFloatHandle& firstHandle, const CFloatHandle& resultHandle,
 		int vectorSize ) override;
 	void VectorHSwishDiff( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
@@ -129,16 +124,12 @@ class CMetalMathEngine : public CMemoryEngineMixin, public IRawMemoryManager {
 	void VectorHardTanh( const CConstFloatHandle& firstHandle, const CFloatHandle& resultHandle, int vectorSize ) override;
 	void VectorHardTanhDiff( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
 		const CFloatHandle& resultHandle, int vectorSize ) override;
-	void VectorHardTanhDiffOp( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
-		const CFloatHandle& resultHandle, int vectorSize ) override;
 	void VectorHardSigmoid( const CConstFloatHandle& firstHandle, const CFloatHandle& resultHandle, int vectorSize,
-		const CConstFloatHandle& slopeHandle, const CConstFloatHandle& biasHandle ) override;
+		CFloatParam slope, CFloatParam bias ) override;
 	void VectorHardSigmoidDiff( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
-		const CFloatHandle& resultHandle, int vectorSize, const CConstFloatHandle& slopeHandle,
-		const CConstFloatHandle& biasHandle ) override;
+		const CFloatHandle& resultHandle, int vectorSize, CFloatParam slope, CFloatParam bias ) override;
 	void VectorHardSigmoidDiffOp( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
-		const CFloatHandle& resultHandle, int vectorSize, const CConstFloatHandle& slopeHandle,
-		const CConstFloatHandle& biasHandle ) override;
+		const CFloatHandle& resultHandle, int vectorSize, CFloatParam slope, CFloatParam bias ) override;
 	void VectorNeg( const CConstFloatHandle& firstHandle, const CFloatHandle& resultHandle, int vectorSize ) override;
 	void VectorExp( const CConstFloatHandle& firstHandle, const CFloatHandle& resultHandle, int vectorSize ) override;
 	void VectorLog( const CConstFloatHandle& firstHandle, const CFloatHandle& resultHandle,
@@ -148,15 +139,15 @@ class CMetalMathEngine : public CMemoryEngineMixin, public IRawMemoryManager {
 	void VectorNegLog( const CConstFloatHandle& firstHandle, const CFloatHandle& resultHandle, int vectorSize ) override;
 	void VectorErf( const CConstFloatHandle& firstHandle, const CFloatHandle& resultHandle, int vectorSize ) override;
 	void VectorBernulliKLDerivative( const CConstFloatHandle& estimationHandle,
-		const CFloatHandle& resultHandle, int vectorSize, const CConstFloatHandle& target ) override;
+		const CFloatHandle& resultHandle, int vectorSize, CFloatParam target ) override;
 	void VectorAdd( const CConstFloatHandle& firstHandle,
 		const CConstFloatHandle& secondHandle, const CFloatHandle& resultHandle, int vectorSize ) override;
 	void VectorAdd( const CConstIntHandle& firstHandle,
 		const CConstIntHandle& secondHandle, const CIntHandle& resultHandle, int vectorSize ) override;
 	void VectorAddValue( const CConstFloatHandle& firstHandle,
-		const CFloatHandle& resultHandle, int vectorSize, const CConstFloatHandle& addition ) override;
+		const CFloatHandle& resultHandle, int vectorSize, CFloatParam value ) override;
 	void VectorAddValue( const CConstIntHandle& firstHandle,
-		const CIntHandle& resultHandle, int vectorSize, const CConstIntHandle& addition ) override;
+		const CIntHandle& resultHandle, int vectorSize, CIntParam value ) override;
 	void VectorSub( const CConstIntHandle& firstHandle,
 		const CConstIntHandle& secondHandle, const CIntHandle& resultHandle, int vectorSize ) override;
 	void VectorSub( const CConstFloatHandle& firstHandle,
@@ -166,15 +157,15 @@ class CMetalMathEngine : public CMemoryEngineMixin, public IRawMemoryManager {
 	void VectorSub( float first,
 		const CConstFloatHandle& secondHandle, const CFloatHandle& resultHandle, int vectorSize ) override;
 	void VectorMultiplyAndAdd( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
-		const CFloatHandle& resultHandle, int vectorSize, const CConstFloatHandle& multHandle ) override;
+		const CFloatHandle& resultHandle, int vectorSize, CFloatParam mult ) override;
 	void VectorMultiplyAndSub( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
-		const CFloatHandle& resultHandle, int vectorSize, const CConstFloatHandle& multHandle ) override;
+		const CFloatHandle& resultHandle, int vectorSize, CFloatParam mult ) override;
 	void VectorMultiply( const CConstFloatHandle& firstHandle,
-		const CFloatHandle& resultHandle, int vectorSize, const CConstFloatHandle& multiplierHandle ) override;
+		const CFloatHandle& resultHandle, int vectorSize, CFloatParam mult ) override;
 	void VectorMultiply( const CConstIntHandle& firstHandle,
-		const CIntHandle& resultHandle, int vectorSize, const CConstIntHandle& multiplierHandle ) override;
+		const CIntHandle& resultHandle, int vectorSize, CIntParam mult ) override;
 	void VectorNegMultiply( const CConstFloatHandle& firstHandle,
-		const CFloatHandle& resultHandle, int vectorSize, const CConstFloatHandle& multiplierHandle ) override;
+		const CFloatHandle& resultHandle, int vectorSize, CFloatParam mult ) override;
 	void VectorEltwiseMultiply( const CConstIntHandle& firstHandle,
 		const CConstIntHandle& secondHandle, const CIntHandle& resultHandle, int vectorSize ) override;
 	void VectorEltwiseMultiply( const CConstFloatHandle& firstHandle,
@@ -192,10 +183,10 @@ class CMetalMathEngine : public CMemoryEngineMixin, public IRawMemoryManager {
 	void VectorSqrt( const CConstFloatHandle& firstHandle, const CFloatHandle& resultHandle, int vectorSize ) override;
 	void VectorInv( const CConstFloatHandle& firstHandle, const CFloatHandle& resultHandle, int vectorSize ) override;
 	void VectorMinMax( const CConstFloatHandle& firstHandle, const CFloatHandle& resultHandle, int vectorSize,
-		const CConstFloatHandle& minHandle, const CConstFloatHandle& maxHandle ) override;
+		CFloatParam min, CFloatParam max ) override;
 	void VectorMinMaxDiff( const CConstFloatHandle& sourceGradHandle, int gradHeight, int gradWidth,
 		const CConstFloatHandle& firstHandle, const CFloatHandle& resultHandle,
-		const CConstFloatHandle& minHandle, const CConstFloatHandle& maxHandle ) override;
+		CFloatParam min, CFloatParam max ) override;
 	void VectorSigmoid( const CConstFloatHandle& firstHandle, const CFloatHandle& resultHandle, int vectorSize ) override;
 	void VectorSigmoidDiff( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
 		const CFloatHandle& resultHandle, int vectorSize ) override;
@@ -213,8 +204,7 @@ class CMetalMathEngine : public CMemoryEngineMixin, public IRawMemoryManager {
 	void VectorPowerDiffOp( float exponent, const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
 		const CFloatHandle& resultHandle, int vectorSize ) override;
 	void VectorL1DiffAdd( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
-		const CFloatHandle& resultHandle, int vectorSize,
-		const CConstFloatHandle& hubertThresholdHandle, const CConstFloatHandle& multHandle ) override;
+		const CFloatHandle& resultHandle, int vectorSize, CFloatParam hubertThreshold, CFloatParam mult ) override;
 	void VectorDotProduct( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle, int vectorSize,
 		const CFloatHandle& resultHandle ) override;
 	void VectorEltwiseNot( const CConstIntHandle& firstHandle, const CIntHandle& resultHandle, int vectorSize ) override;
@@ -310,10 +300,10 @@ class CMetalMathEngine : public CMemoryEngineMixin, public IRawMemoryManager {
 		const CIntHandle& outputHandle, int outputChannels ) override;
 	void VectorMultichannelLookupAndAddToTable( int batchSize, int channelCount, const CConstFloatHandle& inputHandle,
 		const CFloatHandle* lookupHandles, const CLookupDimension* lookupDimensions, int lookupCount,
-		const CConstFloatHandle& multHandle, const CConstFloatHandle& matrixHandle, int outputChannels ) override;
+		CFloatParam mult, const CConstFloatHandle& matrixHandle, int outputChannels ) override;
 	void VectorMultichannelLookupAndAddToTable( int batchSize, int channelCount, const CConstIntHandle& inputHandle,
 		const CFloatHandle* lookupHandles, const CLookupDimension* lookupDimensions, int lookupCount,
-		const CConstFloatHandle& multHandle, const CConstFloatHandle& matrixHandle, int outputChannels ) override;
+		CFloatParam mult, const CConstFloatHandle& matrixHandle, int outputChannels ) override;
 	void LookupAndSum( const CConstIntHandle& indicesHandle, int batchSize, int indexCount,
 		const CConstFloatHandle& tableHandle, int vectorSize, const CFloatHandle& result ) override;
 	void LookupAndAddToTable( const CConstIntHandle& indicesHandle, int batchSize, int indexCount,
@@ -616,8 +606,8 @@ class CMetalMathEngine : public CMemoryEngineMixin, public IRawMemoryManager {
 
 	IPerformanceCounters* CreatePerformanceCounters( bool ) const override { return new CPerformanceCountersDefault(); }
 	// For Distributed only
-	void AllReduce( const CFloatHandle& /*handle*/, int /*size*/ ) override {};
-	void Broadcast( const CFloatHandle& /*handle*/, int /*size*/, int /*root*/ ) override {};
+	void AllReduce( const CFloatHandle& /*handle*/, int /*size*/ ) override {}
+	void Broadcast( const CFloatHandle& /*handle*/, int /*size*/, int /*root*/ ) override {}
 
 protected:
 	// IRawMemoryManager interface methods
@@ -640,26 +630,8 @@ class CMetalMathEngine : public CMemoryEngineMixin, public IRawMemoryManager {
 		const CBlobDesc& to, const CFloatHandle& toData );
 	void blobSplitByDim( int dimNum, const CBlobDesc& from, const CConstFloatHandle& fromData,
 		const CBlobDesc* to, const CFloatHandle* toData, int toCount );
-};
 
-inline void CMetalMathEngine::VectorReLUDiffOp( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
-	const CFloatHandle& resultHandle, int vectorSize, const CConstFloatHandle& upperThresholdHandle )
-{
-	VectorReLUDiff( firstHandle, secondHandle, resultHandle, vectorSize, upperThresholdHandle );
-}
-
-inline void CMetalMathEngine::VectorLeakyReLUDiffOp( const CConstFloatHandle& firstHandle,
-	const CConstFloatHandle& secondHandle, const CFloatHandle& resultHandle,
-	int vectorSize, const CConstFloatHandle& alpha )
-{ 
-	VectorLeakyReLUDiff( firstHandle, secondHandle, resultHandle, vectorSize, alpha );
-}
-
-inline void CMetalMathEngine::VectorHardTanhDiffOp( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
-	const CFloatHandle& resultHandle, int vectorSize )
-{
-	VectorHardTanhDiff( firstHandle, secondHandle, resultHandle, vectorSize );
-}
+};
 
 } // namespace NeoML
 
diff --git a/NeoMathEngine/src/GPU/Metal/MetalMathEngineBlas.mm b/NeoMathEngine/src/GPU/Metal/MetalMathEngineBlas.mm
@@ -26,7 +26,7 @@
 @import MetalKit;
 
 namespace NeoML {
-    
+
 // The number of combined values for the vector kernels
 static const int VectorCombineCount = 8;
 
@@ -193,13 +193,15 @@ C2DKernel kernel( *queue, "matrixKernelBatchVectorChannelCopyIntIndicesIntData",
 }
 
 void CMetalMathEngine::VectorMultichannelLookupAndAddToTable( int batchSize, int channelCount, const CConstFloatHandle& inputHandle,
-	const CFloatHandle* lookupHandles, const CLookupDimension* lookupDimensions, int lookupCount, const CConstFloatHandle& multHandle,
+	const CFloatHandle* lookupHandles, const CLookupDimension* lookupDimensions, int lookupCount, CFloatParam mult,
 	const CConstFloatHandle& matrixHandle, int outputChannelsCount )
 {
 	ASSERT_EXPR( inputHandle.GetMathEngine() == this );
-	ASSERT_EXPR( multHandle.GetMathEngine() == this );
 	ASSERT_EXPR( matrixHandle.GetMathEngine() == this );
 
+	CFloatHandleStackVar multHandle( *this );
+	multHandle.SetValue( mult );
+
 	int outputChannel = 0;
 	for( int i = 0; i < lookupCount; ++i ) {
 		C2DKernel kernel( *queue, "matrixKernelBatchVectorChannelLookupAndAddToTableFloat",
@@ -222,13 +224,15 @@ C2DKernel kernel( *queue, "matrixKernelBatchVectorChannelLookupAndAddToTableFloa
 }
 
 void CMetalMathEngine::VectorMultichannelLookupAndAddToTable( int batchSize, int channelCount, const CConstIntHandle& inputHandle,
-	const CFloatHandle* lookupHandles, const CLookupDimension* lookupDimensions, int lookupCount, const CConstFloatHandle& multHandle,
+	const CFloatHandle* lookupHandles, const CLookupDimension* lookupDimensions, int lookupCount, CFloatParam mult,
 	const CConstFloatHandle& matrixHandle, int outputChannelsCount )
 {
 	ASSERT_EXPR( inputHandle.GetMathEngine() == this );
-	ASSERT_EXPR( multHandle.GetMathEngine() == this );
 	ASSERT_EXPR( matrixHandle.GetMathEngine() == this );
 
+	CFloatHandleStackVar multHandle( *this );
+	multHandle.SetValue( mult );
+
 	int outputChannel = 0;
 	for( int i = 0; i < lookupCount; ++i ) {
 		C2DKernel kernel( *queue, "matrixKernelBatchVectorChannelLookupAndAddToTableInt",
@@ -366,12 +370,14 @@ C2DKernel kernel( *queue, "matrixKernelBatchVectorChannelLookupAndAddToTableInt"
 }
 
 void CMetalMathEngine::VectorMultiplyAndAdd( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
-	const CFloatHandle& resultHandle, int vectorSize, const CConstFloatHandle& multHandle )
+	const CFloatHandle& resultHandle, int vectorSize, CFloatParam mult )
 {
 	ASSERT_EXPR( firstHandle.GetMathEngine() == this );
 	ASSERT_EXPR( secondHandle.GetMathEngine() == this );
 	ASSERT_EXPR( resultHandle.GetMathEngine() == this );
-	ASSERT_EXPR( multHandle.GetMathEngine() == this ); 
+
+	CFloatHandleStackVar multHandle( *this );
+	multHandle.SetValue( mult );
 
 	C1DKernel kernel( *queue, "vectorKernelVectorMultiplyAndAdd", 1, vectorSize );
 	kernel.SetParam( firstHandle, 0 );
@@ -383,12 +389,14 @@ C2DKernel kernel( *queue, "matrixKernelBatchVectorChannelLookupAndAddToTableInt"
 }
 
 void CMetalMathEngine::VectorMultiplyAndSub( const CConstFloatHandle& firstHandle, const CConstFloatHandle& secondHandle,
-	const CFloatHandle& resultHandle, int vectorSize, const CConstFloatHandle& multHandle )
+	const CFloatHandle& resultHandle, int vectorSize, CFloatParam mult )
 {
 	ASSERT_EXPR( firstHandle.GetMathEngine() == this );
 	ASSERT_EXPR( secondHandle.GetMathEngine() == this );
 	ASSERT_EXPR( resultHandle.GetMathEngine() == this );
-	ASSERT_EXPR( multHandle.GetMathEngine() == this ); 
+
+	CFloatHandleStackVar multHandle( *this );
+	multHandle.SetValue( mult );
 
 	C1DKernel kernel( *queue, "vectorKernelVectorMultiplyAndSub", 1, vectorSize );
 	kernel.SetParam( firstHandle, 0 );
diff --git a/NeoMathEngine/src/GPU/Metal/MetalMathEngineVectorMath.mm b/NeoMathEngine/src/GPU/Metal/MetalMathEngineVectorMath.mm