apply review comments #1

haowhsu-quic · haowhsu · commit c80c1231b69e · 2024-07-16T19:29:27.000-07:00
diff --git a/backends/qualcomm/aot/ir/qcir_utils.cpp b/backends/qualcomm/aot/ir/qcir_utils.cpp
@@ -136,6 +136,7 @@ flatbuffers::Offset<qcir::QuantizeParam> ToQuantizeParam(
     case qcir::QuantizeType::AXIS_SCALE_OFFSET: {
       size_t len = param.axisScaleOffsetEncoding.numScaleOffsets;
       axis = param.axisScaleOffsetEncoding.axis;
+      data.reserve(len);
       for (uint i = 0; i < len; ++i) {
         data.emplace_back(qcir::ScaleOffset(
             param.axisScaleOffsetEncoding.scaleOffset[i].scale,
@@ -151,6 +152,8 @@ flatbuffers::Offset<qcir::QuantizeParam> ToQuantizeParam(
       bitwidth = param.bwAxisScaleOffsetEncoding.bitwidth;
       axis = param.bwAxisScaleOffsetEncoding.axis;
       size_t len = param.bwAxisScaleOffsetEncoding.numElements;
+      scales.reserve(len);
+      offsets.reserve(len);
       for (size_t i = 0; i < len; ++i) {
         scales.push_back(param.bwAxisScaleOffsetEncoding.scales[i]);
         offsets.push_back(param.bwAxisScaleOffsetEncoding.offsets[i]);
@@ -216,10 +219,10 @@ Qnn_QuantizeParams_t ToQuantizeParam(const qparam_type& param) {
       p.bwAxisScaleOffsetEncoding.bitwidth = param->bitwidth();
       p.bwAxisScaleOffsetEncoding.axis = param->axis();
       p.bwAxisScaleOffsetEncoding.numElements = param->scales()->size();
-      p.bwAxisScaleOffsetEncoding.scales = reinterpret_cast<float*>(
-          const_cast<uint8_t*>(param->scales()->Data()));
-      p.bwAxisScaleOffsetEncoding.offsets = reinterpret_cast<int32_t*>(
-          const_cast<uint8_t*>(param->offsets()->Data()));
+      p.bwAxisScaleOffsetEncoding.scales =
+          const_cast<float*>(param->scales()->data());
+      p.bwAxisScaleOffsetEncoding.offsets =
+          const_cast<int32_t*>(param->offsets()->data());
     } break;
     default:
       QNN_EXECUTORCH_LOG_ERROR("qcir::QuantizeType::UNDEFINED detected");
@@ -260,8 +263,7 @@ Qnn_Tensor_t ToTensor(const tensor_type& tensor) {
   QNN_VER_PTR(t)->dataType = ToDataType(tensor->dtype());
   QNN_VER_PTR(t)->quantizeParams = ToQuantizeParam(tensor->qparam());
   QNN_VER_PTR(t)->rank = tensor->shape()->size();
-  QNN_VER_PTR(t)->dimensions = reinterpret_cast<uint32_t*>(
-      const_cast<uint8_t*>(tensor->shape()->Data()));
+  QNN_VER_PTR(t)->dimensions = const_cast<uint32_t*>(tensor->shape()->data());
   QNN_VER_PTR(t)->clientBuf.dataSize = tensor->data()->size();
   QNN_VER_PTR(t)->clientBuf.data = is_io_tensor(QNN_VER_PTR(t)->type)
       ? nullptr
diff --git a/backends/qualcomm/aot/wrappers/TensorWrapper.h b/backends/qualcomm/aot/wrappers/TensorWrapper.h
@@ -79,7 +79,7 @@ class TensorWrapper {
     return QNN_VER_PTR(tensor_)->quantizeParams;
   }
 
-  std::string GetName() const {
+  const std::string& GetName() const {
     return qnn_tensor_name_;
   };
 
diff --git a/backends/qualcomm/runtime/QnnManager.cpp b/backends/qualcomm/runtime/QnnManager.cpp
@@ -329,7 +329,7 @@ Error QnnManager::AllocateTensor() {
     std::shared_ptr<TensorWrapper> tensor_wrapper =
         CreateTensorWrapper(output_tensors[i]);
     tensor_wrapper->UpdateQnnTensorMeta(output_tensors[i]);
-    std::string tensor_name = tensor_wrapper->GetName();
+    const std::string& tensor_name = tensor_wrapper->GetName();
     // this is required by identifying shared buffer mechanism
     // info might be missed if context binary came from qnn_converter
     if (tensor_name.find("output_") == std::string::npos) {
diff --git a/backends/qualcomm/runtime/backends/QnnGraphCommon.cpp b/backends/qualcomm/runtime/backends/QnnGraphCommon.cpp
@@ -82,7 +82,7 @@ Error QnnGraph::EnsureTensorInQnnGraph(
 
     int name_conflict_count = 0;
     while (error == QNN_TENSOR_ERROR_NAME_HASH_COLLISION) {
-      std::string old_name = tensor_wrapper->GetName();
+      const std::string& old_name = tensor_wrapper->GetName();
 
       std::string new_name =
           old_name + "_" + std::to_string(name_conflict_count);
diff --git a/backends/qualcomm/tests/test_qnn_delegate.py b/backends/qualcomm/tests/test_qnn_delegate.py
@@ -1360,7 +1360,7 @@ def test_qnn_backend_context_direct(self):
                 module,
                 tuple(
                     torch.randn(size=v.shape, dtype=v.dtype)
-                    for _, v in bundle_program["inputs"].items()
+                    for v in bundle_program["inputs"].values()
                 ),
                 lowered_module,
             )
@@ -1528,7 +1528,7 @@ def test_qnn_backend_context_direct(self):
                 module,
                 tuple(
                     torch.randn(size=v.shape, dtype=v.dtype)
-                    for _, v in bundle_program["inputs"].items()
+                    for v in bundle_program["inputs"].values()
                 ),
                 lowered_module,
             )
diff --git a/backends/qualcomm/tests/utils.py b/backends/qualcomm/tests/utils.py
@@ -53,26 +53,25 @@ def generate_context_binary(
     assert qnn_sdk, "QNN_SDK_ROOT was not found in environment variable"
     assert ndk, "ANDROID_NDK_ROOT was not found in environment variable"
 
-    inputs_tup = tuple(v for _, v in inputs.items())
+    inputs_tup = tuple(inputs.values())
     jit_module = torch.jit.trace(module, inputs_tup)
     torch.jit.save(jit_module, f"{artifact_dir}/jit_module.pt")
 
     # input data
     if quantized:
-        input_list, idx = [], 0
+        input_list = []
         for name, data in inputs.items():
             file_name = f"{artifact_dir}/{name}.raw"
             data.detach().numpy().tofile(file_name)
             input_list.append(file_name)
-            idx += 1
 
         with open(f"{artifact_dir}/input_list.txt", "w") as f:
             f.write(" ".join(input_list))
 
     # flow of qnn tools
     target = "x86_64-linux-clang"
     inputs_str = [
-        f"-d '{k}' " + str(tuple(v.shape)).replace(" ", "")[1:-1]
+        f"-d '{k}' {str(tuple(v.shape)).replace(' ', '')[1:-1]}"
         for k, v in inputs.items()
     ]
     cmds = [
diff --git a/backends/qualcomm/utils/utils.py b/backends/qualcomm/utils/utils.py
@@ -228,37 +228,34 @@ def capture_program(
 
 
 def from_context_binary(ctx_path: str, op_name: str):
+    def implement_op(custom_op, op_name, outputs):
+        @torch.library.impl(
+            custom_op, str(op_name), dispatch_key="CompositeExplicitAutograd"
+        )
+        def op_impl(inputs: List[torch.Tensor]):
+            return tuple(
+                torch.zeros(tuple(v.shape), device="meta", dtype=v.dtype)
+                for v in outputs.values()
+            )
+
     def build_graph(inputs, outputs):
         # custom op declaration
         inputs_str = "Tensor[] inputs"
         func_proto = f"{op_name}({inputs_str}) -> Any"
         custom_op = Library(OpContextLoader.namespace, "FRAGMENT")
         custom_op.define(func_proto)
         # custom op implementation
-        args_name = "inputs"
-        inputs_str = f"{args_name}: List[torch.Tensor]"
-        outputs_str = "return " + ", ".join(
-            [
-                f"torch.zeros({tuple(v.shape)}, device='meta', dtype={v.dtype})"
-                for _, v in outputs.items()
-            ]
-        )
-        exec(
-            f'@torch.library.impl(custom_op, "{op_name}", '
-            'dispatch_key="CompositeExplicitAutograd")'
-            f"\ndef {op_name}_impl({inputs_str}):"
-            f"\n\t{outputs_str}",
-        )
+        implement_op(custom_op, op_name, outputs)
+
         # model architecture mimicking context binary
-        inputs_str = ", ".join(k for k in inputs.keys())
-        exec(
-            "class Model(torch.nn.Module):"
-            f"\n\tdef forward(self, {inputs_str}):"
-            f"\n\t\t{args_name} = [{inputs_str}]"
-            f"\n\t\treturn torch.ops.{OpContextLoader.namespace}.{op_name}.default({args_name})",
-        )
-        model = eval("Model()")
-        prog = torch.export.export(model, tuple(v for _, v in inputs.items()))
+        class Model(torch.nn.Module):
+            def forward(self, *inputs):
+                return getattr(
+                    getattr(torch.ops, OpContextLoader.namespace), op_name
+                ).default(inputs)
+
+        model = Model()
+        prog = torch.export.export(model, tuple(inputs.values()))
         # bookkeeping for variables' life cycle
         return {
             "custom_op": custom_op,
@@ -292,7 +289,7 @@ def build_tensor(tensors, dtype_map):
     assert qnn_mgr.Init().value == 0, "failed to load context binary"
     qnn_mgr.AllocateTensor()
     dtype_map = {}
-    for type_map in [QNN_QUANT_TYPE_MAP, QNN_TENSOR_TYPE_MAP]:
+    for type_map in (QNN_QUANT_TYPE_MAP, QNN_TENSOR_TYPE_MAP):
         for k, v in type_map.items():
             dtype_map.setdefault(v, k)
     inputs = build_tensor(qnn_mgr.GetGraphInputs(), dtype_map)
diff --git a/examples/qualcomm/executor_runner/qnn_qaihub_llama_runner.cpp b/examples/qualcomm/executor_runner/qnn_qaihub_llama_runner.cpp
@@ -43,7 +43,7 @@ DEFINE_double(
 DEFINE_int32(
     eval_mode,
     0,
-    "0: BERT-like evaluation / 1: KV cache based token generation / 2: Mixed mode (TBD)");
+    "0: PromptProcessor / 1: TokenGenerator / 2: MixedMode (TBD)");
 DEFINE_int32(
     seq_len,
     128,
@@ -74,15 +74,11 @@ int main(int argc, char** argv) {
       FLAGS_logits_scale,
       FLAGS_logits_offset);
 
-  // generate tokens
-  std::string inference_output;
+  // generate tokens & store inference output
+  std::ofstream fout(FLAGS_output_path.c_str());
   runner.generate(FLAGS_prompt, FLAGS_seq_len, [&](const std::string& piece) {
-    inference_output += piece;
+    fout << piece;
   });
-
-  // store inference output
-  std::ofstream fout(FLAGS_output_path.c_str());
-  fout << inference_output;
   fout.close();
   return 0;
 }
diff --git a/examples/qualcomm/llama2/llama_qaihub.py b/examples/qualcomm/llama2/llama_qaihub.py
@@ -28,7 +28,7 @@
 from executorch.exir.passes.memory_planning_pass import MemoryPlanningPass
 
 
-if __name__ == "__main__":
+def main():
     parser = setup_common_args_and_variables()
 
     parser.add_argument(
@@ -106,28 +106,27 @@
         use_multi_contexts=True,
     )
     compiler_specs = generate_qnn_executorch_compiler_spec(
-        soc_model=eval(f"QcomChipset.{args.model}"),
+        soc_model=getattr(QcomChipset, args.model),
         backend_options=backend_options,
         is_from_context_binary=True,
     )
 
     if args.pre_gen_pte is None:
         # create custom operators as context loader
-        bundle_programs = []
-        for i, target in enumerate(target_names):
-            file_name = f"{args.context_binaries}/{target}"
-            bundle_programs.append(from_context_binary(file_name, f"ctx_loader_{i}"))
+        bundle_programs = [
+            from_context_binary(f"{args.context_binaries}/{target}", f"ctx_loader_{i}")
+            for i, target in enumerate(target_names)
+        ]
         # lower with QnnBackend
-        lowered_modules = []
-        for prog in bundle_programs:
-            lowered_modules.append(
-                to_backend("QnnBackend", prog["edge_program"], compiler_specs)
-            )
+        lowered_modules = [
+            to_backend("QnnBackend", prog["edge_program"], compiler_specs)
+            for prog in bundle_programs
+        ]
         # setup spill-fill buffer for relieving runtime memory usage
         canonicalize_program(lowered_modules)
         # export pte files
         pte_name, pte_files = "qaihub_llama7b", []
-        for i, _ in enumerate(target_names):
+        for i in range(len(target_names)):
             memory_planning_pass = MemoryPlanningPass(
                 memory_planning_algo="greedy",
                 alloc_graph_input=False,
@@ -147,7 +146,7 @@
         pte_files = [f"{args.pre_gen_pte}/{pte_name}_{i}.pte" for i in range(4)]
 
     if args.compile_only:
-        exit(0)
+        return
 
     def get_logit_encoding(path_to_last_shard: str):
         with open(f"{args.context_binaries}/{path_to_last_shard}", "rb") as f:
@@ -230,3 +229,7 @@ def post_process():
     adb.push(files=custom_files)
     adb.execute(custom_runner_cmd=runner_cmds)
     adb.pull(args.artifact, callback=post_process)
+
+
+if __name__ == "__main__":
+    main()
diff --git a/examples/qualcomm/llama2/qaihub_runner/io_memory.cpp b/examples/qualcomm/llama2/qaihub_runner/io_memory.cpp
diff --git a/examples/qualcomm/llama2/qaihub_runner/io_memory.h b/examples/qualcomm/llama2/qaihub_runner/io_memory.h
diff --git a/examples/qualcomm/llama2/qaihub_runner/runner.cpp b/examples/qualcomm/llama2/qaihub_runner/runner.cpp

Original file line number	Diff line number	Diff line change
`@@ -79,7 +79,7 @@ class TensorWrapper {`
`79`	`79`	`return QNN_VER_PTR(tensor_)->quantizeParams;`
`80`	`80`	`}`
`81`	`81`
`82`		`- std::string GetName() const {`
	`82`	`+ const std::string& GetName() const {`
`83`	`83`	`return qnn_tensor_name_;`
`84`	`84`	`};`
`85`	`85`