scalar_int_mode new_mode;
   rtx read_reg = NULL;
 
+  /* If a constant was stored into memory, try to simplify it here,
+     otherwise the cost of the shift might preclude this optimization
+     e.g. at -Os, even when no actual shift will be needed.  */
+  if (store_info->const_rhs)
+    {
+      auto new_mode = smallest_int_mode_for_size (access_size * BITS_PER_UNIT);
+      auto byte = subreg_lowpart_offset (new_mode, store_mode);
+      rtx ret
+       = simplify_subreg (new_mode, store_info->const_rhs, store_mode, byte);
+      if (ret && CONSTANT_P (ret))
+       {
+         rtx shift_rtx = gen_int_shift_amount (new_mode, shift);
+         ret = simplify_const_binary_operation (LSHIFTRT, new_mode, ret,
+                                                shift_rtx);
+         if (ret && CONSTANT_P (ret))
+           {
+             byte = subreg_lowpart_offset (read_mode, new_mode);
+             ret = simplify_subreg (read_mode, ret, new_mode, byte);
+             if (ret && CONSTANT_P (ret)
+                 && (set_src_cost (ret, read_mode, speed)
+                     <= COSTS_N_INSNS (1)))
+               return ret;
+           }
+       }
+    }
+
+  if (require_cst)
+    return NULL_RTX;
+
   /* Some machines like the x86 have shift insns for each size of
      operand.  Other machines like the ppc or the ia-64 may only have
      shift insns that shift values within 32 or 64 bit registers.
 
   opt_scalar_int_mode new_mode_iter;
   FOR_EACH_MODE_FROM (new_mode_iter,
-                     smallest_int_mode_for_size (access_size * BITS_PER_UNIT))
+                     smallest_int_mode_for_size (GET_MODE_BITSIZE (read_mode)))
     {
       rtx target, new_reg, new_lhs;
       rtx_insn *shift_seq, *insn;
       if (GET_MODE_BITSIZE (new_mode) > BITS_PER_WORD)
        break;
 
-      /* If a constant was stored into memory, try to simplify it here,
-        otherwise the cost of the shift might preclude this optimization
-        e.g. at -Os, even when no actual shift will be needed.  */
-      if (store_info->const_rhs)
-       {
-         poly_uint64 byte = subreg_lowpart_offset (new_mode, store_mode);
-         rtx ret = simplify_subreg (new_mode, store_info->const_rhs,
-                                    store_mode, byte);
-         if (ret && CONSTANT_P (ret))
-           {
-             rtx shift_rtx = gen_int_shift_amount (new_mode, shift);
-             ret = simplify_const_binary_operation (LSHIFTRT, new_mode,
-                                                    ret, shift_rtx);
-             if (ret && CONSTANT_P (ret))
-               {
-                 byte = subreg_lowpart_offset (read_mode, new_mode);
-                 ret = simplify_subreg (read_mode, ret, new_mode, byte);
-                 if (ret && CONSTANT_P (ret)
-                     && (set_src_cost (ret, read_mode, speed)
-                         <= COSTS_N_INSNS (1)))
-                   return ret;
-               }
-           }
-       }
-
-      if (require_cst)
-       return NULL_RTX;
-
       /* Try a wider mode if truncating the store mode to NEW_MODE
         requires a real instruction.  */
       if (maybe_lt (GET_MODE_SIZE (new_mode), GET_MODE_SIZE (store_mode))
          && !targetm.modes_tieable_p (new_mode, store_mode))
        continue;
 
+      if (multiple_p (shift, GET_MODE_BITSIZE (new_mode))
+         && known_le (GET_MODE_SIZE (new_mode), GET_MODE_SIZE (store_mode)))
+       {
+         /* Try to implement the shift using a subreg.  */
+         poly_int64 offset
+           = subreg_offset_from_lsb (new_mode, store_mode, shift);
+         rtx rhs_subreg = simplify_gen_subreg (new_mode, store_info->rhs,
+                                               store_mode, offset);
+         if (rhs_subreg)
+           {
+             read_reg
+               = extract_low_bits (read_mode, new_mode, copy_rtx (rhs_subreg));
+             break;
+           }
+       }
+
+      if (maybe_lt (GET_MODE_SIZE (new_mode), access_size))
+       continue;
+
       new_reg = gen_reg_rtx (new_mode);
 
       start_sequence ();