]> git.ipfire.org Git - thirdparty/kernel/linux.git/commitdiff
ata: libata-scsi: avoid Non-NCQ command starvation
authorDamien Le Moal <dlemoal@kernel.org>
Wed, 17 Dec 2025 07:40:48 +0000 (16:40 +0900)
committerDamien Le Moal <dlemoal@kernel.org>
Wed, 14 Jan 2026 10:07:14 +0000 (19:07 +0900)
When a non-NCQ command is issued while NCQ commands are being executed,
ata_scsi_qc_issue() indicates to the SCSI layer that the command issuing
should be deferred by returning SCSI_MLQUEUE_XXX_BUSY.  This command
deferring is correct and as mandated by the ACS specifications since
NCQ and non-NCQ commands cannot be mixed.

However, in the case of a host adapter using multiple submission queues,
when the target device is under a constant load of NCQ commands, there
are no guarantees that requeueing the non-NCQ command will be executed
later and it may be deferred again repeatedly as other submission queues
can constantly issue NCQ commands from different CPUs ahead of the
non-NCQ command. This can lead to very long delays for the execution of
non-NCQ commands, and even complete starvation for these commands in the
worst case scenario.

Since the block layer and the SCSI layer do not distinguish between
queueable (NCQ) and non queueable (non-NCQ) commands, libata-scsi SAT
implementation must ensure forward progress for non-NCQ commands in the
presence of NCQ command traffic. This is similar to what SAS HBAs with a
hardware/firmware based SAT implementation do.

Implement such forward progress guarantee by limiting requeueing of
non-NCQ commands from ata_scsi_qc_issue(): when a non-NCQ command is
received and NCQ commands are in-flight, do not force a requeue of the
non-NCQ command by returning SCSI_MLQUEUE_XXX_BUSY and instead return 0
to indicate that the command was accepted but hold on to the qc using
the new deferred_qc field of struct ata_port.

This deferred qc will be issued using the work item deferred_qc_work
running the function ata_scsi_deferred_qc_work() once all in-flight
commands complete, which is checked with the port qc_defer() callback
return value indicating that no further delay is necessary. This check
is done using the helper function ata_scsi_schedule_deferred_qc() which
is called from ata_scsi_qc_complete(). This thus excludes this mechanism
from all internal non-NCQ commands issued by ATA EH.

When a port deferred_qc is non NULL, that is, the port has a command
waiting for the device queue to drain, the issuing of all incoming
commands (both NCQ and non-NCQ) is deferred using the regular busy
mechanism. This simplifies the code and also avoids potential denial of
service problems if a user issues too many non-NCQ commands.

Finally, whenever ata EH is scheduled, regardless of the reason, a
deferred qc is always requeued so that it can be retried once EH
completes. This is done by calling the function
ata_scsi_requeue_deferred_qc() from ata_eh_set_pending(). This avoids
the need for any special processing for the deferred qc in case of NCQ
error, link or device reset, or device timeout.

Reported-by: Xingui Yang <yangxingui@huawei.com>
Reported-by: Igor Pylypiv <ipylypiv@google.com>
Fixes: bdb01301f3ea ("scsi: Add host and host template flag 'host_tagset'")
Cc: stable@vger.kernel.org
Signed-off-by: Damien Le Moal <dlemoal@kernel.org>
Reviewed-by: Niklas Cassel <cassel@kernel.org>
Reviewed-by: Martin K. Petersen <martin.petersen@oracle.com>
Reviewed-by: John Garry <john.g.garry@oracle.com>
Tested-by: Igor Pylypiv <ipylypiv@google.com>
Tested-by: Xingui Yang <yangxingui@huawei.com>
drivers/ata/libata-core.c
drivers/ata/libata-eh.c
drivers/ata/libata-scsi.c
drivers/ata/libata.h
include/linux/libata.h

index b9610548178456d5410b2b11a8552f07cae195ba..e888f24456929812d67cb188626844f6be684cce 100644 (file)
@@ -5644,6 +5644,7 @@ struct ata_port *ata_port_alloc(struct ata_host *host)
        mutex_init(&ap->scsi_scan_mutex);
        INIT_DELAYED_WORK(&ap->hotplug_task, ata_scsi_hotplug);
        INIT_DELAYED_WORK(&ap->scsi_rescan_task, ata_scsi_dev_rescan);
+       INIT_WORK(&ap->deferred_qc_work, ata_scsi_deferred_qc_work);
        INIT_LIST_HEAD(&ap->eh_done_q);
        init_waitqueue_head(&ap->eh_wait_q);
        init_completion(&ap->park_req_pending);
@@ -6256,6 +6257,10 @@ static void ata_port_detach(struct ata_port *ap)
                }
        }
 
+       /* Make sure the deferred qc work finished. */
+       cancel_work_sync(&ap->deferred_qc_work);
+       WARN_ON(ap->deferred_qc);
+
        /* Tell EH to disable all devices */
        ap->pflags |= ATA_PFLAG_UNLOADING;
        ata_port_schedule_eh(ap);
index f4c9541d1910e4cfe4c605329a7b1774cf08ada7..72a22b6c968216d1f43ebe73b96d020ddb0ea5d5 100644 (file)
@@ -918,6 +918,12 @@ static void ata_eh_set_pending(struct ata_port *ap, bool fastdrain)
 
        ap->pflags |= ATA_PFLAG_EH_PENDING;
 
+       /*
+        * If we have a deferred qc, requeue it so that it is retried once EH
+        * completes.
+        */
+       ata_scsi_requeue_deferred_qc(ap);
+
        if (!fastdrain)
                return;
 
index be620bc04584866701096efac4b6d05fdc9bff81..e7898bf56308da950d0e9132732e947467ecdf64 100644 (file)
@@ -1658,8 +1658,77 @@ static void ata_qc_done(struct ata_queued_cmd *qc)
        done(cmd);
 }
 
+void ata_scsi_deferred_qc_work(struct work_struct *work)
+{
+       struct ata_port *ap =
+               container_of(work, struct ata_port, deferred_qc_work);
+       struct ata_queued_cmd *qc;
+       unsigned long flags;
+
+       spin_lock_irqsave(ap->lock, flags);
+
+       /*
+        * If we still have a deferred qc and we are not in EH, issue it. In
+        * such case, we should not need any more deferring the qc, so warn if
+        * qc_defer() says otherwise.
+        */
+       qc = ap->deferred_qc;
+       if (qc && !ata_port_eh_scheduled(ap)) {
+               WARN_ON_ONCE(ap->ops->qc_defer(qc));
+               ap->deferred_qc = NULL;
+               ata_qc_issue(qc);
+       }
+
+       spin_unlock_irqrestore(ap->lock, flags);
+}
+
+void ata_scsi_requeue_deferred_qc(struct ata_port *ap)
+{
+       struct ata_queued_cmd *qc = ap->deferred_qc;
+       struct scsi_cmnd *scmd;
+
+       lockdep_assert_held(ap->lock);
+
+       /*
+        * If we have a deferred qc when a reset occurs or NCQ commands fail,
+        * do not try to be smart about what to do with this deferred command
+        * and simply retry it by completing it with DID_SOFT_ERROR.
+        */
+       if (!qc)
+               return;
+
+       scmd = qc->scsicmd;
+       ap->deferred_qc = NULL;
+       ata_qc_free(qc);
+       scmd->result = (DID_SOFT_ERROR << 16);
+       scsi_done(scmd);
+}
+
+static void ata_scsi_schedule_deferred_qc(struct ata_port *ap)
+{
+       struct ata_queued_cmd *qc = ap->deferred_qc;
+
+       lockdep_assert_held(ap->lock);
+
+       /*
+        * If we have a deferred qc, then qc_defer() is defined and we can use
+        * this callback to determine if this qc is good to go, unless EH has
+        * been scheduled.
+        */
+       if (!qc)
+               return;
+
+       if (ata_port_eh_scheduled(ap)) {
+               ata_scsi_requeue_deferred_qc(ap);
+               return;
+       }
+       if (!ap->ops->qc_defer(qc))
+               queue_work(system_highpri_wq, &ap->deferred_qc_work);
+}
+
 static void ata_scsi_qc_complete(struct ata_queued_cmd *qc)
 {
+       struct ata_port *ap = qc->ap;
        struct scsi_cmnd *cmd = qc->scsicmd;
        u8 *cdb = cmd->cmnd;
        bool have_sense = qc->flags & ATA_QCFLAG_SENSE_VALID;
@@ -1689,6 +1758,8 @@ static void ata_scsi_qc_complete(struct ata_queued_cmd *qc)
        }
 
        ata_qc_done(qc);
+
+       ata_scsi_schedule_deferred_qc(ap);
 }
 
 static int ata_scsi_qc_issue(struct ata_port *ap, struct ata_queued_cmd *qc)
@@ -1698,6 +1769,16 @@ static int ata_scsi_qc_issue(struct ata_port *ap, struct ata_queued_cmd *qc)
        if (!ap->ops->qc_defer)
                goto issue;
 
+       /*
+        * If we already have a deferred qc, then rely on the SCSI layer to
+        * requeue and defer all incoming commands until the deferred qc is
+        * processed, once all on-going commands complete.
+        */
+       if (ap->deferred_qc) {
+               ata_qc_free(qc);
+               return SCSI_MLQUEUE_DEVICE_BUSY;
+       }
+
        /* Check if the command needs to be deferred. */
        ret = ap->ops->qc_defer(qc);
        switch (ret) {
@@ -1716,6 +1797,18 @@ static int ata_scsi_qc_issue(struct ata_port *ap, struct ata_queued_cmd *qc)
        }
 
        if (ret) {
+               /*
+                * We must defer this qc: if this is not an NCQ command, keep
+                * this qc as a deferred one and report to the SCSI layer that
+                * we issued it so that it is not requeued. The deferred qc will
+                * be issued with the port deferred_qc_work once all on-going
+                * commands complete.
+                */
+               if (!ata_is_ncq(qc->tf.protocol)) {
+                       ap->deferred_qc = qc;
+                       return 0;
+               }
+
                /* Force a requeue of the command to defer its execution. */
                ata_qc_free(qc);
                return ret;
index 89dd0ae2b9918607d9d08f3885d531abc89211c0..9b4e578ad07ec506d0dfd3e7be120fe41ab58e02 100644 (file)
@@ -166,6 +166,8 @@ void ata_scsi_sdev_config(struct scsi_device *sdev);
 int ata_scsi_dev_config(struct scsi_device *sdev, struct queue_limits *lim,
                struct ata_device *dev);
 int __ata_scsi_queuecmd(struct scsi_cmnd *scmd, struct ata_device *dev);
+void ata_scsi_deferred_qc_work(struct work_struct *work);
+void ata_scsi_requeue_deferred_qc(struct ata_port *ap);
 
 /* libata-eh.c */
 extern unsigned int ata_internal_cmd_timeout(struct ata_device *dev, u8 cmd);
index aa88244f3d8385ea90eb228b5fbe2f6a8f333c09..d612d4c1660a7359795a86f220e769cb7b7d198e 100644 (file)
@@ -899,6 +899,9 @@ struct ata_port {
        u64                     qc_active;
        int                     nr_active_links; /* #links with active qcs */
 
+       struct work_struct      deferred_qc_work;
+       struct ata_queued_cmd   *deferred_qc;
+
        struct ata_link         link;           /* host default link */
        struct ata_link         *slave_link;    /* see ata_slave_link_init() */