ext4: fix races between page faults and hole punching

author Jan Kara <jack@suse.com>

Mon, 7 Dec 2015 19:28:03 +0000 (14:28 -0500)

committer Ben Hutchings <ben@decadent.org.uk>

Tue, 28 Apr 2020 18:02:19 +0000 (19:02 +0100)
author Jan Kara <jack@suse.com>
Mon, 7 Dec 2015 19:28:03 +0000 (14:28 -0500)
committer Ben Hutchings <ben@decadent.org.uk>
Tue, 28 Apr 2020 18:02:19 +0000 (19:02 +0100)
diff --git a/fs/ext4/ext4.h b/fs/ext4/ext4.h

index 550a1bfe98d13420e3398f30ef0403c7d9462b92..8c44923b45be0759d8b94f30369358d36dc7a4e9 100644 (file)
--- a/fs/ext4/ext4.h
+++ b/fs/ext4/ext4.h
@@ -937,6 +937,15 @@ struct ext4_inode_info {
          * by other means, so we have i_data_sem.
          */
         struct rw_semaphore i_data_sem;
+       /*
+        * i_mmap_sem is for serializing page faults with truncate / punch hole
+        * operations. We have to make sure that new page cannot be faulted in
+        * a section of the inode that is being punched. We cannot easily use
+        * i_data_sem for this since we need protection for the whole punch
+        * operation and i_data_sem ranks below transaction start so we have
+        * to occasionally drop it.
+        */
+       struct rw_semaphore i_mmap_sem;
         struct inode vfs_inode;
         struct jbd2_inode *jinode;
  
@@ -2205,6 +2214,7 @@ extern int ext4_chunk_trans_blocks(struct inode *, int nrblocks);
  extern int ext4_zero_partial_blocks(handle_t *handle, struct inode *inode,
                              loff_t lstart, loff_t lend);
  extern int ext4_page_mkwrite(struct vm_area_struct *vma, struct vm_fault *vmf);
+extern int ext4_filemap_fault(struct vm_area_struct *vma, struct vm_fault *vmf);
  extern qsize_t *ext4_get_reserved_space(struct inode *inode);
  extern void ext4_da_update_reserve_space(struct inode *inode,
                                         int used, int quota_claim);
diff --git a/fs/ext4/extents.c b/fs/ext4/extents.c

index 77812d3e7789438c020853925fceb73acafecd67..9c7d5d6fdc98d20d40cec3a945e9efe9e5402802 100644 (file)
--- a/fs/ext4/extents.c
+++ b/fs/ext4/extents.c
@@ -4778,7 +4778,6 @@ static long ext4_zero_range(struct file *file, loff_t offset,
         int partial_begin, partial_end;
         loff_t start, end;
         ext4_lblk_t lblk;
-       struct address_space *mapping = inode->i_mapping;
         unsigned int blkbits = inode->i_blkbits;
  
         trace_ext4_zero_range(inode, offset, len, mode);
@@ -4793,17 +4792,6 @@ static long ext4_zero_range(struct file *file, loff_t offset,
                         return ret;
         }
  
-       /*
-        * Write out all dirty pages to avoid race conditions
-        * Then release them.
-        */
-       if (mapping->nrpages && mapping_tagged(mapping, PAGECACHE_TAG_DIRTY)) {
-               ret = filemap_write_and_wait_range(mapping, offset,
-                                                  offset + len - 1);
-               if (ret)
-                       return ret;
-       }
-
         /*
          * Round up offset. This is not fallocate, we neet to zero out
          * blocks, so convert interior block aligned part of the range to
@@ -4865,16 +4853,22 @@ static long ext4_zero_range(struct file *file, loff_t offset,
                 flags |= (EXT4_GET_BLOCKS_CONVERT_UNWRITTEN |
                           EXT4_EX_NOCACHE);
  
-               /* Now release the pages and zero block aligned part of pages*/
-               truncate_pagecache_range(inode, start, end - 1);
-               inode->i_mtime = inode->i_ctime = ext4_current_time(inode);
-
                 /* Wait all existing dio workers, newcomers will block on i_mutex */
                 ext4_inode_block_unlocked_dio(inode);
                 inode_dio_wait(inode);
  
+               /*
+                * Prevent page faults from reinstantiating pages we have
+                * released from page cache.
+                */
+               down_write(&EXT4_I(inode)->i_mmap_sem);
+               /* Now release the pages and zero block aligned part of pages */
+               truncate_pagecache_range(inode, start, end - 1);
+               inode->i_mtime = inode->i_ctime = ext4_current_time(inode);
+
                 ret = ext4_alloc_file_blocks(file, lblk, max_blocks, new_size,
                                              flags, mode);
+               up_write(&EXT4_I(inode)->i_mmap_sem);
                 if (ret)
                         goto out_dio;
         }
@@ -5490,17 +5484,22 @@ int ext4_collapse_range(struct inode *inode, loff_t offset, loff_t len)
                 goto out_mutex;
         }
  
-       truncate_pagecache(inode, ioffset);
-
         /* Wait for existing dio to complete */
         ext4_inode_block_unlocked_dio(inode);
         inode_dio_wait(inode);
  
+       /*
+        * Prevent page faults from reinstantiating pages we have released from
+        * page cache.
+        */
+       down_write(&EXT4_I(inode)->i_mmap_sem);
+       truncate_pagecache(inode, ioffset);
+
         credits = ext4_writepage_trans_blocks(inode);
         handle = ext4_journal_start(inode, EXT4_HT_TRUNCATE, credits);
         if (IS_ERR(handle)) {
                 ret = PTR_ERR(handle);
-               goto out_dio;
+               goto out_mmap;
         }
  
         down_write(&EXT4_I(inode)->i_data_sem);
@@ -5540,7 +5539,8 @@ int ext4_collapse_range(struct inode *inode, loff_t offset, loff_t len)
  
  out_stop:
         ext4_journal_stop(handle);
-out_dio:
+out_mmap:
+       up_write(&EXT4_I(inode)->i_mmap_sem);
         ext4_inode_resume_unlocked_dio(inode);
  out_mutex:
         mutex_unlock(&inode->i_mutex);
diff --git a/fs/ext4/file.c b/fs/ext4/file.c

index 773b653bae5146f5e7e912263ee913de4bb706e9..20c76e3250d924d00b81754f024a0fa93ae33c77 100644 (file)
--- a/fs/ext4/file.c
+++ b/fs/ext4/file.c
@@ -199,7 +199,7 @@ errout:
  }
  
  static const struct vm_operations_struct ext4_file_vm_ops = {
-       .fault          = filemap_fault,
+       .fault          = ext4_filemap_fault,
         .map_pages      = filemap_map_pages,
         .page_mkwrite   = ext4_page_mkwrite,
  };
diff --git a/fs/ext4/inode.c b/fs/ext4/inode.c

index 6d74a7acb7015bc269198bbd96fb91053b7f86ca..9e24c9f2232e64e607cf618a1bdb31279a06de04 100644 (file)
--- a/fs/ext4/inode.c
+++ b/fs/ext4/inode.c
@@ -3716,6 +3716,15 @@ int ext4_punch_hole(struct inode *inode, loff_t offset, loff_t length)
  
         }
  
+       /* Wait all existing dio workers, newcomers will block on i_mutex */
+       ext4_inode_block_unlocked_dio(inode);
+       inode_dio_wait(inode);
+
+       /*
+        * Prevent page faults from reinstantiating pages we have released from
+        * page cache.
+        */
+       down_write(&EXT4_I(inode)->i_mmap_sem);
         first_block_offset = round_up(offset, sb->s_blocksize);
         last_block_offset = round_down((offset + length), sb->s_blocksize) - 1;
  
@@ -3724,10 +3733,6 @@ int ext4_punch_hole(struct inode *inode, loff_t offset, loff_t length)
                 truncate_pagecache_range(inode, first_block_offset,
                                          last_block_offset);
  
-       /* Wait all existing dio workers, newcomers will block on i_mutex */
-       ext4_inode_block_unlocked_dio(inode);
-       inode_dio_wait(inode);
-
         if (ext4_test_inode_flag(inode, EXT4_INODE_EXTENTS))
                 credits = ext4_writepage_trans_blocks(inode);
         else
@@ -3773,11 +3778,6 @@ int ext4_punch_hole(struct inode *inode, loff_t offset, loff_t length)
         if (IS_SYNC(inode))
                 ext4_handle_sync(handle);
  
-       /* Now release the pages again to reduce race window */
-       if (last_block_offset > first_block_offset)
-               truncate_pagecache_range(inode, first_block_offset,
-                                        last_block_offset);
-
         inode->i_mtime = inode->i_ctime = ext4_current_time(inode);
         ext4_mark_inode_dirty(handle, inode);
         if (ret >= 0)
@@ -3785,6 +3785,7 @@ int ext4_punch_hole(struct inode *inode, loff_t offset, loff_t length)
  out_stop:
         ext4_journal_stop(handle);
  out_dio:
+       up_write(&EXT4_I(inode)->i_mmap_sem);
         ext4_inode_resume_unlocked_dio(inode);
  out_mutex:
         mutex_unlock(&inode->i_mutex);
@@ -4887,6 +4888,7 @@ int ext4_setattr(struct dentry *dentry, struct iattr *attr)
                         } else
                                 ext4_wait_for_tail_page_commit(inode);
                 }
+               down_write(&EXT4_I(inode)->i_mmap_sem);
                 /*
                  * Truncate pagecache after we've waited for commit
                  * in data=journal mode to make pages freeable.
@@ -4894,6 +4896,7 @@ int ext4_setattr(struct dentry *dentry, struct iattr *attr)
                         truncate_pagecache(inode, inode->i_size);
                 if (shrink)
                         ext4_truncate(inode);
+               up_write(&EXT4_I(inode)->i_mmap_sem);
         }
  
         if (!rc) {
@@ -5346,6 +5349,8 @@ int ext4_page_mkwrite(struct vm_area_struct *vma, struct vm_fault *vmf)
         sb_start_pagefault(inode->i_sb);
         file_update_time(vma->vm_file);
  
+       down_read(&EXT4_I(inode)->i_mmap_sem);
+
         ret = ext4_convert_inline_data(inode);
         if (ret)
                 goto out_ret;
@@ -5419,6 +5424,19 @@ retry_alloc:
  out_ret:
         ret = block_page_mkwrite_return(ret);
  out:
+       up_read(&EXT4_I(inode)->i_mmap_sem);
         sb_end_pagefault(inode->i_sb);
         return ret;
  }
+
+int ext4_filemap_fault(struct vm_area_struct *vma, struct vm_fault *vmf)
+{
+       struct inode *inode = file_inode(vma->vm_file);
+       int err;
+
+       down_read(&EXT4_I(inode)->i_mmap_sem);
+       err = filemap_fault(vma, vmf);
+       up_read(&EXT4_I(inode)->i_mmap_sem);
+
+       return err;
+}
diff --git a/fs/ext4/super.c b/fs/ext4/super.c

index 7410cca5bf39c9d28a4e47d0e01c208a2f842ca5..a0864cc67b039d04cac919746ddad296495c1b94 100644 (file)
--- a/fs/ext4/super.c
+++ b/fs/ext4/super.c
@@ -967,6 +967,7 @@ static void init_once(void *foo)
         INIT_LIST_HEAD(&ei->i_orphan);
         init_rwsem(&ei->xattr_sem);
         init_rwsem(&ei->i_data_sem);
+       init_rwsem(&ei->i_mmap_sem);
         inode_init_once(&ei->vfs_inode);
  }
  
diff --git a/fs/ext4/truncate.h b/fs/ext4/truncate.h

index 011ba6670d990285f6f61b56ea3fb8b421b70e59..c70d06a383e28819cc556f1027ea118272e5f738 100644 (file)
--- a/fs/ext4/truncate.h
+++ b/fs/ext4/truncate.h
@@ -10,8 +10,10 @@
   */
  static inline void ext4_truncate_failed_write(struct inode *inode)
  {
+       down_write(&EXT4_I(inode)->i_mmap_sem);
         truncate_inode_pages(inode->i_mapping, inode->i_size);
         ext4_truncate(inode);
+       up_write(&EXT4_I(inode)->i_mmap_sem);
  }
  
  /*
author	Jan Kara <jack@suse.com>
	Mon, 7 Dec 2015 19:28:03 +0000 (14:28 -0500)
committer	Ben Hutchings <ben@decadent.org.uk>
	Tue, 28 Apr 2020 18:02:19 +0000 (19:02 +0100)
fs/ext4/ext4.h		patch \| blob \| blame \| history
fs/ext4/extents.c		patch \| blob \| blame \| history
fs/ext4/file.c		patch \| blob \| blame \| history
fs/ext4/inode.c		patch \| blob \| blame \| history
fs/ext4/super.c		patch \| blob \| blame \| history
fs/ext4/truncate.h		patch \| blob \| blame \| history