Cẩm nang NQDEV
HomeCheat SheetsContact
Công nghệ
Công nghệ
  • Introduction
  • Developer Roadmaps
    • Developer Roadmaps: Mô tả chi tiết
    • Roadmaps: ASP.NET Core Developer
    • Bảng phân loại cấp độ nhà phát triển .NET
    • ClearPath cho Team .NET Core
  • DotNET
    • ASP.NET Core
      • Hướng dẫn sử dụng tệp .http trong Visual Studio 2022 để thực hiện HTTP Requests
    • Message Queue
      • ZeroMQ
        • Xây dựng ZeroMQ Server trong dotNET 8 với CSharp
    • Playwright
      • Playwright: Tự Động Hóa Trình Duyệt Hiệu Quả
    • Optimize
      • Optimize - Một số cách tối ưu code và performance CSharp
    • Dev Blogs
      • Versions of .NET
        • Cập nhật từ .NET 9 lên .NET 10: Những thay đổi quan trọng
      • ASP.NET Core Web API với ASP.NET Core Web API (Native AOT): Bạn nên chọn loại nào?
      • Hướng dẫn xây dựng ứng dụng multi-tenant với .NET Core và MongoDB
      • Kiến Trúc Monolithic và Microservices: Lựa Chọn Phù Hợp Cho Dự Án Của Bạn
  • Design Patterns
    • CQRS Pattern
      • CQRS and MediatR trong .NET Core
    • Microservices
      • Ocelot
  • SQL Server
    • SQL Server Basics
    • SQL Server: DBCC
      • DBCC
      • DBCC SHOW_STATISTICS
      • DBCC SHRINKDATABASE
      • DBCC SHRINKFILE
      • DBCC SQLPERF
      • DBCC FREEPROCCACHE
    • SQL Server Replication
      • Giới thiệu SQL Server Replication
      • Hướng dẫn cấu hình và quản lý SQL Server Replication với Distribution Agent
    • SQL Server: Tập lệnh
      • SQL Server: Tập lệnh để tìm tất cả các giá trị Mặc định với Cột
    • Bảng tạm và sự linh hoạt trong xử lý dữ liệu lớn
    • Các bước để thay đổi nơi lưu trữ tệp log trong SQL Server
    • Các bước di chuyển tệp log trong SQL Server
    • Query Store trong SQL Server - Tổng Quan và Cách Quản Lý Hiệu Quả
    • SQL Server: Error Code
      • SQL Server Error : 14151, Severity: 18. Replication agent
  • Caching
    • Phân tích các phương pháp Caching dữ liệu trong .NET Core và .NET Framework
    • Redis
      • Redis mất dữ liệu khi restart
    • Varnish Cache
      • Hướng Dẫn Cài Đặt Varnish Cache với HAProxy Sử Dụng Docker Compose
  • NodeJS
    • NextJS
      • Hướng dẫn NextJS cho người mới bắt đầu
      • Parallel Routes trong Next.js
      • Hướng dẫn cấu hình Swagger trong NextJS
    • ReactJS
      • Hiểu về hook useRef của React như thế nào cho đúng
      • Tìm hiểu sâu hơn về useEffect từ A-Z
  • OS Linux
    • Tập lệnh Linux hay dùng
    • Centos 7
      • Hướng dẫn cài đặt và cấu hình Centos 7 dành cho người mới bắt đầu
      • Hướng Dẫn Kiểm Tra Các Cổng Đang Mở Trên Hệ Thống CentOS
      • Hướng Dẫn Sử Dụng zip Trên CentOS
      • Hướng dẫn cấu hình iptables để mở tất cả các cổng cho IP private
    • Windows
      • Hướng dẫn quản lý ứng dụng khởi động Windows bằng Registry Editor
  • VMware
    • Cách ảo hóa macOS Sierra trong VMWare Windows 10
    • Tự tin làm chủ mạng lưới: Cẩm nang tính toán địa chỉ IP từ A đến Z
  • Docker
    • Getting Started with Docker
    • Docker HUB
      • nqdev/nginx
  • Templates
    • Tabler Admin Template: Xây dựng Dashboard Quản trị đẹp mắt và dễ dàng
  • Open Source
    • shadcn-ui/ui
    • Kuma UI
    • Midone
  • Ứng dụng
    • Ansible
      • Ansible: Giới thiệu
      • Hướng dẫn chi tiết cài đặt Ansible
    • Apache JMeter
      • Features
        • Hướng dẫn chi tiết về Test Plan trong JMeter
        • Hướng dẫn chi tiết về Thread Group trong JMeter
    • DocFX
      • Những khái niệm cơ bản trong DocFX
      • DocFX - Hướng dẫn cài đặt, cấu hình sử dụng
      • DocFX - Hướng dẫn Markdown
      • DocFX - Hướng dẫn cấu hình file docfx.json
      • DocFX - Hướng dẫn sử dụng và tùy chỉnh Template
    • ETL Tools
      • Công cụ ETL Tools List & Software
      • Airbyte
        • Docker Compose
    • Elasticsearch
      • _reindex
        • Tìm hiểu sâu về API _reindex trong Elasticsearch
        • Hướng dẫn di chuyển dữ liệu trong Elasticsearch sử dụng API _reindex
      • _transform
    • HAProxy
      • HAProxy - Lập trình Lua và tích hợp Redis
    • Localtunnel
      • Hướng dẫn sử dụng Localtunnel để đưa ứng dụng Local lên Internet
    • LoopBack
      • Hướng dẫn cài đặt LoopBack 4 và khởi tạo dự án đầu tiên
    • N8N
      • Hướng dẫn cài đặt n8n bằng docker compose
    • NGINX Plus
      • NGINX: Hiệu suất vượt trội và giải pháp tối ưu cho hệ thống web
      • NGINX: Hướng dẫn chi tiết sử dụng GeoIP2 trên Alpine
      • NGINX: Hướng dẫn sử dụng Lua trên Alpine
      • NGINX: Hướng Dẫn Chi Tiết Cấu Hình Load Balancer
      • NGINX: Hướng Dẫn Sử Dụng Dynamic Modules
      • NGINX: Hướng dẫn Cài đặt và Sử dụng Module njs
      • Tích Hợp NGINX Làm API Gateway với Các Bước Xử Lý Phổ Biến
    • NTP - Secure Timeserver
      • Hướng dẫn cài đặt NTP an toàn với Docker Compose
    • Playwright
      • Playwright: Tự Động Hóa Trình Duyệt Hiệu Quả
    • VPN
      • WireGuard
        • Hướng dẫn cài đặt WireGuard VPN Server trên VPS CentOS 7 lỗi thời bằng Docker và nâng cấp kernel
      • OpenVPN
    • Wordpress
      • Cách dùng Docker để phát triển ứng dụng Wordpress
  • Tin tức
    • DevSecOps là gì?
    • Giới thiệu bộ công cụ hỗ trợ lập trình từ SmallDev.tools và Code Beautify
    • Giới Thiệu và Hướng Dẫn Về DuckDB
    • Giới thiệu về Các Loại Cơ Sở Dữ Liệu
      • 1. HSQLDB (HyperSQL Database)
    • Hệ thống phân giải tên miền (DNS) và các loại bản ghi
    • Giải thích về Tiền Tố Path Nổi Tiếng – /.well-known
    • Giải mã Hệ thống tạo mã OTP của Google Authenticator
    • Quishing là gì? Hiểu và phòng tránh lừa đảo qua mã QR
  • Hướng dẫn
    • Hướng dẫn chi tiết tạo tài khoản Google bằng email công ty
    • Top 10 ASP .NET Open Source Projects GitHub 2024
    • Free Themes and Templates from Creative Tim
    • Hướng dẫn sử dụng Voler và Mazer Dashboard từ Zuramai
  • So Sánh
    • So Sánh Apache Parquet và CSV: Bảng So Sánh Chi Tiết, Ưu và Nhược Điểm
    • So Sánh Varnish Cache, Memcached và Redis: Ba Công Cụ Caching Phổ Biến trong Tối Ưu Hóa Hiệu Suất
  • Affiliate
    • Tuyển dụng
      • Bộ câu hỏi phỏng vấn T-SQL – Đánh giá ứng viên hiệu quả
    • eSMSvn: Chăm sóc khách hàng hiệu quả với SMS và ZNS
    • eSMS.vn: Giải pháp SMS Marketing hiệu quả cùng các chương trình ưu đãi hấp dẫn
Powered by GitBook
On this page
  • 1. Cấu Trúc Cơ Bản Của API _Reindex
  • 2. Các Tùy Chọn Chính Trong API _Reindex
  • 2.1 op_type
  • 2.2 size
  • 2.3 script
  • 2.4 conflicts
  • 2.5 wait_for_completion
  • 2.6 scroll
  • 2.7 routing
  • 3. Các Tình Huống Sử Dụng API _Reindex
  • 3.1 Di Chuyển Dữ Liệu Giữa Các Index
  • 3.2 Di Chuyển Dữ Liệu Với Điều Kiện Lọc
  • 3.3 Chỉnh Sửa Dữ Liệu Trong Quá Trình Reindex
  • 3.4 Reindex Với Điều Kiện Xung Đột
  • 4. Tổng Kết

Was this helpful?

  1. Ứng dụng
  2. Elasticsearch
  3. _reindex

Tìm hiểu sâu về API _reindex trong Elasticsearch

API _reindex trong Elasticsearch là một công cụ mạnh mẽ để sao chép hoặc chuyển đổi dữ liệu giữa các index. Bằng cách sử dụng API này, bạn có thể sao chép dữ liệu từ index này sang index khác, thay đổi cấu trúc của dữ liệu trong quá trình sao chép, và thực hiện các thao tác phức tạp khác. Dưới đây là một cái nhìn chi tiết về các tính năng và tùy chọn hỗ trợ trong API _reindex.

1. Cấu Trúc Cơ Bản Của API _Reindex

Cấu trúc cơ bản của một yêu cầu _reindex như sau:

POST _reindex
{
  "source": {
    "index": "source_index",  // Tên index nguồn
    "query": {                 // (Tùy chọn) Truy vấn lọc dữ liệu từ index nguồn
      "match_all": {}
    },
    "size": 1000               // (Tùy chọn) Số lượng tài liệu lấy trong mỗi lần truy vấn
  },
  "dest": {
    "index": "destination_index",  // Tên index đích
    "op_type": "index"             // Phương thức ghi tài liệu vào index đích (mặc định là "index")
  }
}

Trong đó:

  • source.index: Chỉ định index nguồn.

  • source.query: Câu truy vấn (query) để lọc dữ liệu trong index nguồn.

  • source.size: Chỉ định số lượng tài liệu mà mỗi lần truy vấn sẽ lấy.

  • dest.index: Chỉ định index đích mà dữ liệu sẽ được chuyển đến.

2. Các Tùy Chọn Chính Trong API _Reindex

Dưới đây là các tùy chọn mà bạn có thể sử dụng trong API _reindex để tùy chỉnh hành động sao chép dữ liệu:

2.1 op_type

  • Mô tả: Chỉ định hành động ghi tài liệu vào index đích. Có hai giá trị chính:

    • index (mặc định): Tạo mới tài liệu trong index đích hoặc ghi đè tài liệu nếu tài liệu có _id trùng với tài liệu đã tồn tại.

    • create: Chỉ tạo tài liệu mới nếu tài liệu chưa tồn tại trong index đích. Nếu tài liệu đã tồn tại (có _id trùng), nó sẽ trả về lỗi.

    Ví dụ:

  • "op_type": "create"

2.2 size

  • Mô tả: Chỉ định số lượng tài liệu được lấy trong mỗi lần truy vấn khi di chuyển dữ liệu.

  • Sử dụng: Nếu bạn có một lượng dữ liệu lớn, bạn có thể muốn điều chỉnh giá trị này để tối ưu hiệu suất.

    Ví dụ:

  • "size": 5000  // Lấy 5000 tài liệu mỗi lần

2.3 script

  • Mô tả: Sử dụng để thay đổi hoặc xử lý dữ liệu trong quá trình reindex. Bạn có thể áp dụng các script để sửa đổi giá trị của trường hoặc thêm các trường mới vào tài liệu trong quá trình sao chép.

    Ví dụ: Thêm một trường mới vào tài liệu trong index đích.

  • "script": {
      "source": "ctx._source['new_field'] = 'value'"
    }

2.4 conflicts

  • Mô tả: Xử lý các xung đột khi ghi dữ liệu vào index đích.

    • abort: Mặc định, nếu có xung đột, hành động sẽ bị hủy bỏ.

    • proceed: Tiếp tục quá trình nếu có xung đột và bỏ qua tài liệu gây xung đột.

    Ví dụ:

  • "conflicts": "proceed"

2.5 wait_for_completion

  • Mô tả: Chỉ định xem yêu cầu _reindex có thực hiện đồng bộ (wait for completion) hay không.

    • true (mặc định): Yêu cầu sẽ chờ đợi và trả kết quả khi quá trình reindex hoàn tất.

    • false: Yêu cầu sẽ trả ngay kết quả mà không đợi quá trình reindex hoàn tất.

    Ví dụ:

  • "wait_for_completion": false  // Quá trình reindex sẽ không đợi và trả kết quả ngay

2.6 scroll

  • Mô tả: Tùy chọn này cho phép bạn sử dụng cơ chế scroll khi di chuyển một lượng lớn dữ liệu, giúp phân tách việc di chuyển dữ liệu thành nhiều phần nhỏ.

    • scroll: Thời gian scroll, ví dụ 10m (10 phút).

    Ví dụ:

  • "scroll": "10m"  // Chỉ định thời gian scroll là 10 phút

2.7 routing

  • Mô tả: Chỉ định chiến lược phân phối tài liệu vào các shard khi reindex. Thường được sử dụng khi bạn có shard riêng biệt và muốn điều chỉnh dữ liệu vào shard cụ thể.

    Ví dụ:

  • "routing": "user_id"  // Phân phối tài liệu vào shard dựa trên trường "user_id"

3. Các Tình Huống Sử Dụng API _Reindex

Dưới đây là một số tình huống điển hình khi sử dụng API _reindex trong Elasticsearch:

3.1 Di Chuyển Dữ Liệu Giữa Các Index

Giả sử bạn muốn chuyển toàn bộ dữ liệu từ index old_index sang index new_index, có thể sử dụng _reindex mà không cần bất kỳ truy vấn hay điều kiện đặc biệt nào:

POST _reindex
{
  "source": {
    "index": "old_index"
  },
  "dest": {
    "index": "new_index"
  }
}

3.2 Di Chuyển Dữ Liệu Với Điều Kiện Lọc

Bạn có thể chỉ di chuyển một phần dữ liệu đáp ứng điều kiện lọc. Ví dụ, chỉ di chuyển các tài liệu có trường date nhỏ hơn ngày 1/1/2021:

POST _reindex
{
  "source": {
    "index": "old_index",
    "query": {
      "range": {
        "date": {
          "lt": "2021-01-01"
        }
      }
    }
  },
  "dest": {
    "index": "new_index"
  }
}

3.3 Chỉnh Sửa Dữ Liệu Trong Quá Trình Reindex

Nếu bạn muốn thay đổi dữ liệu khi di chuyển, có thể sử dụng script để thêm hoặc chỉnh sửa các trường trong tài liệu.

POST _reindex
{
  "source": {
    "index": "old_index"
  },
  "dest": {
    "index": "new_index",
    "script": {
      "source": "ctx._source['new_field'] = 'new_value'"
    }
  }
}

3.4 Reindex Với Điều Kiện Xung Đột

Khi sử dụng op_type: create, bạn có thể gặp phải xung đột nếu tài liệu với _id đã tồn tại. Bạn có thể sử dụng tùy chọn conflicts để xử lý tình huống này.

POST _reindex
{
  "source": {
    "index": "old_index"
  },
  "dest": {
    "index": "new_index",
    "op_type": "create",
    "conflicts": "proceed"
  }
}

4. Tổng Kết

API _reindex trong Elasticsearch cung cấp nhiều tùy chọn linh hoạt để di chuyển, sao chép và chuyển đổi dữ liệu giữa các index. Các tính năng mạnh mẽ như lọc dữ liệu qua query, chỉnh sửa dữ liệu qua script, xử lý xung đột qua conflicts, và phân phối tài liệu qua routing giúp người dùng tối ưu hóa quy trình sao chép dữ liệu trong các môi trường Elasticsearch phức tạp.

Thông qua việc hiểu và sử dụng các tùy chọn này, bạn có thể đảm bảo rằng quá trình di chuyển dữ liệu sẽ diễn ra một cách hiệu quả, an toàn và tối ưu hóa tài nguyên.

Previous_reindexNextHướng dẫn di chuyển dữ liệu trong Elasticsearch sử dụng API _reindex

Last updated 6 months ago

Was this helpful?