Cẩm nang NQDEV
HomeCheat SheetsContact
Công nghệ
Công nghệ
  • Introduction
  • Developer Roadmaps
    • Developer Roadmaps: Mô tả chi tiết
    • Roadmaps: ASP.NET Core Developer
    • Bảng phân loại cấp độ nhà phát triển .NET
    • ClearPath cho Team .NET Core
  • DotNET
    • ASP.NET Core
      • Hướng dẫn sử dụng tệp .http trong Visual Studio 2022 để thực hiện HTTP Requests
    • Message Queue
      • ZeroMQ
        • Xây dựng ZeroMQ Server trong dotNET 8 với CSharp
    • Playwright
      • Playwright: Tự Động Hóa Trình Duyệt Hiệu Quả
    • Optimize
      • Optimize - Một số cách tối ưu code và performance CSharp
    • Dev Blogs
      • Versions of .NET
        • Cập nhật từ .NET 9 lên .NET 10: Những thay đổi quan trọng
      • ASP.NET Core Web API với ASP.NET Core Web API (Native AOT): Bạn nên chọn loại nào?
      • Hướng dẫn xây dựng ứng dụng multi-tenant với .NET Core và MongoDB
      • Kiến Trúc Monolithic và Microservices: Lựa Chọn Phù Hợp Cho Dự Án Của Bạn
  • Design Patterns
    • CQRS Pattern
      • CQRS and MediatR trong .NET Core
    • Microservices
      • Ocelot
  • SQL Server
    • SQL Server Basics
    • SQL Server: DBCC
      • DBCC
      • DBCC SHOW_STATISTICS
      • DBCC SHRINKDATABASE
      • DBCC SHRINKFILE
      • DBCC SQLPERF
      • DBCC FREEPROCCACHE
    • SQL Server Replication
      • Giới thiệu SQL Server Replication
      • Hướng dẫn cấu hình và quản lý SQL Server Replication với Distribution Agent
    • SQL Server: Tập lệnh
      • SQL Server: Tập lệnh để tìm tất cả các giá trị Mặc định với Cột
    • Bảng tạm và sự linh hoạt trong xử lý dữ liệu lớn
    • Các bước để thay đổi nơi lưu trữ tệp log trong SQL Server
    • Các bước di chuyển tệp log trong SQL Server
    • Query Store trong SQL Server - Tổng Quan và Cách Quản Lý Hiệu Quả
    • SQL Server: Error Code
      • SQL Server Error : 14151, Severity: 18. Replication agent
  • Caching
    • Phân tích các phương pháp Caching dữ liệu trong .NET Core và .NET Framework
    • Redis
      • Redis mất dữ liệu khi restart
    • Varnish Cache
      • Hướng Dẫn Cài Đặt Varnish Cache với HAProxy Sử Dụng Docker Compose
  • NodeJS
    • NextJS
      • Hướng dẫn NextJS cho người mới bắt đầu
      • Parallel Routes trong Next.js
      • Hướng dẫn cấu hình Swagger trong NextJS
    • ReactJS
      • Hiểu về hook useRef của React như thế nào cho đúng
      • Tìm hiểu sâu hơn về useEffect từ A-Z
  • OS Linux
    • Tập lệnh Linux hay dùng
    • Centos 7
      • Hướng dẫn cài đặt và cấu hình Centos 7 dành cho người mới bắt đầu
      • Hướng Dẫn Kiểm Tra Các Cổng Đang Mở Trên Hệ Thống CentOS
      • Hướng Dẫn Sử Dụng zip Trên CentOS
      • Hướng dẫn cấu hình iptables để mở tất cả các cổng cho IP private
    • Windows
      • Hướng dẫn quản lý ứng dụng khởi động Windows bằng Registry Editor
  • VMware
    • Cách ảo hóa macOS Sierra trong VMWare Windows 10
    • Tự tin làm chủ mạng lưới: Cẩm nang tính toán địa chỉ IP từ A đến Z
  • Docker
    • Getting Started with Docker
    • Docker HUB
      • nqdev/nginx
  • Templates
    • Tabler Admin Template: Xây dựng Dashboard Quản trị đẹp mắt và dễ dàng
  • Open Source
    • shadcn-ui/ui
    • Kuma UI
    • Midone
  • Ứng dụng
    • Ansible
      • Ansible: Giới thiệu
      • Hướng dẫn chi tiết cài đặt Ansible
    • Apache JMeter
      • Features
        • Hướng dẫn chi tiết về Test Plan trong JMeter
        • Hướng dẫn chi tiết về Thread Group trong JMeter
    • DocFX
      • Những khái niệm cơ bản trong DocFX
      • DocFX - Hướng dẫn cài đặt, cấu hình sử dụng
      • DocFX - Hướng dẫn Markdown
      • DocFX - Hướng dẫn cấu hình file docfx.json
      • DocFX - Hướng dẫn sử dụng và tùy chỉnh Template
    • ETL Tools
      • Công cụ ETL Tools List & Software
      • Airbyte
        • Docker Compose
    • Elasticsearch
      • _reindex
        • Tìm hiểu sâu về API _reindex trong Elasticsearch
        • Hướng dẫn di chuyển dữ liệu trong Elasticsearch sử dụng API _reindex
      • _transform
    • HAProxy
      • HAProxy - Lập trình Lua và tích hợp Redis
    • Localtunnel
      • Hướng dẫn sử dụng Localtunnel để đưa ứng dụng Local lên Internet
    • LoopBack
      • Hướng dẫn cài đặt LoopBack 4 và khởi tạo dự án đầu tiên
    • N8N
      • Hướng dẫn cài đặt n8n bằng docker compose
    • NGINX Plus
      • NGINX: Hiệu suất vượt trội và giải pháp tối ưu cho hệ thống web
      • NGINX: Hướng dẫn chi tiết sử dụng GeoIP2 trên Alpine
      • NGINX: Hướng dẫn sử dụng Lua trên Alpine
      • NGINX: Hướng Dẫn Chi Tiết Cấu Hình Load Balancer
      • NGINX: Hướng Dẫn Sử Dụng Dynamic Modules
      • NGINX: Hướng dẫn Cài đặt và Sử dụng Module njs
      • Tích Hợp NGINX Làm API Gateway với Các Bước Xử Lý Phổ Biến
    • NTP - Secure Timeserver
      • Hướng dẫn cài đặt NTP an toàn với Docker Compose
    • Playwright
      • Playwright: Tự Động Hóa Trình Duyệt Hiệu Quả
    • Wordpress
      • Cách dùng Docker để phát triển ứng dụng Wordpress
  • Tin tức
    • DevSecOps là gì?
    • Giới thiệu bộ công cụ hỗ trợ lập trình từ SmallDev.tools và Code Beautify
    • Giới Thiệu và Hướng Dẫn Về DuckDB
    • Giới thiệu về Các Loại Cơ Sở Dữ Liệu
      • 1. HSQLDB (HyperSQL Database)
    • Hệ thống phân giải tên miền (DNS) và các loại bản ghi
    • Giải thích về Tiền Tố Path Nổi Tiếng – /.well-known
    • Giải mã Hệ thống tạo mã OTP của Google Authenticator
    • Quishing là gì? Hiểu và phòng tránh lừa đảo qua mã QR
  • Hướng dẫn
    • Hướng dẫn chi tiết tạo tài khoản Google bằng email công ty
    • Top 10 ASP .NET Open Source Projects GitHub 2024
    • Free Themes and Templates from Creative Tim
    • Hướng dẫn sử dụng Voler và Mazer Dashboard từ Zuramai
  • So Sánh
    • So Sánh Apache Parquet và CSV: Bảng So Sánh Chi Tiết, Ưu và Nhược Điểm
    • So Sánh Varnish Cache, Memcached và Redis: Ba Công Cụ Caching Phổ Biến trong Tối Ưu Hóa Hiệu Suất
  • Affiliate
    • Tuyển dụng
      • Bộ câu hỏi phỏng vấn T-SQL – Đánh giá ứng viên hiệu quả
    • eSMSvn: Chăm sóc khách hàng hiệu quả với SMS và ZNS
    • eSMS.vn: Giải pháp SMS Marketing hiệu quả cùng các chương trình ưu đãi hấp dẫn
Powered by GitBook
On this page
  • 1. API _Reindex là gì?
  • 2. Cấu trúc cơ bản của API _Reindex
  • 3. Sử Dụng API _Reindex Với Điều Kiện Ngày
  • 3.1 Cấu Hình Truy Vấn
  • 3.2 Giải Thích Cấu Trúc Truy Vấn
  • 3.3 Lọc Dữ Liệu Theo Trường Khác
  • 4. Lưu Ý Khi Sử Dụng API _Reindex
  • 5. Kết Luận

Was this helpful?

  1. Ứng dụng
  2. Elasticsearch
  3. _reindex

Hướng dẫn di chuyển dữ liệu trong Elasticsearch sử dụng API _reindex

Elasticsearch là một công cụ mạnh mẽ để lưu trữ và truy vấn dữ liệu lớn. Tuy nhiên, khi bạn cần di chuyển dữ liệu giữa các index trong Elasticsearch, có một số bước cần phải thực hiện. Một trong những trường hợp phổ biến là khi bạn muốn sao chép hoặc di chuyển các tài liệu từ một index cũ sang một index mới, nhưng chỉ với những dữ liệu thỏa mãn điều kiện nhất định (chẳng hạn như dữ liệu có ngày nhỏ hơn một mốc thời gian nhất định). Trong bài viết này, chúng tôi sẽ hướng dẫn bạn cách di chuyển dữ liệu từ một index Elasticsearch sang index khác với điều kiện ngày nhỏ hơn 1/1/2021 sử dụng API _reindex.

1. API _Reindex là gì?

API _reindex của Elasticsearch cho phép bạn sao chép dữ liệu từ một index này sang index khác. Đây là một công cụ cực kỳ hữu ích khi bạn muốn thay đổi cấu trúc dữ liệu, di chuyển dữ liệu từ index cũ sang index mới, hoặc thực hiện các thao tác khác mà không cần phải xóa dữ liệu ban đầu.

Điều đặc biệt là API _reindex không chỉ sao chép toàn bộ dữ liệu mà còn cho phép bạn lọc dữ liệu dựa trên các điều kiện mà bạn đặt ra trong truy vấn, giúp tiết kiệm tài nguyên và đảm bảo rằng chỉ những dữ liệu quan trọng được sao chép.

2. Cấu trúc cơ bản của API _Reindex

Cấu trúc của API _reindex bao gồm ba phần chính:

  • source: Chỉ định index nguồn mà bạn muốn sao chép dữ liệu.

  • query: Đây là phần quan trọng, nơi bạn có thể xác định các điều kiện lọc dữ liệu (chẳng hạn như thời gian, giá trị trường, v.v.).

  • dest: Chỉ định index đích mà bạn muốn di chuyển dữ liệu đến.

3. Sử Dụng API _Reindex Với Điều Kiện Ngày

Giả sử bạn có một index có tên là tbl_slack_message_log và bạn muốn di chuyển các tài liệu có trường ngày (ví dụ: date) nhỏ hơn ngày 1/1/2021 sang một index mới có tên là tbl_slack_message_log_082024. Bạn có thể sử dụng API _reindex như sau:

3.1 Cấu Hình Truy Vấn

Trước tiên, bạn cần chắc chắn rằng trong dữ liệu của bạn có một trường ngày (ví dụ: date hoặc timestamp) để thực hiện điều kiện lọc. Cấu trúc API _reindex với điều kiện ngày nhỏ hơn 1/1/2021 sẽ như sau:

POST _reindex
{
  "source": {
    "index": "tbl_slack_message_log",
    "query": {
      "range": {
        "date": {
          "lt": "2021-01-01T00:00:00"  // Điều kiện ngày nhỏ hơn 1/1/2021
        }
      }
    }
  },
  "dest": {
    "index": "tbl_slack_message_log_082024"
  }
}

3.2 Giải Thích Cấu Trúc Truy Vấn

  • source.index: Chỉ định index nguồn là tbl_slack_message_log nơi chứa dữ liệu ban đầu.

  • source.query: Phần này chứa truy vấn lọc dữ liệu, ở đây chúng ta sử dụng range để chỉ lấy các tài liệu có trường date nhỏ hơn 2021-01-01T00:00:00.

  • dest.index: Chỉ định index đích mà bạn muốn chuyển dữ liệu đến, trong trường hợp này là tbl_slack_message_log_082024.

3.3 Lọc Dữ Liệu Theo Trường Khác

Nếu trường ngày trong dữ liệu của bạn có tên khác, chẳng hạn như timestamp, bạn chỉ cần thay đổi trường đó trong truy vấn. Ví dụ, nếu trường ngày của bạn là timestamp, truy vấn sẽ như sau:

POST _reindex
{
  "source": {
    "index": "tbl_slack_message_log",
    "query": {
      "range": {
        "timestamp": {
          "lt": "2021-01-01T00:00:00"
        }
      }
    }
  },
  "dest": {
    "index": "tbl_slack_message_log_082024"
  }
}

4. Lưu Ý Khi Sử Dụng API _Reindex

  • Đảm bảo rằng trường ngày (hoặc timestamp) có định dạng đúng: Elasticsearch yêu cầu các trường ngày phải có định dạng chuẩn ISO 8601 (ví dụ: yyyy-MM-dd'T'HH:mm:ss). Nếu trường ngày của bạn có định dạng khác, bạn cần đảm bảo rằng truy vấn được điều chỉnh phù hợp.

  • Kiểm tra dữ liệu đã di chuyển: Sau khi chạy API _reindex, hãy xác nhận rằng dữ liệu đã được di chuyển chính xác sang index mới bằng cách thực hiện truy vấn trên index đích (tbl_slack_message_log_082024) để kiểm tra dữ liệu.

  • Hiệu suất: Trong trường hợp có lượng dữ liệu lớn, hãy chắc chắn rằng cluster của bạn có đủ tài nguyên để xử lý việc reindex mà không gặp phải sự cố về hiệu suất hoặc bộ nhớ.

5. Kết Luận

Di chuyển dữ liệu từ một index này sang một index khác trong Elasticsearch có thể thực hiện dễ dàng với API _reindex. Điều này rất hữu ích khi bạn muốn chỉ sao chép một phần dữ liệu dựa trên điều kiện ngày hoặc các tiêu chí khác. Với cú pháp truy vấn linh hoạt, Elasticsearch cho phép bạn thao tác với dữ liệu hiệu quả và nhanh chóng.

Hãy luôn kiểm tra lại dữ liệu sau khi di chuyển để đảm bảo mọi thứ đã được chuyển đổi chính xác. Nếu có vấn đề về hiệu suất khi di chuyển dữ liệu lớn, bạn có thể sử dụng thêm các tùy chọn như scroll để phân chia các batch nhỏ hơn trong quá trình di chuyển.

Hy vọng bài viết này đã giúp bạn hiểu rõ hơn về cách sử dụng API _reindex trong Elasticsearch để di chuyển dữ liệu với các điều kiện lọc. Chúc bạn thành công trong việc quản lý và tối ưu hóa dữ liệu Elasticsearch của mình!

PreviousTìm hiểu sâu về API _reindex trong ElasticsearchNext_transform

Last updated 5 months ago

Was this helpful?