N-gram là một tập hợp các chuỗi, thường bao gồm các từ hoặc ký tự, cùng nhau tạo thành một đơn vị văn bản lớn hơn. Chúng được sử dụng trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP) và lập trình máy tính, cũng như trong an ninh mạng. N-gram rất hữu ích trong việc khám phá các mẫu và xu hướng trong tài liệu, đồng thời cũng có thể được sử dụng để so sánh các nguồn văn bản.

N-gram lần đầu tiên được đề xuất như một lý thuyết vào những năm 1950 bởi các nhà ngôn ngữ học muốn nghiên cứu cấu trúc ngôn ngữ và kể từ đó đã được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau. Trong NLP, n-gram được sử dụng để nghiên cứu ngôn ngữ và phát hiện các biến thể tinh tế giữa chúng. Một mô hình sử dụng n-gram có thể nhận ra những từ nào có nhiều khả năng theo sau nhau nhất theo trình tự và tần suất chúng xuất hiện cùng nhau.

Trong lĩnh vực lập trình máy tính, n-gram được sử dụng để phân tích mã nguồn và các đoạn văn bản viết khác. Điều này được sử dụng cho nhiều mục đích khác nhau như phát hiện các vấn đề pháp lý hoặc đạo văn, cũng như phát hiện các mẫu và xu hướng trong mã. Trong an ninh mạng, n-gram được sử dụng để quét mã độc và xác định hành vi đáng ngờ cũng như phát hiện các mối đe dọa an ninh mạng.

N-gram bao gồm các từ hoặc chuỗi từ, nhưng cũng có thể sử dụng các ký tự. Ví dụ: một n-gram ký tự có thể biểu thị các chữ cái, số, dấu câu và/hoặc ký hiệu. N-gram có thể dao động từ 1 gram (từ đơn hoặc ký tự) đến 5 gram (năm ký tự hoặc từ). N-gram càng lớn thì khả năng phát hiện mẫu càng mạnh và chính xác.

N-gram là một công cụ mạnh mẽ để phân tích nội dung văn bản lớn. Bằng cách phát hiện các mẫu và xu hướng, chúng rất hữu ích cho nhiều nhiệm vụ, từ NLP đến phân tích mã nguồn cho đến an ninh mạng.

Chọn và mua proxy

Proxy trung tâm dữ liệu

Proxy luân phiên

Proxy UDP

Được tin cậy bởi hơn 10000 khách hàng trên toàn thế giới

Khách hàng ủy quyền
Khách hàng ủy quyền
Khách hàng proxy flowch.ai
Khách hàng ủy quyền
Khách hàng ủy quyền
Khách hàng ủy quyền