Amazon S3 메타 데이터를 사용하여 DeepSeek-R1 객체의 데이터 검색을 가속화하려면 다음을 수행하십시오.
1. S3 메타 데이터 활성화 : 일반 목적 버킷에 대해 S3 메타 데이터가 활성화되어 있는지 확인하십시오. 이 기능은 제작 시간 및 스토리지 클래스와 같은 시스템 정의 메타 데이터, 태그와 같은 사용자 지정 메타 데이터 및 업데이트 또는 삭제 이벤트와 같은 이벤트 메타 데이터를 포함하여 이러한 버킷의 객체에 대한 메타 데이터를 자동으로 캡처합니다 [1] [3].
2. S3에 DeepSeek-R1 객체를 저장하십시오 : DeepSeek-R1 모델 파일 및 관련 데이터를 S3 버킷에 저장하십시오. 여기에는 모델 가중치, 교육 데이터 또는 기타 관련 파일이 포함될 수 있습니다. `aws s3 sync`와 같은 명령을 사용하여`.git` [5]과 같은 불필요한 디렉토리를 제외하고 파일을 S3에 업로드하십시오.
3. 사용자 정의 메타 데이터 적용 : 객체 태그를 사용하여 DeepSeek-R1 객체에 사용자 정의 메타 데이터를 적용하십시오. 여기에는 모델 버전, 교육 데이터 세트 또는 특정 사용 사례와 같은 정보가 포함될 수 있습니다. 사용자 정의 메타 데이터를 사용하면 비즈니스 별 세부 정보가있는 객체에 주석을 달 수 있으므로 쿼리 및 관리가 더 쉬워 질 수 있습니다 [1] [10].
4. S3 테이블이있는 쿼리 메타 데이터 : S3 메타 데이터 저장 메타 데이터 테이블로 알려진 읽기 전용 Apache 빙산 테이블에서 메타 데이터를 캡처했습니다. 이 테이블은 쿼리에 최적화되어 있으며 AWS 접착제 데이터 카탈로그와 통합 할 수 있습니다. 이 통합을 통해 Amazon Athena, Amazon EMR 또는 Amazon Quicksight와 같은 서비스를 사용하여 메타 데이터를 쿼리 할 수 있습니다 [1] [7].
5. AWS 분석 서비스와 통합 : AWS 분석 서비스를 사용하여 메타 데이터를 쿼리하고 분석합니다. 예를 들어, Amazon Athena를 사용하여 메타 데이터 테이블에서 SQL 쿼리를 실행하여 특정 DeepSeek-R1 모델 버전 또는 교육 데이터 세트를 신속하게 찾을 수 있습니다 [1] [10].
6. 메타 데이터 모니터링 및 업데이트 : S3 버킷에 새로운 DeepSeek-R1 객체를 업데이트하거나 추가 할 때 S3 메타 데이터는 이러한 변경 사항을 반영하기 위해 메타 데이터 테이블을 자동으로 새로 고침합니다. 이를 통해 메타 데이터가 최신 상태이고 정확하게 유지되며 효율적인 데이터 발견 및 관리를 용이하게합니다 [1] [9].
이러한 방식으로 S3 메타 데이터를 활용하면 S3 버킷에서 DeepSeek-R1 객체를 관리하고 발견하는 프로세스를 간소화하여 이러한 자산을 효과적으로 분석하고 활용하는 능력을 향상시킬 수 있습니다.
인용 :
[1] https://docs.aws.amazon.com/amazons3/latest/userguide/metadata-tables-overview.html
[2] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[3] https://repost.aws/questions/qug7thxs_ltqk-n4dfasm20w/few-records-in-s3-metadata
[4] https://www.youtube.com/watch?v=pwekt7ic6ve
[5] https://community.aws/content/2sijqpapmtmnxlriqt5czpttzia/deploy-deepseek-r1-on-aws-bedrock?lang=en
[6] https://www.bigdatawire.com/2024/12/03/aws-unveils-apache-apache-ceberg-serg-serg-serg--new-metadata-management-layer/
[7] https://finance.yahoo.com/news/amazon-s3-expands-capabilities-managed-165200173.html
[8] https://www.tigrisdata.com/blog/thoughts-deepseek-r1/
[9] https://press.aboutamazon.com/2024/12/amazon-s3-expands-capabilities-with-Apache-Siceberg-for-faster-lake-lake-analytics and-automatic-metadata-generation-peneration-cimplify-datic-discovery-and-understanding
[10] https://blocksandfiles.com/2025/01/31/amazon-web-services-makes-it-easier and faster-to-understand-s3-data-with-metadata-offering/
[11] https://aws.amazon.com/s3/features/metadata/