반응형 전체 글288 GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection 대규모 언어 모델(LLM) 훈련은 상당한 양의 메모리와 컴퓨팅 파워를 요구합니다. 예를 들어, LLaMA 7B 모델을 처음부터 사전 훈련하려면 단일 배치 크기에 최소 58GB의 메모리가 필요합니다. 이러한 메모리 문제를 완화하기 위해 등장한 한 방법은 Low-rank Adaptation (LoRA)입니다. 이 접근 방식은 각 계층에 훈련된 Low-rank 행렬을 추가함으로써 파라미터의 수를 줄입니다. 그러나, 이 방법은 Low-rank subspace 내에서 파라미터 검색을 제한하고, 학습을 다이나믹하게 변경하며, full-rank 의 웜 스타트를 필요로 할 수 있어, full-rank 가중치로 훈련했을 때보다 열등한 성능을 초래할 수 있습니다. GaLore: Gradient Low-Rank Projec.. 2024. 3. 26. 스파크(Spark) 최적화하기 스파크(Spark)란 무엇인가? 아파치 스파크(Apache Spark)는 클러스터 환경 내에서 병렬 데이터 처리를 위해 설계된 일련의 라이브러리와 함께하는 통합 컴퓨팅 엔진입니다. 병렬 처리를 위한 가장 활발하게 개발되는 오픈소스 엔진으로서, 스파크는 빅 데이터 작업에 참여하는 개발자들과 데이터 과학자들 사이에서 표준 도구로 빠르게 부상하고 있습니다. 스파크는 파이썬, 자바, 스칼라, R과 같은 인기 있는 프로그래밍 언어와 호환되며, SQL부터 스트리밍, 머신러닝에 이르기까지 다양한 기능을 다루는 광범위한 라이브러리를 제공합니다. 스파크는 다양하게 활용될 수 있으며, 단일 노트북에서부터 수천 대의 서버로 구성된 광대한 클러스터에 이르기까지 다양한 환경에서 운영될 수 있습니다. 이러한 기능을 활용함으로써 .. 2024. 3. 21. LoRA: Low-Rank Adaptation of Large Language Models 인공 지능과 기계 학습의 끊임없이 변화하는 풍경 속에서, 더 효율적이고 효과적인 모델 튜닝 방법을 찾는 탐구는 계속되고 있습니다. 주목받고 있는 한 가지 흥미로운 접근 방식은 LoRA, 즉 Low-Rank Adaptation입니다. LoRA는 특히 자원이 제한된 환경이나 대규모 데이터셋을 다룰 때 모델의 성능을 향상시키는 유망한 해결책을 제공합니다. LoRA 방법론의 핵심은 Low-Rank Decomposition입니다. 실제로, 이는 대규모 차원의 행렬 연산을 낮은 차원으로 분해하는 것을 포함합니다. Self-attention 연산을 고려해 보겠습니다. Self Attention에서는 행렬 연산을 사용하여 Q, K, V를 구성해야 합니다. Q, K, V를 생성하는 데 사용되는 행렬 W는 매우 고차원입니.. 2024. 3. 20. 독일에서 이자 4% 통장 갖기: TradeRepublic 독일 은행들의 이자율은 낮습니다. 학생이 아닌 경우에는 오히려 수수료를 지급해가며 돈을 맡겨야 하기도 합니다. COVID-19이후로 전 세계적으로 금리가 올라가며 그나마 인터넷 은행들은 예금 이자율이 올라가긴 했었지만 이제 다시 금리가 내려가고 있는 추세입니다. 이런 시기에 4%의 이자를 주는 곳이 있습니다. 바로 트레이드 리퍼블릭(TRADE REPUBLIC)입니다. 트레이드 리퍼블릭은 주식이나 코인투자를 주 업무로 하는 인터넷 은행입니다. 트레이드 리퍼블릭의 가장 큰 장점이라면 투자를 할 경우 세금 계산하기가 어려운데, 연말 정산을 위한 세금 정산서를 발급해주기 때문에 다른 브로커들보다 세금 계산하기가 정말 편합니다. 여기에 투자를 직접 하지 않더라도 예금의 5만 유로까지 연 4%에 해당하는 이자를 매.. 2024. 3. 18. 도이칠란드 티켓: 49유로로 독일 여행하기 독일은 철도가 정말 잘 깔려져 있는 나라입니다. 대도시들은 또한 지하철, 트램, 버스로 촘촘히 잘 구성되어 있습니다. 대중교통으로 여행하기 좋은 나라이지요. COVID-19 의 규제가 끝나가고 독일 내수 경제를 위해서 또한 환경보호를 위해서 독일은 대중교통 활성화를 위해 정책을 내놓습니다. 2022년 여름에 독일 정부는 9유로 티켓이라는 파격적인 프로모션을 실행했습니다. 한 달 동안 9유로라는 가격으로 독일 전역의 대중 교통을 이용할 수 있는 것입니다(단, ICE나 IC같은 장거리 기차 노선은 제외). 목적은 대중 교통의 사용을 장려하여 환경 보호에 기여하고, 생활비 부담을 줄이는 것이었습니다. 9유로 티켓은 단 3개월 동안만 한시적으로 운영되었지만 폭발적인 인기를 얻으며 주말에는 사람이 너무 붐벼 대중.. 2024. 3. 17. [베를린] PlusAchtZwo(+82), 베를린의 새로운 한국식 술집 2023년 겨울, 베를린의 식당 지도에 새롭게 이름을 올린 PlusAchtZwo(+82)를 소개하고자 합니다. 이 식당의 이름이 단순하면서도 독특한 느낌을 주는 것은, 바로 +82라는 한국의 국가 코드를 사용함으로써, 한국식당임을 간결하면서도 명확하게 표현하고자 한 것으로 보입니다. 노이쾰른 지역에 위치해 있으며, 조금 외진 곳에 있지만, 그만큼 찾아가는 재미가 있는 곳입니다. https://maps.app.goo.gl/wmvdRj6AF47iQ3Gz7 Plus Acht Zwo (+82) · Richardstraße 107, 12043 Berlin, 독일 ★★★★★ · 한식당 www.google.com 식당의 내부 분위기는 마치 한국의 전통 포차를 연상케 합니다. 메뉴 구성 역시, 단순한 밥집이 아닌 술집.. 2024. 3. 13. Git 브랜치 전략 Git 이란? Git은 속도와 효율성을 갖춘 소규모에서 매우 큰 프로젝트에 이르기까지 모든 것을 처리할 수 있도록 설계된 무료이자 오픈 소스 분산 버전 관리 시스템입니다. 2005년 리누스 토발즈에 의해 리눅스 커널의 개발을 지원하기 위해 만들어졌습니다. Git은 소프트웨어 개발 중 소스 코드의 변경 사항을 추적하면서 개발자들이 프로젝트의 다른 부분에서 동시에 작업할 수 있도록 함으로써 개발자 간의 협업을 용이하게 합니다. 분기(Branching)는 Git의 핵심 기능 중 하나입니다. 개발자는 분기를 생성하여 메인 프로젝트(보통 "master" 브랜치)로부터 독립적으로 새로운 기능이나 수정 사항을 작업할 수 있습니다. 분기에서의 작업이 완료되면, 그것을 메인 브랜치나 다른 브랜치로 병합할 수 있습니다. .. 2024. 3. 7. AI 채팅을 내 컴퓨터에서 실행하기: LLAMA2 with Text generation web UI LLaMA (Large Language Model by Meta AI)는 Meta Platforms, Inc. (이전의 Facebook, Inc.)에 의해 개발된 대규모 언어 모델입니다. 이 모델은 자연어 처리(NLP) 분야에서 다양한 과제를 해결하기 위해 설계되었으며, 텍스트 생성, 이해, 요약, 번역, 질문 응답 등 다양한 언어 기반 작업을 수행할 수 있습니다. LLaMA는 다른 유명한 언어 모델들과 비슷한 트랜스포머 기반 아키텍처를 사용합니다. 트랜스포머 아키텍처는 주의 메커니즘(Attention Mechanism)을 통해 문장 내의 단어들 사이의 관계를 더 잘 이해하고, 이를 통해 문맥을 더 잘 파악하여 더 자연스러운 텍스트를 생성하거나 특정 질문에 대한 답변을 제공할 수 있습니다. Meta는 이.. 2024. 3. 7. 오스트리아 인스부르크(Innsbruck) 오스트리아, 인스부르크하면 어떤게 떠오르시나요? 알프스 산맥에 자리잡고 있는 도시로서 관광객들이 많은 도시이지만, 몇몇 패키지 여행에서 잠시 거쳐가는 도시 아니면 스위스 여행만 생각해서 뒤로 미뤄지는 도시 중 하니이지요. 하지만! 인스부르크는 오스트리아 서부에 위치한 도시로, 티롤 주의 주도입니다. 알프스 산맥에 둘러싸여 있어서 자연 경관이 아름답고, 겨울 스포츠와 하이킹, 마운틴 바이킹 등 다양한 야외 활동을 즐길 수 있는 곳으로 유명합니다. 인스부르크는 역사적으로도 중요한 도시로, 중세 시대부터 번영했으며, 그 흔적으로 많은 역사적 건축물과 명소들이 남아 있습니다. 특히나 알프스의 아름다운 경치를 보여주며 상대적으로 스위스에 비해 물가가 저렴해 더욱 인기가 많습니다. 역사적 명소 황금 지붕 (Gold.. 2024. 2. 13. 이전 1 ··· 18 19 20 21 22 23 24 ··· 32 다음 반응형