인사이트
말은 잘하는데 일은 아직: AI 노동 자동화 실험 결과
미검Center for AI Safety와 Scale AI 연구진이 실제 프리랜서 프로젝트를 기반으로 AI 자동화율을 측정했다. 최고 성능 AI의 자동화율은 2.5%에 그쳤다. AI는 문제를 푸는 능력은 빠르게 발전했으나 돈을 받고 끝까지 책임지는 능력은 아직 인간의 영역이었다.
대화형 AI를 속이는 가장 쉬운 방법: 시(詩) 형식 탈옥
미검위험한 요청을 시 형식으로 바꾸면 대부분의 대화형 AI가 안전 규칙을 지키지 못한다는 연구 결과가 나왔다. 최신 LLM 25개를 대상으로 실험한 결과 전체 평균 탈옥 성공률이 62%에 달했다. 일부 모델은 90~100%에 도달했다.
AI 코딩의 미래: Sonar CEO가 말하는 코드 품질과 책임
검증전세계 700만 명이 사용하는 AI 코딩 플랫폼 Sonar의 CEO 타리크 샤우캇이 맥킨지와 AI 코딩의 미래를 논의했다. AI가 작성한 코드의 리뷰와 유지보수가 더 어려워지고 있으며, 독립적 검증과 아키텍처 설계 능력이 핵심 역량으로 부상한다.
"지어내지 마"라고 하면 AI가 더 틀리는 이유
미검"지어내지 마"라고 요구할수록 AI의 답변이 더 부정확해질 수 있다는 연구 결과가 나왔다. 정답이 문서 안에 있어도 AI가 확신하지 못하면 답변을 포기했다. 연구진은 이를 안전해지기 위해 정확성을 희생하는 Safety Tax라고 설명한다.
WIRE
WIRE- SCMP트럼프의 독일 미군 철수 계획에 나토와 공화당이 반대합니다.1시간 전
- AJ일본의 이노우에 나오야, 복싱 슈퍼 밴텀급 타이틀을 방어했습니다.1시간 전
- AJ서울에서 가자 지지 시위가 열렸습니다.1시간 전
- AJ오스트레일리아 원주민 소녀 살인 사건의 용의자가 살인 혐의로 기소됐습니다.1시간 전
- F24브라질 리우데자네이루의 코파카바나 해변에서 샤키라의 무료 콘서트가 열렸습니다.1시간 전
- F24홍콩 정부, 외국 언론과 언론 자유 단체의 비판에 반발했습니다.1시간 전
- SCMP일본, 외계인 탐사 조직을 설립하고 다음 여름에 라디오 관측을 시작합니다.1시간 전
- TG우크라이나군, 러시아군을 스테포베 지역에서 공격했습니다.1시간 전
- TG러시아, 스타링크와 외국 위성 통신 단말기 사용을 금지했습니다.1시간 전
- TG영국과 웨일즈에서는 더 이상 여성의 낙태가 처벌 대상이 아니게 됐습니다.1시간 전
글로벌 인텔리전스
전체보기 →본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.
버블 지표
상세보기 →많이 본 콘텐츠
미국 정치 양극화와 정보 환경의 위기
예멘 해안 유조선 유레카호 피랍 및 소말리아 이동
유럽의 기술 주권 이끄는 유망 스타트업 21선 선정
AI 받아쓰기 앱 8종 기능 및 요금 정책 비교
레플릿의 독립 경영 전략과 수익성 강화
릴리즈 & 논문
전체보기 →RELEASES
langchain-openrouter==0.2.3
langchain-openrouter 0.2.3 버전이 출시되었습니다. 스트리밍 시 분할된 `reasoning_details`를 병합하는 버그가 수정되었습니다.
1일 전
langchain-mistralai==1.1.3
이번 릴리즈에서는 MistralAI 통합에 대한 기능 개선 및 버그 수정이 포함되었습니다. 주요 변경 사항으로는 휴먼 메시지에 대한 이미지 입력 지원 추가, 모델 프로필 데이터 업데이트, 그리고 `langchain-core`의 최소 버전이 `1.2.21`로 상향 조정되었습니다. 또한, 여러 의존성 패키지가 최신 버전으로 업데이트되었습니다.
1일 전
v0.8.0
이번 릴리즈에서는 Anthropic Messages API를 네이티브로 지원하며, 대화 압축 기능이 추가되었습니다. 또한, 기존 Eval API 및 관련 API가 제거되었고, 문서 전반에 걸쳐 UX 개선 및 최적화가 이루어졌습니다. 보안 취약점 수정 및 CI/CD 파이프라인 개선 작업도 포함되었습니다.
1일 전
langchain v1.3.0a1
이번 릴리즈에서는 `create_agent`에 `stream_events` 기능이 추가되었으며, HITL 미들웨어에 `respond` 결정 기능이 포함되었습니다. 또한, 에이전트 상태를 도구 디스패치에 인라인하는 것을 중단하여 성능을 개선했습니다.
1일 전
langchain-openrouter==0.2.2
OpenRouter 통합에 `session_id` 및 `trace` 필드가 추가되었습니다. 또한, 코어 라이브러리에 콘텐츠 블록 중심 스트리밍(v2) 기능이 추가되었으며, 여러 의존성 및 모델 프로필 데이터가 업데이트되었습니다.
1일 전
PAPERS
좋은 터미널 에이전트 벤치마크 과제란 무엇인가: 적대적이고 어렵고 명확한 평가 설계를 위한 가이드라인
3일 전
PRISM: 멀티모달 강화 학습을 위한 블랙박스 온폴리시 증류 기반 사전 정렬
3일 전
발현된 정렬 불량 페르소나의 일관성 특성화
3일 전
프로덕션 Text-to-SQL 시스템에서의 SQL 정확도에 대한 에이전트 독립적 평가
3일 전
LLM을 활용한 설계 구조 행렬 모듈화
3일 전
RHyVE: LLM 생성 보상 가설을 위한 역량 인식 검증 및 단계 인식 배포
3일 전
SpecVQA: 과학 이미지의 스펙트럼 이해 및 시각적 질의응답을 위한 벤치마크
3일 전
LLM 기반 트레이딩 카드 생성에서 절차적 연관성까지: 포켓몬 사례 연구
3일 전
강화학습을 활용한 GUI 에이전트: 디지털 거주자를 향하여
3일 전
AI는 좋은 동료 심사자가 될 수 있는가? 동료 심사 과정, 평가 및 미래에 대한 설문 조사
3일 전