Распознавание через API

CogniCo предоставляет API для распознавания речи, диаризации спикеров и анализа эмоций. Доступны три режима работы:

Синхронное распознавание — отправить файл и сразу получить результат
Асинхронное распознавание — отправить файл, получить task_id, забрать результат позже
Потоковое распознавание (WebSocket) — отправлять аудио в реальном времени и получать результаты по мере распознавания

Базовый URL: https://cognico.ru

OpenAPI спецификация

Полная спецификация API доступна в формате OpenAPI 3.0: cc-recognition.yaml

Вы можете использовать её для автоматической генерации клиента на любом языке с помощью OpenAPI Generator или аналогичных инструментов.

Получение API-ключа

Все методы требуют передачи API-ключа в заголовке:

Authorization: Bearer YOUR_API_KEY

Синхронный и асинхронный методы возвращают одинаковую структуру RecognitionResultData:

Поле	Тип	Описание
`text`	`string`	Полный распознанный текст
`transcription`	`TranscriptionData`	Детальная транскрипция с сегментами

Поле	Тип	Описание
`segments`	`SpeechSegment[]`	Массив распознанных сегментов
`speakers`	`SpeakerData[]`	Информация о спикерах

Поле	Тип	Описание
`start`	`float`	Время начала (сек)
`end`	`float?`	Время конца (сек)
`text`	`string`	Распознанный текст сегмента
`speech_prob`	`float?`	Вероятность наличия речи (0–1)
`vad_prob`	`float?`	Вероятность VAD (0–1)
`volume_70`	`float?`	Громкость, 70-й перцентиль
`words`	`SpeechWord[]?`	Детализация по словам
`channel`	`string?`	Идентификатор канала
`speaker`	`string?`	Идентификатор спикера
`emotion`	`object?`	Эмоции: `{positive, angry, sad, neutral}` (значения 0–1)

Возможные значения: positive, angry, sad, neutral.